corr (DataFrameStatFunctions)

Calcule la corrélation de deux colonnes d’une DataFrame valeur double. Actuellement, seul le coefficient de corrélation Pearson est pris en charge. DataFrame.corr et DataFrameStatFunctions.corr sont des alias les uns des autres.

Syntaxe

corr(col1, col2, method=None)

Paramètres

Paramètre Type Description
col1 str Nom de la première colonne.
col2 str Nom de la deuxième colonne.
method str, facultatif Méthode de corrélation. Actuellement, prend en charge uniquement "pearson".

Retours

float

Exemples

df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.stat.corr("c1", "c2")
# -0.3592106040535498

df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.stat.corr("small", "bigger")
# 1.0