Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Calcule la corrélation de deux colonnes d’une DataFrame valeur double. Actuellement, seul le coefficient de corrélation Pearson est pris en charge.
DataFrame.corr et DataFrameStatFunctions.corr sont des alias les uns des autres.
Syntaxe
corr(col1, col2, method=None)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
col1 |
str | Nom de la première colonne. |
col2 |
str | Nom de la deuxième colonne. |
method |
str, facultatif | Méthode de corrélation. Actuellement, prend en charge uniquement "pearson". |
Retours
float
Exemples
df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.stat.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.stat.corr("small", "bigger")
# 1.0