Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Calcule la corrélation de deux colonnes d’un DataFrame sous la forme d’une valeur double. Actuellement, seul le coefficient de corrélation Pearson est pris en charge.
DataFrame.corr et DataFrameStatFunctions.corr sont des alias les uns des autres.
Syntaxe
corr(col1: str, col2: str, method: Optional[str] = None)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
col1 |
str | Nom de la première colonne. |
col2 |
str | Nom de la deuxième colonne. |
method |
str, facultatif | Méthode de corrélation. Actuellement, seul prend en charge « pearson ». |
Retours
float : Coefficient de corrélation Pearson de deux colonnes.
Exemples
df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0