corr (DataFrame)

Calcule la corrélation de deux colonnes d’un DataFrame sous la forme d’une valeur double. Actuellement, seul le coefficient de corrélation Pearson est pris en charge. DataFrame.corr et DataFrameStatFunctions.corr sont des alias les uns des autres.

Syntaxe

corr(col1: str, col2: str, method: Optional[str] = None)

Paramètres

Paramètre Type Description
col1 str Nom de la première colonne.
col2 str Nom de la deuxième colonne.
method str, facultatif Méthode de corrélation. Actuellement, seul prend en charge « pearson ».

Retours

float : Coefficient de corrélation Pearson de deux colonnes.

Exemples

df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0