corr (DataFrame)

Calcula la correlación de dos columnas de un DataFrame como un valor doble. Actualmente solo admite el coeficiente de correlación de Pearson. DataFrame.corr y DataFrameStatFunctions.corr son alias entre sí.

Sintaxis

corr(col1: str, col2: str, method: Optional[str] = None)

Parámetros

Parámetro Tipo Descripción
col1 str Nombre de la primera columna.
col2 str Nombre de la segunda columna.
method str, opcional Método de correlación. Actualmente solo admite "pearson".

Devoluciones

float: Coeficiente de correlación de Pearson de dos columnas.

Ejemplos

df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0