corr (DataFrameStatFunctions)

Beräknar korrelationen mellan två kolumner i en DataFrame som ett dubbelt värde. Stöder för närvarande endast Pearson Correlation Coefficient. DataFrame.corr och DataFrameStatFunctions.corr är alias för varandra.

Syntax

corr(col1, col2, method=None)

Parameters

Parameter Type Beskrivning
col1 str Namnet på den första kolumnen.
col2 str Namnet på den andra kolumnen.
method str, valfritt Korrelationsmetoden. Stöder för närvarande endast "pearson".

Retur

float

Exempel

df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.stat.corr("c1", "c2")
# -0.3592106040535498

df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.stat.corr("small", "bigger")
# 1.0