corr (DataFrame)

Beräknar korrelationen mellan två kolumner i en DataFrame som ett dubbelt värde. Stöder för närvarande endast Pearson Correlation Coefficient. DataFrame.corr och DataFrameStatFunctions.corr är alias för varandra.

Syntax

corr(col1: str, col2: str, method: Optional[str] = None)

Parameters

Parameter Type Beskrivning
col1 str Namnet på den första kolumnen.
col2 str Namnet på den andra kolumnen.
method str, valfritt Korrelationsmetoden. Stöder för närvarande endast "pearson".

Retur

float: Pearson Correlation Coefficient för två kolumner.

Exempel

df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0