Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Beräknar korrelationen mellan två kolumner i en DataFrame som ett dubbelt värde. Stöder för närvarande endast Pearson Correlation Coefficient.
DataFrame.corr och DataFrameStatFunctions.corr är alias för varandra.
Syntax
corr(col1, col2, method=None)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
col1 |
str | Namnet på den första kolumnen. |
col2 |
str | Namnet på den andra kolumnen. |
method |
str, valfritt | Korrelationsmetoden. Stöder för närvarande endast "pearson". |
Retur
float
Exempel
df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.stat.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.stat.corr("small", "bigger")
# 1.0