Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Beräknar en parvis frekvenstabell med de angivna kolumnerna. Kallas även för en beredskapstabell. Den första kolumnen på varje rad är de distinkta värdena col1 för och kolumnnamnen är de distinkta värdena col2för . Namnet på den första kolumnen blir $col1_$col2. Par som inte har några förekomster har noll som antal.
DataFrame.crosstab och DataFrameStatFunctions.crosstab är alias.
Syntax
crosstab(col1: str, col2: str)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
col1 |
str | Namnet på den första kolumnen. Distinkta objekt blir det första objektet på varje rad. |
col2 |
str | Namnet på den andra kolumnen. Distinkta objekt gör kolumnnamnen för DataFrame. |
Retur
DataFrame: Frekvensmatris för två kolumner.
Exempel
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+