Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Beräknar en parvis frekvenstabell med de angivna kolumnerna, även kallat en beredskapstabell. Den första kolumnen på varje rad innehåller de distinkta värdena col1för , och kolumnnamnen är de distinkta värdena för col2. Namnet på den första kolumnen är $col1_$col2. Par utan förekomster har ett antal noll.
DataFrame.crosstab och DataFrameStatFunctions.crosstab är alias för varandra.
Syntax
crosstab(col1, col2)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
col1 |
str | Namnet på den första kolumnen. Distinkta objekt utgör den första kolumnen i varje rad. |
col2 |
str | Namnet på den andra kolumnen. Distinkta objekt utgör kolumnnamnen för de resulterande DataFrame. |
Retur
DataFrame
Exempel
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+