crosstab (DataFrameStatFunctions)

Beräknar en parvis frekvenstabell med de angivna kolumnerna, även kallat en beredskapstabell. Den första kolumnen på varje rad innehåller de distinkta värdena col1för , och kolumnnamnen är de distinkta värdena för col2. Namnet på den första kolumnen är $col1_$col2. Par utan förekomster har ett antal noll. DataFrame.crosstab och DataFrameStatFunctions.crosstab är alias för varandra.

Syntax

crosstab(col1, col2)

Parameters

Parameter Type Beskrivning
col1 str Namnet på den första kolumnen. Distinkta objekt utgör den första kolumnen i varje rad.
col2 str Namnet på den andra kolumnen. Distinkta objekt utgör kolumnnamnen för de resulterande DataFrame.

Retur

DataFrame

Exempel

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+