crosstab (DataFrame)

Beräknar en parvis frekvenstabell med de angivna kolumnerna. Kallas även för en beredskapstabell. Den första kolumnen på varje rad är de distinkta värdena col1 för och kolumnnamnen är de distinkta värdena col2för . Namnet på den första kolumnen blir $col1_$col2. Par som inte har några förekomster har noll som antal. DataFrame.crosstab och DataFrameStatFunctions.crosstab är alias.

Syntax

crosstab(col1: str, col2: str)

Parameters

Parameter Type Beskrivning
col1 str Namnet på den första kolumnen. Distinkta objekt blir det första objektet på varje rad.
col2 str Namnet på den andra kolumnen. Distinkta objekt gör kolumnnamnen för DataFrame.

Retur

DataFrame: Frekvensmatris för två kolumner.

Exempel

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+