crosstab (DataFrame)

Calcule une table de fréquences jumelée des colonnes données. Également appelé table d’urgence. La première colonne de chaque ligne sera les valeurs distinctes de col1 et les noms de colonnes seront les valeurs distinctes de col2. Le nom de la première colonne sera $col1_$col2. Les paires qui n’ont aucune occurrence n’auront zéro comme nombre. DataFrame.crosstab et DataFrameStatFunctions.crosstab sont des alias.

Syntaxe

crosstab(col1: str, col2: str)

Paramètres

Paramètre Type Description
col1 str Nom de la première colonne. Les éléments distincts rendent le premier élément de chaque ligne.
col2 str Nom de la deuxième colonne. Les éléments distincts rendent les noms de colonnes du DataFrame.

Retours

DataFrame: matrice de fréquence de deux colonnes.

Exemples

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+