crosstab (DataFrame)

Calcule une table de fréquences jumelée des colonnes données. Également appelé table d’urgence. La première colonne de chaque ligne sera les valeurs distinctes de col1 et les noms de colonnes seront les valeurs distinctes de col2. Le nom de la première colonne sera $col1_$col2. Les paires qui n’ont aucune occurrence n’auront zéro comme nombre. DataFrame.crosstab et DataFrameStatFunctions.crosstab sont des alias.

Syntaxe

crosstab(col1: str, col2: str)

Paramètres

Paramètre	Type	Description
`col1`	str	Nom de la première colonne. Les éléments distincts rendent le premier élément de chaque ligne.
`col2`	str	Nom de la deuxième colonne. Les éléments distincts rendent les noms de colonnes du DataFrame.

Retours

DataFrame: matrice de fréquence de deux colonnes.

Exemples

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19