Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Calcule une table de fréquences jumelée des colonnes données. Également appelé table d’urgence. La première colonne de chaque ligne sera les valeurs distinctes de col1 et les noms de colonnes seront les valeurs distinctes de col2. Le nom de la première colonne sera $col1_$col2. Les paires qui n’ont aucune occurrence n’auront zéro comme nombre.
DataFrame.crosstab et DataFrameStatFunctions.crosstab sont des alias.
Syntaxe
crosstab(col1: str, col2: str)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
col1 |
str | Nom de la première colonne. Les éléments distincts rendent le premier élément de chaque ligne. |
col2 |
str | Nom de la deuxième colonne. Les éléments distincts rendent les noms de colonnes du DataFrame. |
Retours
DataFrame: matrice de fréquence de deux colonnes.
Exemples
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+