crosstab (DataFrameStatFunctions)

Calcule une table de fréquences jumelée des colonnes données, également appelée table d’urgence. La première colonne de chaque ligne contient les valeurs distinctes de , et les noms des col1colonnes sont les valeurs distinctes de col2. Le nom de la première colonne est $col1_$col2. Les paires sans occurrences ont un nombre égal à zéro. DataFrame.crosstab et DataFrameStatFunctions.crosstab sont des alias les uns des autres.

Syntaxe

crosstab(col1, col2)

Paramètres

Paramètre Type Description
col1 str Nom de la première colonne. Les éléments distincts constituent la première colonne de chaque ligne.
col2 str Nom de la deuxième colonne. Les éléments distincts composent les noms de colonnes du résultat DataFrame.

Retours

DataFrame

Exemples

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+