crosstab (DataFrame)

Calcula una tabla de frecuencias en pares de las columnas especificadas. También conocido como tabla de contingencia. La primera columna de cada fila será los valores distintos de y los nombres de col1 columna serán los valores distintos de col2. El nombre de la primera columna será $col1_$col2. Los pares que no tienen repeticiones tendrán cero como sus recuentos. DataFrame.crosstab y DataFrameStatFunctions.crosstab son alias.

Sintaxis

crosstab(col1: str, col2: str)

Parámetros

Parámetro	Tipo	Descripción
`col1`	str	Nombre de la primera columna. Los elementos distintos harán el primer elemento de cada fila.
`col2`	str	Nombre de la segunda columna. Los elementos distintos harán los nombres de columna del dataframe.

Devoluciones

DataFrame: matriz de frecuencia de dos columnas.

Ejemplos

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19