crosstab (DataFrame)

Calcula una tabla de frecuencias en pares de las columnas especificadas. También conocido como tabla de contingencia. La primera columna de cada fila será los valores distintos de y los nombres de col1 columna serán los valores distintos de col2. El nombre de la primera columna será $col1_$col2. Los pares que no tienen repeticiones tendrán cero como sus recuentos. DataFrame.crosstab y DataFrameStatFunctions.crosstab son alias.

Sintaxis

crosstab(col1: str, col2: str)

Parámetros

Parámetro Tipo Descripción
col1 str Nombre de la primera columna. Los elementos distintos harán el primer elemento de cada fila.
col2 str Nombre de la segunda columna. Los elementos distintos harán los nombres de columna del dataframe.

Devoluciones

DataFrame: matriz de frecuencia de dos columnas.

Ejemplos

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+