Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Calcula una tabla de frecuencias en pares de las columnas especificadas. También conocido como tabla de contingencia. La primera columna de cada fila será los valores distintos de y los nombres de col1 columna serán los valores distintos de col2. El nombre de la primera columna será $col1_$col2. Los pares que no tienen repeticiones tendrán cero como sus recuentos.
DataFrame.crosstab y DataFrameStatFunctions.crosstab son alias.
Sintaxis
crosstab(col1: str, col2: str)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
col1 |
str | Nombre de la primera columna. Los elementos distintos harán el primer elemento de cada fila. |
col2 |
str | Nombre de la segunda columna. Los elementos distintos harán los nombres de columna del dataframe. |
Devoluciones
DataFrame: matriz de frecuencia de dos columnas.
Ejemplos
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+