Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Calcula una tabla de frecuencias en pares de las columnas especificadas, también conocida como tabla de contingencia. La primera columna de cada fila contiene los valores distintos de y los nombres de col1columna son los valores distintos de col2. El nombre de la primera columna es $col1_$col2. Los pares sin repeticiones tienen un recuento de cero.
DataFrame.crosstab y DataFrameStatFunctions.crosstab son alias entre sí.
Sintaxis
crosstab(col1, col2)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
col1 |
str | Nombre de la primera columna. Los distintos elementos componen la primera columna de cada fila. |
col2 |
str | Nombre de la segunda columna. Los distintos elementos componen los nombres de columna del objeto resultante DataFrame. |
Devoluciones
DataFrame
Ejemplos
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+