Compartilhar via


crosstab (DataFrame)

Calcula uma tabela de frequência em termos de par das colunas fornecidas. Também conhecida como tabela de contingência. A primeira coluna de cada linha será os valores distintos e os nomes de col1 coluna serão os valores distintos de col2. O nome da primeira coluna será $col1_$col2. Os pares que não tiverem ocorrências terão zero como contagem. DataFrame.crosstab e DataFrameStatFunctions.crosstab são aliases.

Sintaxe

crosstab(col1: str, col2: str)

Parâmetros

Parâmetro Tipo Descrição
col1 str O nome da primeira coluna. Itens distintos farão o primeiro item de cada linha.
col2 str O nome da segunda coluna. Itens distintos farão os nomes de coluna do DataFrame.

Devoluções

DataFrame: matriz de frequência de duas colunas.

Exemplos

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+