Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Localiza itens frequentes para colunas, possivelmente com falsos positivos. Usa o algoritmo de contagem de elementos frequente descrito por Karp, Schenker e Papadimitriou.
DataFrame.freqItems e DataFrameStatFunctions.freqItems são aliases uns dos outros.
Sintaxe
freqItems(cols, support=None)
Parâmetros
| Parâmetro | Tipo | Descrição |
|---|---|---|
cols |
lista ou tupla | Nomes das colunas para os qual calcular itens frequentes. |
support |
float, opcional | A frequência com a qual considerar um item frequente. O padrão é 1% (0,01). Deve ser maior que 1e-4. |
Devoluções
DataFrame
Observações
Esse método destina-se à análise de dados exploratória. Não há garantia de compatibilidade com versões anteriores para o esquema do resultado DataFrame.
Exemplos
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+