Compartilhar via


freqItems (DataFrame)

Localizando itens frequentes para colunas, possivelmente com falsos positivos. Usando o algoritmo de contagem de elementos frequente descrito em "https://doi.org/10.1145/762471.762473, proposto por Karp, Schenker e Papadimitriou". DataFrame.freqItems e DataFrameStatFunctions.freqItems são aliases.

Sintaxe

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parâmetros

Parâmetro Tipo Descrição
cols lista ou tupla Nomes das colunas para calcular itens frequentes como uma lista ou tupla de cadeias de caracteres.
support float, opcional A frequência com a qual considerar um item 'frequente'. O padrão é 1%. O suporte deve ser maior que 1e-4.

Devoluções

DataFrame: DataFrame com itens frequentes.

Observações

Essa função destina-se à análise de dados exploratória, pois não garantimos a compatibilidade com versões anteriores do esquema do DataFrame resultante.

Exemplos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+