freqItems (DataFrameStatFunctions)

Busca elementos frecuentes para las columnas, posiblemente con falsos positivos. Usa el algoritmo de recuento de elementos frecuente descrito por Karp, Schenker y Papadimitriou. DataFrame.freqItems y DataFrameStatFunctions.freqItems son alias entre sí.

Sintaxis

freqItems(cols, support=None)

Parámetros

Parámetro Tipo Descripción
cols lista o tupla Nombres de las columnas para los que se van a calcular elementos frecuentes.
support float, opcional Frecuencia con la que se debe considerar frecuente un elemento. El valor predeterminado es 1% (0.01). Debe ser mayor que 1e-4.

Devoluciones

DataFrame

Notas

Este método está diseñado para el análisis de datos exploratorios. No hay ninguna garantía de compatibilidad con versiones anteriores para el esquema del resultante DataFrame.

Ejemplos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+