freqItems (DataFrameStatFunctions)

Busca elementos frecuentes para las columnas, posiblemente con falsos positivos. Usa el algoritmo de recuento de elementos frecuente descrito por Karp, Schenker y Papadimitriou. DataFrame.freqItems y DataFrameStatFunctions.freqItems son alias entre sí.

Sintaxis

freqItems(cols, support=None)

Parámetros

Parámetro	Tipo	Descripción
`cols`	lista o tupla	Nombres de las columnas para los que se van a calcular elementos frecuentes.
`support`	float, opcional	Frecuencia con la que se debe considerar frecuente un elemento. El valor predeterminado es 1% (0.01). Debe ser mayor que 1e-4.

Devoluciones

DataFrame

Notas

Este método está diseñado para el análisis de datos exploratorios. No hay ninguna garantía de compatibilidad con versiones anteriores para el esquema del resultante DataFrame.

Ejemplos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19