freqItems (DataFrame)

Buscar elementos frecuentes para columnas, posiblemente con falsos positivos. Con el algoritmo de recuento de elementos frecuente descrito en "https://doi.org/10.1145/762471.762473, propuesto por Karp, Schenker y Papadimitriou". DataFrame.freqItems y DataFrameStatFunctions.freqItems son alias.

Sintaxis

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parámetros

Parámetro	Tipo	Descripción
`cols`	lista o tupla	Nombres de las columnas para calcular elementos frecuentes para como una lista o tupla de cadenas.
`support`	float, opcional	Frecuencia con la que se debe considerar un elemento "frecuente". El valor predeterminado es 1%. La compatibilidad debe ser mayor que 1e-4.

Devoluciones

DataFrame: DataFrame con elementos frecuentes.

Notas

Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.

Ejemplos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19