freqItems (DataFrame)

Buscar elementos frecuentes para columnas, posiblemente con falsos positivos. Con el algoritmo de recuento de elementos frecuente descrito en "https://doi.org/10.1145/762471.762473, propuesto por Karp, Schenker y Papadimitriou". DataFrame.freqItems y DataFrameStatFunctions.freqItems son alias.

Sintaxis

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parámetros

Parámetro Tipo Descripción
cols lista o tupla Nombres de las columnas para calcular elementos frecuentes para como una lista o tupla de cadenas.
support float, opcional Frecuencia con la que se debe considerar un elemento "frecuente". El valor predeterminado es 1%. La compatibilidad debe ser mayor que 1e-4.

Devoluciones

DataFrame: DataFrame con elementos frecuentes.

Notas

Esta función está pensada para el análisis de datos exploratorios, ya que no se garantiza la compatibilidad con versiones anteriores del esquema del DataFrame resultante.

Ejemplos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+