freqItems (DataFrame)

Frequente items voor kolommen zoeken, mogelijk met fout-positieven. Gebruik het veelgebruikte algoritme voor het aantal elementen dat wordt beschreven in 'https://doi.org/10.1145/762471.762473, voorgesteld door Karp, Schenker en Papadimitriou'. DataFrame.freqItems en DataFrameStatFunctions.freqItems aliassen zijn.

Syntaxis

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parameterwaarden

Kenmerk	Typ	Beschrijving
`cols`	lijst of tuple	Namen van de kolommen voor het berekenen van frequente items voor als een lijst of tuple met tekenreeksen.
`support`	float, optioneel	De frequentie waarmee een item 'frequent' moet worden overwogen. De standaardwaarde is 1%. De ondersteuning moet groter zijn dan 1e-4.

Retouren

DataFrame: DataFrame met frequente items.

Aantekeningen

Deze functie is bedoeld voor experimentele gegevensanalyse, omdat we geen garantie bieden over de achterwaartse compatibiliteit van het schema van het resulterende DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19