freqItems (DataFrameStatFunctions)

Hiermee vindt u frequente items voor kolommen, mogelijk met fout-positieven. Maakt gebruik van het veelgebruikte algoritme voor het aantal elementen dat wordt beschreven door Karp, Schenker en Papadimitriou. DataFrame.freqItems en DataFrameStatFunctions.freqItems zijn aliassen van elkaar.

Syntaxis

freqItems(cols, support=None)

Parameterwaarden

Kenmerk	Typ	Beschrijving
`cols`	lijst of tuple	Namen van de kolommen voor het berekenen van frequente items.
`support`	float, optioneel	De frequentie waarmee een item regelmatig moet worden overwogen. De standaardwaarde is 1% (0,01). Moet groter zijn dan 1e-4.

Retouren

DataFrame

Aantekeningen

Deze methode is bedoeld voor experimentele gegevensanalyse. Er is geen garantie voor achterwaartse compatibiliteit voor het schema van het resulterende DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19