freqItems (DataFrameStatFunctions)

Hiermee vindt u frequente items voor kolommen, mogelijk met fout-positieven. Maakt gebruik van het veelgebruikte algoritme voor het aantal elementen dat wordt beschreven door Karp, Schenker en Papadimitriou. DataFrame.freqItems en DataFrameStatFunctions.freqItems zijn aliassen van elkaar.

Syntaxis

freqItems(cols, support=None)

Parameterwaarden

Kenmerk Typ Beschrijving
cols lijst of tuple Namen van de kolommen voor het berekenen van frequente items.
support float, optioneel De frequentie waarmee een item regelmatig moet worden overwogen. De standaardwaarde is 1% (0,01). Moet groter zijn dan 1e-4.

Retouren

DataFrame

Aantekeningen

Deze methode is bedoeld voor experimentele gegevensanalyse. Er is geen garantie voor achterwaartse compatibiliteit voor het schema van het resulterende DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+