freqItems (DataFrame)

Frequente items voor kolommen zoeken, mogelijk met fout-positieven. Gebruik het veelgebruikte algoritme voor het aantal elementen dat wordt beschreven in 'https://doi.org/10.1145/762471.762473, voorgesteld door Karp, Schenker en Papadimitriou'. DataFrame.freqItems en DataFrameStatFunctions.freqItems aliassen zijn.

Syntaxis

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parameterwaarden

Kenmerk Typ Beschrijving
cols lijst of tuple Namen van de kolommen voor het berekenen van frequente items voor als een lijst of tuple met tekenreeksen.
support float, optioneel De frequentie waarmee een item 'frequent' moet worden overwogen. De standaardwaarde is 1%. De ondersteuning moet groter zijn dan 1e-4.

Retouren

DataFrame: DataFrame met frequente items.

Aantekeningen

Deze functie is bedoeld voor experimentele gegevensanalyse, omdat we geen garantie bieden over de achterwaartse compatibiliteit van het schema van het resulterende DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+