Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Frequente items voor kolommen zoeken, mogelijk met fout-positieven. Gebruik het veelgebruikte algoritme voor het aantal elementen dat wordt beschreven in 'https://doi.org/10.1145/762471.762473, voorgesteld door Karp, Schenker en Papadimitriou'.
DataFrame.freqItems en DataFrameStatFunctions.freqItems aliassen zijn.
Syntaxis
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
cols |
lijst of tuple | Namen van de kolommen voor het berekenen van frequente items voor als een lijst of tuple met tekenreeksen. |
support |
float, optioneel | De frequentie waarmee een item 'frequent' moet worden overwogen. De standaardwaarde is 1%. De ondersteuning moet groter zijn dan 1e-4. |
Retouren
DataFrame: DataFrame met frequente items.
Aantekeningen
Deze functie is bedoeld voor experimentele gegevensanalyse, omdat we geen garantie bieden over de achterwaartse compatibiliteit van het schema van het resulterende DataFrame.
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+