Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Hiermee vindt u frequente items voor kolommen, mogelijk met fout-positieven. Maakt gebruik van het veelgebruikte algoritme voor het aantal elementen dat wordt beschreven door Karp, Schenker en Papadimitriou.
DataFrame.freqItems en DataFrameStatFunctions.freqItems zijn aliassen van elkaar.
Syntaxis
freqItems(cols, support=None)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
cols |
lijst of tuple | Namen van de kolommen voor het berekenen van frequente items. |
support |
float, optioneel | De frequentie waarmee een item regelmatig moet worden overwogen. De standaardwaarde is 1% (0,01). Moet groter zijn dan 1e-4. |
Retouren
DataFrame
Aantekeningen
Deze methode is bedoeld voor experimentele gegevensanalyse. Er is geen garantie voor achterwaartse compatibiliteit voor het schema van het resulterende DataFrame.
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+