Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Recherche des éléments fréquents pour les colonnes, éventuellement avec des faux positifs. Utilise l’algorithme de comptage d’éléments fréquent décrit par Karp, Schenker et Papadimitriou.
DataFrame.freqItems et DataFrameStatFunctions.freqItems sont des alias les uns des autres.
Syntaxe
freqItems(cols, support=None)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
cols |
list ou tuple | Noms des colonnes pour lesquelles calculer les éléments fréquents. |
support |
float, facultatif | Fréquence à laquelle prendre en compte un élément fréquent. La valeur par défaut est 1% (0.01). Doit être supérieur à 1e-4. |
Retours
DataFrame
Remarques
Cette méthode est destinée à l’analyse exploratoire des données. Il n’existe aucune garantie de compatibilité descendante pour le schéma du résultat DataFrame.
Exemples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+