freqItems (DataFrameStatFunctions)

Recherche des éléments fréquents pour les colonnes, éventuellement avec des faux positifs. Utilise l’algorithme de comptage d’éléments fréquent décrit par Karp, Schenker et Papadimitriou. DataFrame.freqItems et DataFrameStatFunctions.freqItems sont des alias les uns des autres.

Syntaxe

freqItems(cols, support=None)

Paramètres

Paramètre	Type	Description
`cols`	list ou tuple	Noms des colonnes pour lesquelles calculer les éléments fréquents.
`support`	float, facultatif	Fréquence à laquelle prendre en compte un élément fréquent. La valeur par défaut est 1% (0.01). Doit être supérieur à 1e-4.

Retours

DataFrame

Remarques

Cette méthode est destinée à l’analyse exploratoire des données. Il n’existe aucune garantie de compatibilité descendante pour le schéma du résultat DataFrame.

Exemples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19