freqItems (DataFrameStatFunctions)

Recherche des éléments fréquents pour les colonnes, éventuellement avec des faux positifs. Utilise l’algorithme de comptage d’éléments fréquent décrit par Karp, Schenker et Papadimitriou. DataFrame.freqItems et DataFrameStatFunctions.freqItems sont des alias les uns des autres.

Syntaxe

freqItems(cols, support=None)

Paramètres

Paramètre Type Description
cols list ou tuple Noms des colonnes pour lesquelles calculer les éléments fréquents.
support float, facultatif Fréquence à laquelle prendre en compte un élément fréquent. La valeur par défaut est 1% (0.01). Doit être supérieur à 1e-4.

Retours

DataFrame

Remarques

Cette méthode est destinée à l’analyse exploratoire des données. Il n’existe aucune garantie de compatibilité descendante pour le schéma du résultat DataFrame.

Exemples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+