freqItems (DataFrame)

Recherche d’éléments fréquents pour les colonnes, éventuellement avec des faux positifs. Utilisation de l’algorithme de nombre d’éléments fréquent décrit dans «https://doi.org/10.1145/762471.762473 , proposé par Karp, Schenker et Papadimitriou ». DataFrame.freqItems et DataFrameStatFunctions.freqItems sont des alias.

Syntaxe

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Paramètres

Paramètre Type Description
cols list ou tuple Noms des colonnes pour calculer des éléments fréquents comme liste ou tuple de chaînes.
support float, facultatif Fréquence à laquelle prendre en compte un élément « fréquent ». La valeur par défaut est 1%. La prise en charge doit être supérieure à 1e-4.

Retours

DataFrame: DataFrame avec des éléments fréquents.

Remarques

Cette fonction est destinée à l’analyse exploratoire des données, car nous ne garantissons pas la compatibilité descendante du schéma du DataFrame résultant.

Exemples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+