Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Recherche d’éléments fréquents pour les colonnes, éventuellement avec des faux positifs. Utilisation de l’algorithme de nombre d’éléments fréquent décrit dans «https://doi.org/10.1145/762471.762473 , proposé par Karp, Schenker et Papadimitriou ».
DataFrame.freqItems et DataFrameStatFunctions.freqItems sont des alias.
Syntaxe
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
cols |
list ou tuple | Noms des colonnes pour calculer des éléments fréquents comme liste ou tuple de chaînes. |
support |
float, facultatif | Fréquence à laquelle prendre en compte un élément « fréquent ». La valeur par défaut est 1%. La prise en charge doit être supérieure à 1e-4. |
Retours
DataFrame: DataFrame avec des éléments fréquents.
Remarques
Cette fonction est destinée à l’analyse exploratoire des données, car nous ne garantissons pas la compatibilité descendante du schéma du DataFrame résultant.
Exemples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+