kde

Génère un tracé KDE (Kernel Density Estimate) à l’aide de noyaux Gaussian.

Dans les statistiques, l’estimation de la densité du noyau est un moyen non paramétrique d’estimer la fonction de densité de probabilité (PDF) d’une variable aléatoire. Cette fonction utilise des noyaux gaussiens et inclut la détermination automatique de la bande passante.

Syntaxe

kde(bw_method, column=None, ind=None, **kwargs)

Paramètres

Paramètre	Type	Description
`bw_method`	int ou float	Méthode utilisée pour calculer la bande passante de l’estimateur. Pour plus d’informations, consultez `KernelDensity` PySpark.
`column`	str ou liste de str, facultatif	Nom de colonne ou liste de noms à utiliser pour créer le tracé KDE. Si `None` (valeur par défaut), toutes les colonnes numériques sont utilisées.
`ind`	liste de float, tableau NumPy ou int, facultatif	Points d’évaluation pour le PDF estimé. Si `None` (valeur par défaut), 1 000 points d’espacement sont utilisés. Si un tableau NumPy, le KDE est évalué à ces points. S’il s’agit d’un entier, de nombreux points d’espacement identiques sont utilisés.
`**kwargs`	optionnel	Arguments de mot clé supplémentaires.

Retours

plotly.graph_objs.Figure

Exemples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19