kde

Génère un tracé KDE (Kernel Density Estimate) à l’aide de noyaux Gaussian.

Dans les statistiques, l’estimation de la densité du noyau est un moyen non paramétrique d’estimer la fonction de densité de probabilité (PDF) d’une variable aléatoire. Cette fonction utilise des noyaux gaussiens et inclut la détermination automatique de la bande passante.

Syntaxe

kde(bw_method, column=None, ind=None, **kwargs)

Paramètres

Paramètre Type Description
bw_method int ou float Méthode utilisée pour calculer la bande passante de l’estimateur. Pour plus d’informations, consultez KernelDensity PySpark.
column str ou liste de str, facultatif Nom de colonne ou liste de noms à utiliser pour créer le tracé KDE. Si None (valeur par défaut), toutes les colonnes numériques sont utilisées.
ind liste de float, tableau NumPy ou int, facultatif Points d’évaluation pour le PDF estimé. Si None (valeur par défaut), 1 000 points d’espacement sont utilisés. Si un tableau NumPy, le KDE est évalué à ces points. S’il s’agit d’un entier, de nombreux points d’espacement identiques sont utilisés.
**kwargs optionnel Arguments de mot clé supplémentaires.

Retours

plotly.graph_objs.Figure

Exemples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)