Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Génère un tracé KDE (Kernel Density Estimate) à l’aide de noyaux Gaussian.
Dans les statistiques, l’estimation de la densité du noyau est un moyen non paramétrique d’estimer la fonction de densité de probabilité (PDF) d’une variable aléatoire. Cette fonction utilise des noyaux gaussiens et inclut la détermination automatique de la bande passante.
Syntaxe
kde(bw_method, column=None, ind=None, **kwargs)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
bw_method |
int ou float | Méthode utilisée pour calculer la bande passante de l’estimateur. Pour plus d’informations, consultez KernelDensity PySpark. |
column |
str ou liste de str, facultatif | Nom de colonne ou liste de noms à utiliser pour créer le tracé KDE. Si None (valeur par défaut), toutes les colonnes numériques sont utilisées. |
ind |
liste de float, tableau NumPy ou int, facultatif | Points d’évaluation pour le PDF estimé. Si None (valeur par défaut), 1 000 points d’espacement sont utilisés. Si un tableau NumPy, le KDE est évalué à ces points. S’il s’agit d’un entier, de nombreux points d’espacement identiques sont utilisés. |
**kwargs |
optionnel | Arguments de mot clé supplémentaires. |
Retours
plotly.graph_objs.Figure
Exemples
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)