Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Hiermee wordt een KDE-plot (Kernel Density Estimate) gegenereerd met behulp van Gaussian-kernels.
In statistieken is kerneldichtheidsschatting een niet-parametrische manier om de kansdichtheidsfunctie (PDF) van een willekeurige variabele te schatten. Deze functie maakt gebruik van Gaussiische kernels en omvat automatische bandbreedtebepaling.
Syntaxis
kde(bw_method, column=None, ind=None, **kwargs)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
bw_method |
int of float | De methode die wordt gebruikt voor het berekenen van de bandbreedte van de estimator. Zie KernelDensity in PySpark voor meer informatie. |
column |
str of list of str, optioneel | Kolomnaam of lijst met namen die moeten worden gebruikt voor het maken van de KDE-plot. Als None (standaard) worden alle numerieke kolommen gebruikt. |
ind |
lijst met float-, NumPy-matrix of int, optioneel | Evaluatiepunten voor de geschatte PDF. Als None (standaard) 1000 gelijk verdeelde punten worden gebruikt. Als een NumPy-matrix wordt geëvalueerd, wordt de KDE op die punten geëvalueerd. Als een geheel getal wordt gebruikt, worden veel gelijk verdeelde punten gebruikt. |
**kwargs |
optional | Aanvullende trefwoordargumenten. |
Retouren
plotly.graph_objs.Figure
Examples
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)