kde

Hiermee wordt een KDE-plot (Kernel Density Estimate) gegenereerd met behulp van Gaussian-kernels.

In statistieken is kerneldichtheidsschatting een niet-parametrische manier om de kansdichtheidsfunctie (PDF) van een willekeurige variabele te schatten. Deze functie maakt gebruik van Gaussiische kernels en omvat automatische bandbreedtebepaling.

Syntaxis

kde(bw_method, column=None, ind=None, **kwargs)

Parameterwaarden

Kenmerk	Typ	Beschrijving
`bw_method`	int of float	De methode die wordt gebruikt voor het berekenen van de bandbreedte van de estimator. Zie `KernelDensity` in PySpark voor meer informatie.
`column`	str of list of str, optioneel	Kolomnaam of lijst met namen die moeten worden gebruikt voor het maken van de KDE-plot. Als `None` (standaard) worden alle numerieke kolommen gebruikt.
`ind`	lijst met float-, NumPy-matrix of int, optioneel	Evaluatiepunten voor de geschatte PDF. Als `None` (standaard) 1000 gelijk verdeelde punten worden gebruikt. Als een NumPy-matrix wordt geëvalueerd, wordt de KDE op die punten geëvalueerd. Als een geheel getal wordt gebruikt, worden veel gelijk verdeelde punten gebruikt.
`**kwargs`	optional	Aanvullende trefwoordargumenten.

Retouren

plotly.graph_objs.Figure

Examples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19