kde

Hiermee wordt een KDE-plot (Kernel Density Estimate) gegenereerd met behulp van Gaussian-kernels.

In statistieken is kerneldichtheidsschatting een niet-parametrische manier om de kansdichtheidsfunctie (PDF) van een willekeurige variabele te schatten. Deze functie maakt gebruik van Gaussiische kernels en omvat automatische bandbreedtebepaling.

Syntaxis

kde(bw_method, column=None, ind=None, **kwargs)

Parameterwaarden

Kenmerk Typ Beschrijving
bw_method int of float De methode die wordt gebruikt voor het berekenen van de bandbreedte van de estimator. Zie KernelDensity in PySpark voor meer informatie.
column str of list of str, optioneel Kolomnaam of lijst met namen die moeten worden gebruikt voor het maken van de KDE-plot. Als None (standaard) worden alle numerieke kolommen gebruikt.
ind lijst met float-, NumPy-matrix of int, optioneel Evaluatiepunten voor de geschatte PDF. Als None (standaard) 1000 gelijk verdeelde punten worden gebruikt. Als een NumPy-matrix wordt geëvalueerd, wordt de KDE op die punten geëvalueerd. Als een geheel getal wordt gebruikt, worden veel gelijk verdeelde punten gebruikt.
**kwargs optional Aanvullende trefwoordargumenten.

Retouren

plotly.graph_objs.Figure

Examples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)