kde

Genererar ett KDE-diagram (Kernel Density Estimate) med gaussiska kernels.

I statistik är skattning av kerneldensitet ett icke-parametriskt sätt att uppskatta sannolikhetsfunktionen (PDF) för en slumpmässig variabel. Den här funktionen använder gaussiska kernels och inkluderar automatisk bandbreddsbestämning.

Syntax

kde(bw_method, column=None, ind=None, **kwargs)

Parameters

Parameter Type Beskrivning
bw_method int eller float Den metod som används för att beräkna uppskattningsbandbredden. Mer KernelDensity information finns i PySpark.
column str eller lista över str, valfritt Kolumnnamn eller lista över namn som ska användas för att skapa KDE-diagrammet. Om None (standard) används alla numeriska kolumner.
ind lista över flyttal, NumPy-matris eller int, valfritt Utvärderingspunkter för den uppskattade PDF-filen. Om None (standard) används 1 000 lika fördelade punkter. Om en NumPy-matris utvärderas KDE vid dessa punkter. Om ett heltal används så många lika blankstegspunkter.
**kwargs optional Ytterligare nyckelordsargument.

Retur

plotly.graph_objs.Figure

Exempel

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)