kde

Genera un gráfico de estimación de densidad de kernel (KDE) mediante kernels gaussianos.

En las estadísticas, la estimación de densidad del kernel es una manera no paramétrica de calcular la función de densidad de probabilidad (PDF) de una variable aleatoria. Esta función usa kernels gaussianos e incluye la determinación automática del ancho de banda.

Sintaxis

kde(bw_method, column=None, ind=None, **kwargs)

Parámetros

Parámetro Tipo Descripción
bw_method int o float Método utilizado para calcular el ancho de banda del estimador. Consulte KernelDensity en PySpark para obtener más información.
column str o lista de str, opcional Nombre de columna o lista de nombres que se van a usar para crear el trazado KDE. Si None es (valor predeterminado), se usan todas las columnas numéricas.
ind lista de float, matriz NumPy o int, opcional Puntos de evaluación para el PDF estimado. Si None es (valor predeterminado), se usan 1000 puntos con espacio igual. Si una matriz NumPy, el KDE se evalúa en esos puntos. Si es un entero, se usan muchos puntos iguales espaciados.
**kwargs opcional Argumentos de palabra clave adicionales.

Devoluciones

plotly.graph_objs.Figure

Ejemplos

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)