kde

Genera un gráfico de estimación de densidad de kernel (KDE) mediante kernels gaussianos.

En las estadísticas, la estimación de densidad del kernel es una manera no paramétrica de calcular la función de densidad de probabilidad (PDF) de una variable aleatoria. Esta función usa kernels gaussianos e incluye la determinación automática del ancho de banda.

Sintaxis

kde(bw_method, column=None, ind=None, **kwargs)

Parámetros

Parámetro	Tipo	Descripción
`bw_method`	int o float	Método utilizado para calcular el ancho de banda del estimador. Consulte `KernelDensity` en PySpark para obtener más información.
`column`	str o lista de str, opcional	Nombre de columna o lista de nombres que se van a usar para crear el trazado KDE. Si `None` es (valor predeterminado), se usan todas las columnas numéricas.
`ind`	lista de float, matriz NumPy o int, opcional	Puntos de evaluación para el PDF estimado. Si `None` es (valor predeterminado), se usan 1000 puntos con espacio igual. Si una matriz NumPy, el KDE se evalúa en esos puntos. Si es un entero, se usan muchos puntos iguales espaciados.
`**kwargs`	opcional	Argumentos de palabra clave adicionales.

Devoluciones

plotly.graph_objs.Figure

Ejemplos

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19