Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Genera un gráfico de estimación de densidad de kernel (KDE) mediante kernels gaussianos.
En las estadísticas, la estimación de densidad del kernel es una manera no paramétrica de calcular la función de densidad de probabilidad (PDF) de una variable aleatoria. Esta función usa kernels gaussianos e incluye la determinación automática del ancho de banda.
Sintaxis
kde(bw_method, column=None, ind=None, **kwargs)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
bw_method |
int o float | Método utilizado para calcular el ancho de banda del estimador. Consulte KernelDensity en PySpark para obtener más información. |
column |
str o lista de str, opcional | Nombre de columna o lista de nombres que se van a usar para crear el trazado KDE. Si None es (valor predeterminado), se usan todas las columnas numéricas. |
ind |
lista de float, matriz NumPy o int, opcional | Puntos de evaluación para el PDF estimado. Si None es (valor predeterminado), se usan 1000 puntos con espacio igual. Si una matriz NumPy, el KDE se evalúa en esos puntos. Si es un entero, se usan muchos puntos iguales espaciados. |
**kwargs |
opcional | Argumentos de palabra clave adicionales. |
Devoluciones
plotly.graph_objs.Figure
Ejemplos
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)