Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Calcula los cuantiles aproximados de columnas numéricas de un dataframe.
Sintaxis
approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
col |
str, tupla o lista | Puede ser un nombre de columna única o una lista de nombres para varias columnas. |
probabilities |
lista o tupla de floats | una lista de probabilidades cuantiles. Cada número debe ser un float en el intervalo [0, 1]. Por ejemplo, 0,0 es el mínimo, 0,5 es la mediana, 1,0 es el máximo. |
relativeError |
flotante | Precisión de destino relativa que se va a lograr (>= 0). Si se establece en cero, se calculan los cuantiles exactos, lo que podría ser muy caro. Tenga en cuenta que se aceptan valores mayores que 1, pero da el mismo resultado que 1. |
Devoluciones
list: cuantiles aproximados a las probabilidades dadas. Si la entrada col es una cadena, la salida es una lista de floats. Si la entrada col es una lista o tupla de cadenas, la salida también es una lista, pero cada elemento de él es una lista de floats.
Notas
Los valores NULL se omitirán en columnas numéricas antes del cálculo. Para las columnas que solo contienen valores NULL, se devuelve una lista vacía.
Ejemplos
data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]
data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]