approxQuantile (DataFrame)

Calcula los cuantiles aproximados de columnas numéricas de un dataframe.

Sintaxis

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Parámetros

Parámetro Tipo Descripción
col str, tupla o lista Puede ser un nombre de columna única o una lista de nombres para varias columnas.
probabilities lista o tupla de floats una lista de probabilidades cuantiles. Cada número debe ser un float en el intervalo [0, 1]. Por ejemplo, 0,0 es el mínimo, 0,5 es la mediana, 1,0 es el máximo.
relativeError flotante Precisión de destino relativa que se va a lograr (>= 0). Si se establece en cero, se calculan los cuantiles exactos, lo que podría ser muy caro. Tenga en cuenta que se aceptan valores mayores que 1, pero da el mismo resultado que 1.

Devoluciones

list: cuantiles aproximados a las probabilidades dadas. Si la entrada col es una cadena, la salida es una lista de floats. Si la entrada col es una lista o tupla de cadenas, la salida también es una lista, pero cada elemento de él es una lista de floats.

Notas

Los valores NULL se omitirán en columnas numéricas antes del cálculo. Para las columnas que solo contienen valores NULL, se devuelve una lista vacía.

Ejemplos

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]