Compartilhar via


approxQuantile (DataFrame)

Calcula os quantiles aproximados de colunas numéricas de um DataFrame.

Sintaxe

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Parâmetros

Parâmetro Tipo Descrição
col str, tupla ou lista Pode ser um único nome de coluna ou uma lista de nomes para várias colunas.
probabilities lista ou tupla de floats uma lista de probabilidades quantile. Cada número deve ser um float no intervalo [0, 1]. Por exemplo, 0,0 é o mínimo, 0,5 é a mediana, 1,0 é o máximo.
relativeError derivar A precisão de destino relativa a ser alcançada (>= 0). Se definido como zero, os quantiles exatos serão computados, o que pode ser muito caro. Observe que valores maiores que 1 são aceitos, mas fornece o mesmo resultado que 1.

Devoluções

list: os quantiles aproximados nas probabilidades fornecidas. Se a entrada col for uma cadeia de caracteres, a saída será uma lista de floats. Se a entrada col for uma lista ou tupla de cadeias de caracteres, a saída também será uma lista, mas cada elemento nela é uma lista de floats.

Observações

Valores nulos serão ignorados em colunas numéricas antes do cálculo. Para colunas que contêm apenas valores nulos, uma lista vazia é retornada.

Exemplos

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]