Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Beräknar ungefärliga quantiles för numeriska kolumner i en DataFrame.
Syntax
approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
col |
str, tuppeln eller listan | Kan vara ett enstaka kolumnnamn eller en lista med namn för flera kolumner. |
probabilities |
lista eller tupplar med flyttal | en lista över kvantilannolikheter. Varje tal måste vara en flyttal i intervallet [0, 1]. Till exempel är 0,0 det minsta, 0,5 är medianvärdet, 1,0 är maxvärdet. |
relativeError |
flyta/sväva | Den relativa målprecisionen för att uppnå (>= 0). Om värdet är noll beräknas de exakta kvantantiklarna, vilket kan vara mycket dyrt. Observera att värden som är större än 1 accepteras men ger samma resultat som 1. |
Retur
lista: de ungefärliga kvantantilesna vid de angivna sannolikheterna. Om indata col är en sträng är utdata en lista över flyttal. Om indata col är en lista eller tuppeln med strängar är utdata också en lista, men varje element i den är en lista över flyttal.
Notes
Null-värden ignoreras i numeriska kolumner före beräkningen. För kolumner som endast innehåller null-värden returneras en tom lista.
Exempel
data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]
data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]