Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Berekent de geschatte kwantielen van numerieke kolommen van een DataFrame.
Syntaxis
approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
col |
str, tuple of lijst | Kan één kolomnaam of een lijst met namen voor meerdere kolommen zijn. |
probabilities |
lijst of tuple met floats | een lijst met kwantiel waarschijnlijkheden. Elk getal moet een float in het bereik [0, 1] zijn. 0,0 is bijvoorbeeld het minimum, 0,5 is de mediaan, 1,0 is het maximum. |
relativeError |
zweven | De relatieve doelprecisie om te bereiken (>= 0). Als deze is ingesteld op nul, worden de exacte kwantielen berekend, wat erg duur kan zijn. Houd er rekening mee dat waarden groter dan 1 worden geaccepteerd, maar hetzelfde resultaat krijgen als 1. |
Retouren
lijst: de geschatte kwantielen bij de gegeven waarschijnlijkheden. Als de invoer col een tekenreeks is, is de uitvoer een lijst met floats. Als de invoer col een lijst of tuple met tekenreeksen is, is de uitvoer ook een lijst, maar elk element erin is een lijst met floats.
Aantekeningen
Null-waarden worden genegeerd in numerieke kolommen vóór de berekening. Voor kolommen die alleen null-waarden bevatten, wordt een lege lijst geretourneerd.
Examples
data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]
data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]