approxQuantile (DataFrame)

Berekent de geschatte kwantielen van numerieke kolommen van een DataFrame.

Syntaxis

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Parameterwaarden

Kenmerk Typ Beschrijving
col str, tuple of lijst Kan één kolomnaam of een lijst met namen voor meerdere kolommen zijn.
probabilities lijst of tuple met floats een lijst met kwantiel waarschijnlijkheden. Elk getal moet een float in het bereik [0, 1] zijn. 0,0 is bijvoorbeeld het minimum, 0,5 is de mediaan, 1,0 is het maximum.
relativeError zweven De relatieve doelprecisie om te bereiken (>= 0). Als deze is ingesteld op nul, worden de exacte kwantielen berekend, wat erg duur kan zijn. Houd er rekening mee dat waarden groter dan 1 worden geaccepteerd, maar hetzelfde resultaat krijgen als 1.

Retouren

lijst: de geschatte kwantielen bij de gegeven waarschijnlijkheden. Als de invoer col een tekenreeks is, is de uitvoer een lijst met floats. Als de invoer col een lijst of tuple met tekenreeksen is, is de uitvoer ook een lijst, maar elk element erin is een lijst met floats.

Aantekeningen

Null-waarden worden genegeerd in numerieke kolommen vóór de berekening. Voor kolommen die alleen null-waarden bevatten, wordt een lege lijst geretourneerd.

Examples

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]