Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Returnerar ett stratifierat prov utan ersättning baserat på bråket som anges på varje stratum.
Syntax
sampleBy(col, fractions, seed=None)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
col |
str | Kolumnen som definierar strata. |
fractions |
Dict | Samplingsfraktionen för varje stratum. Strata som inte anges behandlas med en bråkdel av noll. |
seed |
int, valfritt | Slumpmässigt frö. |
Retur
DataFrame
Exempel
from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# | 0| 4|
# | 1| 9|
# +---+-----+