sampleBy (DataFrameStatFunctions)

Retourneert een gestratificeerde steekproef zonder vervanging op basis van de breuk die op elk stratum is opgegeven.

Syntaxis

sampleBy(col, fractions, seed=None)

Parameterwaarden

Kenmerk Typ Beschrijving
col str De kolom die strata definieert.
fractions Woordenboek De steekproeffractie voor elk stratum. Strata die niet is opgegeven, wordt behandeld als een fractie van nul.
seed int, optioneel Willekeurig zaad.

Retouren

DataFrame

Examples

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+