sampleBy (DataFrameStatFunctions)

Returnerar ett stratifierat prov utan ersättning baserat på bråket som anges på varje stratum.

Syntax

sampleBy(col, fractions, seed=None)

Parameters

Parameter Type Beskrivning
col str Kolumnen som definierar strata.
fractions Dict Samplingsfraktionen för varje stratum. Strata som inte anges behandlas med en bråkdel av noll.
seed int, valfritt Slumpmässigt frö.

Retur

DataFrame

Exempel

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+