sampleBy (DataFrame)

Retourneert een gestratificeerde steekproef zonder vervanging op basis van de breuk die op elk stratum is opgegeven.

Syntaxis

sampleBy(col: "ColumnOrName", fractions: Dict[Any, float], seed: Optional[int] = None)

Parameterwaarden

Kenmerk Typ Beschrijving
col Kolom of str kolom die strata definieert.
fractions Woordenboek steekproeffractie voor elk stratum. Als een stratum niet is opgegeven, behandelen we de breuk als nul.
seed int, optioneel willekeurig zaad.

Retouren

een nieuw DataFrame dat de gelaagde steekproef vertegenwoordigt.

Examples

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+

dataset.sampleBy(sf.col("key"), fractions={2: 1.0}, seed=0).count()
# 33