sampleBy (DataFrameStatFunctions)

Retourne un échantillon stratifié sans remplacement en fonction de la fraction donnée sur chaque strate.

Syntaxe

sampleBy(col, fractions, seed=None)

Paramètres

Paramètre Type Description
col str Colonne qui définit les strates.
fractions dictionnaire Fraction d’échantillonnage pour chaque strate. Les strates non spécifiées sont traitées comme ayant une fraction de zéro.
seed int, facultatif Valeur initiale aléatoire.

Retours

DataFrame

Exemples

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+