Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Retourne un échantillon stratifié sans remplacement en fonction de la fraction donnée sur chaque strate.
Syntaxe
sampleBy(col, fractions, seed=None)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
col |
str | Colonne qui définit les strates. |
fractions |
dictionnaire | Fraction d’échantillonnage pour chaque strate. Les strates non spécifiées sont traitées comme ayant une fraction de zéro. |
seed |
int, facultatif | Valeur initiale aléatoire. |
Retours
DataFrame
Exemples
from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# | 0| 4|
# | 1| 9|
# +---+-----+