échantillon

Retourne un sous-ensemble échantillonné de ce DataFrame.

Syntaxe

sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)

Paramètres

Paramètre	Type	Description
`withReplacement`	bool, facultatif	Exemple avec remplacement ou non (valeur par défaut `False`).
`fraction`	float, facultatif	Fraction des lignes à générer, plage [0.0, 1.0].
`seed`	int, facultatif	Valeur initiale pour l’échantillonnage (valeur par défaut une valeur initiale aléatoire).

Retours

DataFrame: exemples de lignes provenant d’un DataFrame donné.

Remarques

Cela n’est pas garanti pour fournir exactement la fraction spécifiée du nombre total du DataFrame donné.

fractionest obligatoire et withReplacement sont seed facultatifs.

Exemples

df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19