échantillon

Retourne un sous-ensemble échantillonné de ce DataFrame.

Syntaxe

sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)

Paramètres

Paramètre Type Description
withReplacement bool, facultatif Exemple avec remplacement ou non (valeur par défaut False).
fraction float, facultatif Fraction des lignes à générer, plage [0.0, 1.0].
seed int, facultatif Valeur initiale pour l’échantillonnage (valeur par défaut une valeur initiale aléatoire).

Retours

DataFrame: exemples de lignes provenant d’un DataFrame donné.

Remarques

Cela n’est pas garanti pour fournir exactement la fraction spécifiée du nombre total du DataFrame donné.

fractionest obligatoire et withReplacement sont seed facultatifs.

Exemples

df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10