randomSplit

Splitst dit DataFrame willekeurig op met de opgegeven gewichten.

Syntaxis

randomSplit(weights: List[float], seed: Optional[int] = None)

Parameterwaarden

Kenmerk Typ Beschrijving
weights list lijst met dubbele waarden als gewichten waarmee het DataFrame moet worden gesplitst. Gewichten worden genormaliseerd als ze niet optellen tot 1,0.
seed int, optioneel Het zaad voor steekproeven.

Retouren

lijst: Lijst met DataFrames.

Examples

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=None, name=None),
])

splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2