randomSplit

Delar slumpmässigt upp dataramen med de angivna vikterna.

Syntax

randomSplit(weights: List[float], seed: Optional[int] = None)

Parameters

Parameter Type Beskrivning
weights lista lista över dubblar som vikter som dataramen ska delas med. Vikter normaliseras om de inte summeras till 1,0.
seed int, valfritt Fröet för provtagning.

Retur

list: Lista över DataFrames.

Exempel

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=None, name=None),
])

splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2