Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Delar slumpmässigt upp dataramen med de angivna vikterna.
Syntax
randomSplit(weights: List[float], seed: Optional[int] = None)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
weights |
lista | lista över dubblar som vikter som dataramen ska delas med. Vikter normaliseras om de inte summeras till 1,0. |
seed |
int, valfritt | Fröet för provtagning. |
Retur
list: Lista över DataFrames.
Exempel
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80, name="Alice"),
Row(age=5, height=None, name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=None, name=None),
])
splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2