randomSplit

Divide aleatoriamente este DataFrame con los pesos proporcionados.

Sintaxis

randomSplit(weights: List[float], seed: Optional[int] = None)

Parámetros

Parámetro Tipo Descripción
weights lista lista de dobles como pesos con los que dividir el dataframe. Los pesos se normalizarán si no suman hasta 1,0.
seed int, opcional Inicialización para el muestreo.

Devoluciones

list: lista de dataframes.

Ejemplos

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=None, name=None),
])

splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2