sampleBy (DataFrameStatFunctions)

Devuelve una muestra estratificada sin reemplazo en función de la fracción dada en cada estrato.

Sintaxis

sampleBy(col, fractions, seed=None)

Parámetros

Parámetro Tipo Descripción
col str Columna que define strata.
fractions diccionario Fracción de muestreo para cada estrato. Los estratos no especificados se tratan como una fracción de cero.
seed int, opcional Inicialización aleatoria.

Devoluciones

DataFrame

Ejemplos

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+