Compartilhar via


sampleBy (DataFrameStatFunctions)

Retorna uma amostra estratificada sem substituição com base na fração fornecida em cada estrato.

Sintaxe

sampleBy(col, fractions, seed=None)

Parâmetros

Parâmetro Tipo Descrição
col str A coluna que define os estratos.
fractions dicionário A fração de amostragem para cada estrato. Os estratos não especificados são tratados como tendo uma fração de zero.
seed int, opcional Semente aleatória.

Devoluções

DataFrame

Exemplos

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+