partitioning.bucket

Uma transformação para qualquer tipo que se particione com base num hash da coluna de entrada.

Observação

Esta função só pode ser usada em combinação com DataFrameWriterV2.partitionedBy o método.

Sintaxe

from pyspark.sql.functions import partitioning

partitioning.bucket(numBuckets, col)

Parâmetro	Tipo	Description
`numBuckets`	`pyspark.sql.Column` ou int	O número de baldes.
`col`	`pyspark.sql.Column` ou str	Data alvo ou coluna de carimbo temporal para trabalhar.

from pyspark.sql.functions import partitioning
df.writeTo("catalog.db.table").partitionedBy(
    partitioning.bucket(42, "ts")
).createOrReplace()

Esta página foi útil?