clusterBy (DataStreamWriter)

Clusteriza a saída pelas colunas fornecidas. Registros com valores semelhantes nas colunas de clustering são agrupados no mesmo arquivo. O clustering melhora a eficiência da consulta permitindo que consultas com predicados nas colunas de clustering ignorem dados desnecessários. Ao contrário do particionamento, o clustering pode ser usado em colunas de alta cardinalidade.

Sintaxe

clusterBy(*cols)

Parâmetros

Parâmetro	Tipo	Descrição
`*cols`	str ou lista	Nomes das colunas para cluster por.

Devoluções

DataStreamWriter

Exemplos

df = spark.readStream.format("rate").load()
df.writeStream.clusterBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>

Cluster de um fluxo de origem de taxa por carimbo de data/hora e gravação no Parquet:

import tempfile
import time
with tempfile.TemporaryDirectory(prefix="clusterBy1") as d:
    with tempfile.TemporaryDirectory(prefix="clusterBy2") as cp:
        df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
        q = df.writeStream.clusterBy(
            "timestamp").format("parquet").option("checkpointLocation", cp).start(d)
        time.sleep(5)
        q.stop()
        spark.read.schema(df.schema).parquet(d).show()

Comentários

Esta página foi útil?

Last updated on 2026-04-19