partitionBy (DataStreamWriter)

Partitionne la sortie par les colonnes données sur le système de fichiers. La sortie est disposée comme le schéma de partitionnement de Hive.

Syntaxe

partitionBy(*cols)

Paramètres

Paramètre	Type	Description
`*cols`	str ou list	Noms des colonnes à partitionner.

Retours

DataStreamWriter

Exemples

df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>

Partitionnez un flux source Rate par horodatage et écrivez dans Parquet :

import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
    with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
        df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
        q = df.writeStream.partitionBy(
            "timestamp").format("parquet").option("checkpointLocation", cp).start(d)
        time.sleep(5)
        q.stop()
        spark.read.schema(df.schema).parquet(d).show()

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19