Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Partitionne la sortie par les colonnes données sur le système de fichiers. La sortie est disposée comme le schéma de partitionnement de Hive.
Syntaxe
partitionBy(*cols)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
*cols |
str ou list | Noms des colonnes à partitionner. |
Retours
DataStreamWriter
Exemples
df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>
Partitionnez un flux source Rate par horodatage et écrivez dans Parquet :
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
q = df.writeStream.partitionBy(
"timestamp").format("parquet").option("checkpointLocation", cp).start(d)
time.sleep(5)
q.stop()
spark.read.schema(df.schema).parquet(d).show()