Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Partitioneert de uitvoer door de opgegeven kolommen in het bestandssysteem. De uitvoer is vergelijkbaar met het partitioneringsschema van Hive.
Syntaxis
partitionBy(*cols)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
*cols |
str of list | Namen van de kolommen die moeten worden gepartitioneerd op. |
Retouren
DataStreamWriter
Examples
df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>
Partitioneer een frequentiebronstroom op tijdstempel en schrijf naar Parquet:
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
q = df.writeStream.partitionBy(
"timestamp").format("parquet").option("checkpointLocation", cp).start(d)
time.sleep(5)
q.stop()
spark.read.schema(df.schema).parquet(d).show()