Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Partitioner utdata av de angivna kolumnerna i filsystemet. Utdata anges på samma sätt som Hive-partitioneringsschemat.
Syntax
partitionBy(*cols)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
*cols |
str eller lista | Namn på de kolumner som ska partitioneras av. |
Retur
DataStreamWriter
Exempel
df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>
Partitionering av en frekvenskällström efter tidsstämpel och skriv till Parquet:
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
q = df.writeStream.partitionBy(
"timestamp").format("parquet").option("checkpointLocation", cp).start(d)
time.sleep(5)
q.stop()
spark.read.schema(df.schema).parquet(d).show()