Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Partitioneert de uitvoer door de opgegeven kolommen in het bestandssysteem. Indien opgegeven, wordt de uitvoer ingedeeld in het bestandssysteem dat vergelijkbaar is met het partitioneringsschema van Hive.
Syntaxis
partitionBy(*cols)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
*cols |
str of list | Namen van de kolommen die moeten worden gepartitioneerd op. |
Retouren
DataFrameWriter
Examples
Schrijf een DataFrame op een gepartitioneerde manier naar een Parquet-bestand en lees het terug.
import tempfile, os
with tempfile.TemporaryDirectory(prefix="partitionBy") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}, {"age": 120, "name": "Ruifeng Zheng"}]
).write.partitionBy("name").mode("overwrite").format("parquet").save(d)
spark.read.parquet(d).sort("age").show()
# +---+-------------+
# |age| name|
# +---+-------------+
# |100| Alice|
# |120|Ruifeng Zheng|
# +---+-------------+
# Read one partition as a DataFrame.
spark.read.parquet(f"{d}{os.path.sep}name=Alice").show()
# +---+
# |age|
# +---+
# |100|
# +---+