partitionBy (DataFrameWriter)

Partitioneert de uitvoer door de opgegeven kolommen in het bestandssysteem. Indien opgegeven, wordt de uitvoer ingedeeld in het bestandssysteem dat vergelijkbaar is met het partitioneringsschema van Hive.

Syntaxis

partitionBy(*cols)

Parameterwaarden

Kenmerk	Typ	Beschrijving
`*cols`	str of list	Namen van de kolommen die moeten worden gepartitioneerd op.

Retouren

DataFrameWriter

Examples

Schrijf een DataFrame op een gepartitioneerde manier naar een Parquet-bestand en lees het terug.

import tempfile, os
with tempfile.TemporaryDirectory(prefix="partitionBy") as d:
    spark.createDataFrame(
        [{"age": 100, "name": "Alice"}, {"age": 120, "name": "Ruifeng Zheng"}]
    ).write.partitionBy("name").mode("overwrite").format("parquet").save(d)

    spark.read.parquet(d).sort("age").show()
    # +---+-------------+
    # |age|         name|
    # +---+-------------+
    # |100| Alice|
    # |120|Ruifeng Zheng|
    # +---+-------------+

    # Read one partition as a DataFrame.
    spark.read.parquet(f"{d}{os.path.sep}name=Alice").show()
    # +---+
    # |age|
    # +---+
    # |100|
    # +---+

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19