Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Partitioner utdata av de angivna kolumnerna i filsystemet. Om det anges anges utdata i filsystemet som liknar Hive-partitioneringsschemat.
Syntax
partitionBy(*cols)
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
*cols |
str eller lista | Namn på de kolumner som ska partitioneras av. |
Retur
DataFrameWriter
Exempel
Skriv en DataFrame till en Parquet-fil på ett partitionerat sätt och läs tillbaka den.
import tempfile, os
with tempfile.TemporaryDirectory(prefix="partitionBy") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}, {"age": 120, "name": "Ruifeng Zheng"}]
).write.partitionBy("name").mode("overwrite").format("parquet").save(d)
spark.read.parquet(d).sort("age").show()
# +---+-------------+
# |age| name|
# +---+-------------+
# |100| Alice|
# |120|Ruifeng Zheng|
# +---+-------------+
# Read one partition as a DataFrame.
spark.read.parquet(f"{d}{os.path.sep}name=Alice").show()
# +---+
# |age|
# +---+
# |100|
# +---+