bucketBy

Buckets van de uitvoer door de opgegeven kolommen. Indien opgegeven, wordt de uitvoer op het bestandssysteem ingedeeld, vergelijkbaar met het bucketingschema van Hive, maar met een andere bucket-hashfunctie en is deze niet compatibel met bucketing van Hive.

Syntaxis

bucketBy(numBuckets, col, *cols)

Parameterwaarden

Kenmerk	Typ	Beschrijving
`numBuckets`	int	Het aantal buckets dat moet worden opgeslagen.
`col`	str, list of tuple	Een kolomnaam of een lijst met namen.
`*cols`	str, optioneel	Aanvullende kolomnamen. Moet leeg zijn als `col` dit een lijst is.

Retouren

DataFrameWriter

Aantekeningen

Van toepassing op gegevensbronnen op basis van bestanden in combinatie met DataFrameWriter.saveAsTable.

Examples

Schrijf een DataFrame naar een bucketed tabel en lees deze terug.

spark.sql("DROP TABLE IF EXISTS bucketed_table")
spark.createDataFrame([
    (100, "Alice"), (120, "Alice"), (140, "Bob")],
    schema=["age", "name"]
).write.bucketBy(2, "name").mode("overwrite").saveAsTable("bucketed_table")

spark.read.table("bucketed_table").sort("age").show()
# +---+------------+
# |age|        name|
# +---+------------+
# |100|Alice|
# |120|Alice|
# |140| Bob|
# +---+------------+

spark.sql("DROP TABLE bucketed_table")

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19