bucketBy

Buckets van de uitvoer door de opgegeven kolommen. Indien opgegeven, wordt de uitvoer op het bestandssysteem ingedeeld, vergelijkbaar met het bucketingschema van Hive, maar met een andere bucket-hashfunctie en is deze niet compatibel met bucketing van Hive.

Syntaxis

bucketBy(numBuckets, col, *cols)

Parameterwaarden

Kenmerk Typ Beschrijving
numBuckets int Het aantal buckets dat moet worden opgeslagen.
col str, list of tuple Een kolomnaam of een lijst met namen.
*cols str, optioneel Aanvullende kolomnamen. Moet leeg zijn als col dit een lijst is.

Retouren

DataFrameWriter

Aantekeningen

Van toepassing op gegevensbronnen op basis van bestanden in combinatie met DataFrameWriter.saveAsTable.

Examples

Schrijf een DataFrame naar een bucketed tabel en lees deze terug.

spark.sql("DROP TABLE IF EXISTS bucketed_table")
spark.createDataFrame([
    (100, "Alice"), (120, "Alice"), (140, "Bob")],
    schema=["age", "name"]
).write.bucketBy(2, "name").mode("overwrite").saveAsTable("bucketed_table")

spark.read.table("bucketed_table").sort("age").show()
# +---+------------+
# |age|        name|
# +---+------------+
# |100|Alice|
# |120|Alice|
# |140| Bob|
# +---+------------+

spark.sql("DROP TABLE bucketed_table")