Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Buckets van de uitvoer door de opgegeven kolommen. Indien opgegeven, wordt de uitvoer op het bestandssysteem ingedeeld, vergelijkbaar met het bucketingschema van Hive, maar met een andere bucket-hashfunctie en is deze niet compatibel met bucketing van Hive.
Syntaxis
bucketBy(numBuckets, col, *cols)
Parameterwaarden
| Kenmerk | Typ | Beschrijving |
|---|---|---|
numBuckets |
int | Het aantal buckets dat moet worden opgeslagen. |
col |
str, list of tuple | Een kolomnaam of een lijst met namen. |
*cols |
str, optioneel | Aanvullende kolomnamen. Moet leeg zijn als col dit een lijst is. |
Retouren
DataFrameWriter
Aantekeningen
Van toepassing op gegevensbronnen op basis van bestanden in combinatie met DataFrameWriter.saveAsTable.
Examples
Schrijf een DataFrame naar een bucketed tabel en lees deze terug.
spark.sql("DROP TABLE IF EXISTS bucketed_table")
spark.createDataFrame([
(100, "Alice"), (120, "Alice"), (140, "Bob")],
schema=["age", "name"]
).write.bucketBy(2, "name").mode("overwrite").saveAsTable("bucketed_table")
spark.read.table("bucketed_table").sort("age").show()
# +---+------------+
# |age| name|
# +---+------------+
# |100|Alice|
# |120|Alice|
# |140| Bob|
# +---+------------+
spark.sql("DROP TABLE bucketed_table")