sortBy

Hiermee sorteert u de uitvoer in elke bucket op de opgegeven kolommen in het bestandssysteem.

Syntaxis

sortBy(col, *cols)

Parameterwaarden

Kenmerk Typ Beschrijving
col str, tuple of list Een kolomnaam of een lijst met namen.
*cols str, optioneel Aanvullende kolomnamen. Moet leeg zijn als col dit een lijst is.

Retouren

DataFrameWriter

Examples

Schrijf een DataFrame in een gesorteerde tabel en lees deze terug.

spark.sql("DROP TABLE IF EXISTS sorted_bucketed_table")
spark.createDataFrame([
    (100, "Alice"), (120, "Alice"), (140, "Bob")],
    schema=["age", "name"]
).write.bucketBy(1, "name").sortBy("age").mode(
    "overwrite").saveAsTable("sorted_bucketed_table")

spark.read.table("sorted_bucketed_table").sort("age").show()
# +---+------------+
# |age|        name|
# +---+------------+
# |100|Alice|
# |120|Alice|
# |140| Bob|
# +---+------------+

spark.sql("DROP TABLE sorted_bucketed_table")