sortWithinPartitions

Returnerar en ny DataFrame med varje partition sorterad efter de angivna kolumnerna.

Syntax

sortWithinPartitions(*cols: Union[int, str, Column, List[Union[int, str, Column]]], **kwargs: Any)

Parameters

Parameter Type Beskrivning
cols int, str, list eller Column, valfritt lista över kolumn- eller kolumnnamn eller kolumnordinaler som ska sorteras efter.
ascending bool eller lista, valfritt, standard sant boolesk eller lista över booleska. Sortera stigande jämfört med fallande. Ange lista för flera sorteringsbeställningar. Om en lista anges måste längden på listan vara lika med längden på cols.

Retur

DataFrame: DataFrame sorterade efter partitioner.

Notes

En kolumnordning startar från 1, vilket skiljer sig från 0-baserade __getitem__. Om en kolumnordning är negativ innebär det att sortera fallande.

Exempel

from pyspark.sql import functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
df.sortWithinPartitions("age", ascending=False)
# DataFrame[age: bigint, name: string]

df.coalesce(1).sortWithinPartitions(1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  2|Alice|
# |  5|  Bob|
# +---+-----+

df.coalesce(1).sortWithinPartitions(-1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# +---+-----+