sortWithinPartitions

Retourneert een nieuw DataFrame waarbij elke partitie wordt gesorteerd op de opgegeven kolom(en).

Syntaxis

sortWithinPartitions(*cols: Union[int, str, Column, List[Union[int, str, Column]]], **kwargs: Any)

Parameterwaarden

Kenmerk Typ Beschrijving
cols int, str, lijst of kolom, optioneel lijst met kolom- of kolomnamen of kolomdinals waarop u wilt sorteren.
ascending bool of lijst, optioneel, standaard Waar Booleaanse waarde of lijst met booleaanse waarden. Sorteer oplopend versus aflopend. Geef een lijst op voor meerdere sorteervolgordes. Als er een lijst is opgegeven, moet de lengte van de lijst gelijk zijn aan de lengte van de colslijst.

Retouren

DataFrame: DataFrame gesorteerd op partities.

Aantekeningen

Een kolomordinaal begint vanaf 1, wat verschilt van de op 0 gebaseerde __getitem__tabel. Als een kolomordinaal negatief is, betekent dit aflopend sorteren.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
df.sortWithinPartitions("age", ascending=False)
# DataFrame[age: bigint, name: string]

df.coalesce(1).sortWithinPartitions(1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  2|Alice|
# |  5|  Bob|
# +---+-----+

df.coalesce(1).sortWithinPartitions(-1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# +---+-----+