sort

Retourne un nouveau DataFrame trié par les colonnes spécifiées.

Syntaxe

sort(*cols: Union[int, str, Column, List[Union[int, str, Column]]], **kwargs: Any)

Paramètres

Paramètre Type Description
cols int, str, list ou Column, facultatif liste des noms de colonnes ou des ordinals de colonne à trier.
ascending bool ou list, facultatif, valeur true par défaut booléen ou liste de booléen. Tri croissant et décroissant. Spécifiez la liste pour plusieurs ordres de tri. Si une liste est spécifiée, la longueur de la liste doit être égale à la longueur du cols.

Retours

DataFrame: DataFrame trié.

Remarques

Un ordinal de colonne commence à partir de 1, qui est différent de celui basé sur __getitem__0. Si un ordinal de colonne est négatif, cela signifie un tri décroissant.

Exemples

from pyspark.sql import functions as sf
df = spark.createDataFrame([
    (2, "Alice"), (5, "Bob")], schema=["age", "name"])

df.sort(sf.asc("age")).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  2|Alice|
# |  5|  Bob|
# +---+-----+

df.sort(df.age.desc()).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# +---+-----+

df.sort("age", ascending=False).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# +---+-----+

df = spark.createDataFrame([
    (2, "Alice"), (2, "Bob"), (5, "Bob")], schema=["age", "name"])
df.orderBy(sf.desc("age"), "name").show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# |  2|  Bob|
# +---+-----+