sortWithinPartitions

Devuelve un nuevo dataframe con cada partición ordenada por las columnas especificadas.

Sintaxis

sortWithinPartitions(*cols: Union[int, str, Column, List[Union[int, str, Column]]], **kwargs: Any)

Parámetros

Parámetro Tipo Descripción
cols int, str, list o Column, opcional lista de nombres de columna o columna o ordinales de columna por los que se va a ordenar.
ascending bool o list, opcional, predeterminado True booleano o lista de booleanos. Ordene ascendente frente a descendente. Especifique la lista para varios pedidos de ordenación. Si se especifica una lista, la longitud de la lista debe ser igual a la longitud de cols.

Devoluciones

DataFrame: DataFrame ordenado por particiones.

Notas

Un ordinal de columna comienza a partir de 1, que es diferente del basado en __getitem__0. Si un ordinal de columna es negativo, significa ordenar de forma descendente.

Ejemplos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
df.sortWithinPartitions("age", ascending=False)
# DataFrame[age: bigint, name: string]

df.coalesce(1).sortWithinPartitions(1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  2|Alice|
# |  5|  Bob|
# +---+-----+

df.coalesce(1).sortWithinPartitions(-1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# +---+-----+