repartitionById

Devuelve una nueva trama de datos particionada por las expresiones de partición especificadas. El dataframe resultante se particiona por identificador de columna.

Sintaxis

repartitionById(numPartitions: int, *cols: "ColumnOrName")

Parámetros

Parámetro Tipo Descripción
numPartitions int número de particiones de destino.
cols str o columna columnas de creación de particiones.

Devoluciones

DataFrame: DataFrame repartitioned.

Notas

Se debe especificar al menos una expresión de partición por . Esto es similar a la repartición en la distribución, pero conserva el orden de las filas dentro de cada partición.

Se trata de una API experimental.

Ejemplos

from pyspark.sql import functions as sf
spark.createDataFrame(
    [(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
    ["age", "name"]
).repartitionById(2, "name").select(
    "age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14|  Tom|                   0|
# | 23|Alice|                   1|
# | 18|Alice|                   1|
# | 21|Alice|                   1|
# | 16|  Bob|                   0|
# +---+-----+--------------------+