repartitionById

Retourne un nouveau DataFrame partitionné par les expressions de partitionnement données données. Le DataFrame obtenu est partitionné par identificateur de colonne.

Syntaxe

repartitionById(numPartitions: int, *cols: "ColumnOrName")

Paramètres

Paramètre Type Description
numPartitions int le nombre cible de partitions.
cols str ou colonne partitionnement de colonnes.

Retours

DataFrame: DataFrame repartitionné.

Remarques

Au moins une expression partition par doit être spécifiée. Cela est similaire à la repartition dans la distribution, mais conserve l’ordre des lignes dans chaque partition.

Il s’agit d’une API expérimentale.

Exemples

from pyspark.sql import functions as sf
spark.createDataFrame(
    [(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
    ["age", "name"]
).repartitionById(2, "name").select(
    "age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14|  Tom|                   0|
# | 23|Alice|                   1|
# | 18|Alice|                   1|
# | 21|Alice|                   1|
# | 16|  Bob|                   0|
# +---+-----+--------------------+