Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Retourne un nouveau DataFrame partitionné par les expressions de partitionnement données données. Le DataFrame obtenu est partitionné par identificateur de colonne.
Syntaxe
repartitionById(numPartitions: int, *cols: "ColumnOrName")
Paramètres
| Paramètre | Type | Description |
|---|---|---|
numPartitions |
int | le nombre cible de partitions. |
cols |
str ou colonne | partitionnement de colonnes. |
Retours
DataFrame: DataFrame repartitionné.
Remarques
Au moins une expression partition par doit être spécifiée. Cela est similaire à la repartition dans la distribution, mais conserve l’ordre des lignes dans chaque partition.
Il s’agit d’une API expérimentale.
Exemples
from pyspark.sql import functions as sf
spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
["age", "name"]
).repartitionById(2, "name").select(
"age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14| Tom| 0|
# | 23|Alice| 1|
# | 18|Alice| 1|
# | 21|Alice| 1|
# | 16| Bob| 0|
# +---+-----+--------------------+