Répartition

Retourne un nouveau DataFrame partitionné par les expressions de partitionnement données données. Le DataFrame résultant est partitionné.

Syntaxe

repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")

Paramètres

Paramètre	Type	Description
`numPartitions`	int	peut être un int pour spécifier le nombre cible de partitions ou d’une colonne. S’il s’agit d’une colonne, elle sera utilisée comme première colonne de partitionnement. S’il n’est pas spécifié, le nombre par défaut de partitions est utilisé.
`cols`	str ou colonne	partitionnement de colonnes.

Retours

DataFrame: DataFrame repartitionné.

Exemples

from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
    "name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
    "age", sf.col("id") - 32
)
df.repartition(10).select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        9|
# +---------+

df.repartition(7, "age").select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        6|
# +---------+

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19