Répartition

Retourne un nouveau DataFrame partitionné par les expressions de partitionnement données données. Le DataFrame résultant est partitionné.

Syntaxe

repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")

Paramètres

Paramètre Type Description
numPartitions int peut être un int pour spécifier le nombre cible de partitions ou d’une colonne. S’il s’agit d’une colonne, elle sera utilisée comme première colonne de partitionnement. S’il n’est pas spécifié, le nombre par défaut de partitions est utilisé.
cols str ou colonne partitionnement de colonnes.

Retours

DataFrame: DataFrame repartitionné.

Exemples

from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
    "name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
    "age", sf.col("id") - 32
)
df.repartition(10).select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        9|
# +---------+

df.repartition(7, "age").select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        6|
# +---------+