Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Retourne un nouveau DataFrame partitionné par les expressions de partitionnement données données. Le DataFrame résultant est partitionné.
Syntaxe
repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")
Paramètres
| Paramètre | Type | Description |
|---|---|---|
numPartitions |
int | peut être un int pour spécifier le nombre cible de partitions ou d’une colonne. S’il s’agit d’une colonne, elle sera utilisée comme première colonne de partitionnement. S’il n’est pas spécifié, le nombre par défaut de partitions est utilisé. |
cols |
str ou colonne | partitionnement de colonnes. |
Retours
DataFrame: DataFrame repartitionné.
Exemples
from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
"name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
"age", sf.col("id") - 32
)
df.repartition(10).select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 9|
# +---------+
df.repartition(7, "age").select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 6|
# +---------+