Verdeling

Retourneert een nieuw DataFrame dat is gepartitioneerd door de opgegeven partitioneringsexpressies. Het resulterende DataFrame is gepartitioneerd met hash.

Syntaxis

repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")

Parameterwaarden

Kenmerk	Typ	Beschrijving
`numPartitions`	int	kan een int zijn om het doelaantal partities of een kolom op te geven. Als het een kolom is, wordt deze gebruikt als de eerste partitioneringskolom. Als dit niet is opgegeven, wordt het standaardaantal partities gebruikt.
`cols`	str of Column	partitionering van kolommen.

Retouren

DataFrame: Opnieuw gepartitioneerd DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
    "name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
    "age", sf.col("id") - 32
)
df.repartition(10).select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        9|
# +---------+

df.repartition(7, "age").select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        6|
# +---------+

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19