Verdeling

Retourneert een nieuw DataFrame dat is gepartitioneerd door de opgegeven partitioneringsexpressies. Het resulterende DataFrame is gepartitioneerd met hash.

Syntaxis

repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")

Parameterwaarden

Kenmerk Typ Beschrijving
numPartitions int kan een int zijn om het doelaantal partities of een kolom op te geven. Als het een kolom is, wordt deze gebruikt als de eerste partitioneringskolom. Als dit niet is opgegeven, wordt het standaardaantal partities gebruikt.
cols str of Column partitionering van kolommen.

Retouren

DataFrame: Opnieuw gepartitioneerd DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
    "name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
    "age", sf.col("id") - 32
)
df.repartition(10).select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        9|
# +---------+

df.repartition(7, "age").select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        6|
# +---------+