Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Returnerar en ny DataFrame som partitionerats av de angivna partitioneringsuttrycken. Den resulterande DataFrame partitioneras efter kolumnidentifierare.
Syntax
repartitionById(numPartitions: int, *cols: "ColumnOrName")
Parameters
| Parameter | Type | Beskrivning |
|---|---|---|
numPartitions |
int | målantalet partitioner. |
cols |
str eller kolumn | partitioneringskolumner. |
Retur
DataFrame: Ompartitionerad DataFrame.
Notes
Minst ett partition-by-uttryck måste anges. Detta liknar ompartition i distributionen, men bevarar ordningen på raderna i varje partition.
Det här är ett experimentellt API.
Exempel
from pyspark.sql import functions as sf
spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
["age", "name"]
).repartitionById(2, "name").select(
"age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14| Tom| 0|
# | 23|Alice| 1|
# | 18|Alice| 1|
# | 21|Alice| 1|
# | 16| Bob| 0|
# +---+-----+--------------------+