Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Devuelve una nueva trama de datos particionada por las expresiones de partición especificadas. El dataframe resultante tiene particiones hash.
Sintaxis
repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
numPartitions |
int | puede ser un valor int para especificar el número de particiones de destino o una columna. Si es una columna, se usará como la primera columna de partición. Si no se especifica, se usa el número predeterminado de particiones. |
cols |
str o columna | columnas de creación de particiones. |
Devoluciones
DataFrame: DataFrame repartitioned.
Ejemplos
from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
"name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
"age", sf.col("id") - 32
)
df.repartition(10).select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 9|
# +---------+
df.repartition(7, "age").select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 6|
# +---------+