Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Devuelve una nueva trama de datos particionada por las expresiones de partición especificadas. El dataframe resultante se particiona por identificador de columna.
Sintaxis
repartitionById(numPartitions: int, *cols: "ColumnOrName")
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
numPartitions |
int | número de particiones de destino. |
cols |
str o columna | columnas de creación de particiones. |
Devoluciones
DataFrame: DataFrame repartitioned.
Notas
Se debe especificar al menos una expresión de partición por . Esto es similar a la repartición en la distribución, pero conserva el orden de las filas dentro de cada partición.
Se trata de una API experimental.
Ejemplos
from pyspark.sql import functions as sf
spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
["age", "name"]
).repartitionById(2, "name").select(
"age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14| Tom| 0|
# | 23|Alice| 1|
# | 18|Alice| 1|
# | 21|Alice| 1|
# | 16| Bob| 0|
# +---+-----+--------------------+