partitionedBy

Crea particiones en la tabla de salida creada por create, createOrReplaceo replace mediante las columnas o transformaciones especificadas. Cuando se especifica, estos valores almacenan los datos de la tabla para lecturas eficaces.

Por ejemplo, cuando una tabla se particiona por día, puede almacenarse en un diseño de directorio como:

table/day=2019-06-01/
table/day=2019-06-02/

La creación de particiones es una de las técnicas más usadas para optimizar el diseño de datos físicos. Proporciona un índice general para omitir lecturas de datos innecesarias cuando las consultas tienen predicados en las columnas con particiones. Para que las particiones funcionen bien, el número de valores distintos de cada columna normalmente debe ser menor que decenas de miles.

col y cols solo admiten las siguientes funciones de transformación:

pyspark.sql.functions.years
pyspark.sql.functions.months
pyspark.sql.functions.days
pyspark.sql.functions.hours
pyspark.sql.functions.bucket

Sintaxis

partitionedBy(col, *cols)

Parámetros

Parámetro	Tipo	Descripción
`col`	Columna o str	Primera columna o transformación de creación de particiones.
`*cols`	Columna o str, opcional	Columnas o transformaciones de creación de particiones adicionales.

Devoluciones

DataFrameWriterV2

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19