partitionedBy

Crea particiones en la tabla de salida creada por create, createOrReplaceo replace mediante las columnas o transformaciones especificadas. Cuando se especifica, estos valores almacenan los datos de la tabla para lecturas eficaces.

Por ejemplo, cuando una tabla se particiona por día, puede almacenarse en un diseño de directorio como:

  • table/day=2019-06-01/
  • table/day=2019-06-02/

La creación de particiones es una de las técnicas más usadas para optimizar el diseño de datos físicos. Proporciona un índice general para omitir lecturas de datos innecesarias cuando las consultas tienen predicados en las columnas con particiones. Para que las particiones funcionen bien, el número de valores distintos de cada columna normalmente debe ser menor que decenas de miles.

col y cols solo admiten las siguientes funciones de transformación:

  • pyspark.sql.functions.years
  • pyspark.sql.functions.months
  • pyspark.sql.functions.days
  • pyspark.sql.functions.hours
  • pyspark.sql.functions.bucket

Sintaxis

partitionedBy(col, *cols)

Parámetros

Parámetro Tipo Descripción
col Columna o str Primera columna o transformación de creación de particiones.
*cols Columna o str, opcional Columnas o transformaciones de creación de particiones adicionales.

Devoluciones

DataFrameWriterV2