partitionedBy

Partitionne la table de sortie créée par create, createOrReplaceou replace à l’aide des colonnes ou transformations données. Lorsqu’elles sont spécifiées, les données de table sont stockées par ces valeurs pour des lectures efficaces.

Par exemple, lorsqu’une table est partitionnée par jour, elle peut être stockée dans une disposition de répertoire comme :

  • table/day=2019-06-01/
  • table/day=2019-06-02/

Le partitionnement est l’une des techniques les plus utilisées pour optimiser la disposition des données physiques. Il fournit un index grossière pour ignorer les lectures de données inutiles lorsque les requêtes ont des prédicats sur les colonnes partitionnés. Pour que le partitionnement fonctionne correctement, le nombre de valeurs distinctes dans chaque colonne doit généralement être inférieur à des dizaines de milliers.

col et cols prennent uniquement en charge les fonctions de transformation suivantes :

  • pyspark.sql.functions.years
  • pyspark.sql.functions.months
  • pyspark.sql.functions.days
  • pyspark.sql.functions.hours
  • pyspark.sql.functions.bucket

Syntaxe

partitionedBy(col, *cols)

Paramètres

Paramètre Type Description
col Colonne ou str Première colonne de partitionnement ou transformation.
*cols Colonne ou str, facultatif Colonnes ou transformations de partitionnement supplémentaires.

Retours

DataFrameWriterV2