partitionedBy

Partitionne la table de sortie créée par create, createOrReplaceou replace à l’aide des colonnes ou transformations données. Lorsqu’elles sont spécifiées, les données de table sont stockées par ces valeurs pour des lectures efficaces.

Par exemple, lorsqu’une table est partitionnée par jour, elle peut être stockée dans une disposition de répertoire comme :

table/day=2019-06-01/
table/day=2019-06-02/

Le partitionnement est l’une des techniques les plus utilisées pour optimiser la disposition des données physiques. Il fournit un index grossière pour ignorer les lectures de données inutiles lorsque les requêtes ont des prédicats sur les colonnes partitionnés. Pour que le partitionnement fonctionne correctement, le nombre de valeurs distinctes dans chaque colonne doit généralement être inférieur à des dizaines de milliers.

col et cols prennent uniquement en charge les fonctions de transformation suivantes :

pyspark.sql.functions.years
pyspark.sql.functions.months
pyspark.sql.functions.days
pyspark.sql.functions.hours
pyspark.sql.functions.bucket

Syntaxe

partitionedBy(col, *cols)

Paramètres

Paramètre	Type	Description
`col`	Colonne ou str	Première colonne de partitionnement ou transformation.
`*cols`	Colonne ou str, facultatif	Colonnes ou transformations de partitionnement supplémentaires.

Retours

DataFrameWriterV2

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-19