Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Partitionne la table de sortie créée par create, createOrReplaceou replace à l’aide des colonnes ou transformations données. Lorsqu’elles sont spécifiées, les données de table sont stockées par ces valeurs pour des lectures efficaces.
Par exemple, lorsqu’une table est partitionnée par jour, elle peut être stockée dans une disposition de répertoire comme :
table/day=2019-06-01/table/day=2019-06-02/
Le partitionnement est l’une des techniques les plus utilisées pour optimiser la disposition des données physiques. Il fournit un index grossière pour ignorer les lectures de données inutiles lorsque les requêtes ont des prédicats sur les colonnes partitionnés. Pour que le partitionnement fonctionne correctement, le nombre de valeurs distinctes dans chaque colonne doit généralement être inférieur à des dizaines de milliers.
col et cols prennent uniquement en charge les fonctions de transformation suivantes :
pyspark.sql.functions.yearspyspark.sql.functions.monthspyspark.sql.functions.dayspyspark.sql.functions.hourspyspark.sql.functions.bucket
Syntaxe
partitionedBy(col, *cols)
Paramètres
| Paramètre | Type | Description |
|---|---|---|
col |
Colonne ou str | Première colonne de partitionnement ou transformation. |
*cols |
Colonne ou str, facultatif | Colonnes ou transformations de partitionnement supplémentaires. |
Retours
DataFrameWriterV2