option (DataFrameWriterV2)

Ajoute une option d’écriture pour la source de données sous-jacente. Pour obtenir certaines options disponibles, consultez Options.

Syntaxe

option(key, value)

Paramètres

Paramètre Type Description
key str La clé d’option.
value str, int, float ou bool Valeur de l’option.

Options

Le tableau suivant contient certaines options d’enregistreur :

Clé Formats Description
arrayElementName XML Nom de l’élément pour les éléments de tableau qui n’ont pas de nom explicite. Par défaut : item. S’applique au xml (DataFrameWriter).
attributePrefix XML Préfixe ajouté aux noms de champs correspondant aux attributs XML. Par défaut : _. S’applique au xml (DataFrameWriter).
avroSchema Avro Schéma Avro complet sous forme de chaîne JSON. Utilisez cette option pour convertir des types SPARK SQL en types Avro spécifiques. S’applique au fichier Avro.
charToEscapeQuoteEscaping CSV Caractère utilisé pour échapper au caractère d’échappement lorsqu’il diffère du caractère de guillemet. Valeur par défaut : \0 (non activé). S’applique à csv (DataFrameWriter).
clusterByAuto Delta Lake Indique s’il faut activer le clustering liquide automatique, où Azure Databricks sélectionne des colonnes de clustering en fonction des modèles de requête. Valide uniquement avec mode("overwrite"). Impossible d’utiliser le append mode. Par défaut : false. Disponible dans Databricks Runtime 16.4 et versions ultérieures. S’applique à Utiliser le clustering liquide pour les tables.
compression CSV, JSON, ORC, Parquet, Text, XML Codec de compression à utiliser lors de l’écriture. Les valeurs valides varient selon le format. S’applique à csv (DataFrameWriter),json (DataFrameWriter), orc (DataFrameWriter), parquet (DataFrameWriter), texte (DataFrameWriter), xml (DataFrameWriter).
dateFormat CSV, JSON, XML Chaîne de format pour les valeurs de colonne de date. Par défaut : yyyy-MM-dd. S’applique à csv (DataFrameWriter),json (DataFrameWriter), xml (DataFrameWriter).
declaration XML Chaîne de déclaration XML écrite en haut de chaque fichier de sortie. Définissez sur une chaîne vide pour supprimer la déclaration. Par défaut : version="1.0" encoding="UTF-8" standalone="yes". S’applique au xml (DataFrameWriter).
emptyValue CSV Chaîne écrite pour les valeurs vides (non null). Par défaut : "". S’applique à csv (DataFrameWriter).
encoding CSV, JSON, XML Encodage de caractères pour les fichiers de sortie. Par défaut : UTF-8. S’applique à csv (DataFrameWriter),json (DataFrameWriter), xml (DataFrameWriter).
escape CSV Caractère utilisé pour échapper les valeurs entre guillemets. Par défaut : \. S’applique à csv (DataFrameWriter).
escapeQuotes CSV Indique s’il faut placer les guillemets entre guillemets dans les valeurs de champ entre guillemets. Par défaut : true. S’applique à csv (DataFrameWriter).
header CSV Indique s’il faut écrire des noms de colonnes comme première ligne de la sortie. Par défaut : false. S’applique à csv (DataFrameWriter).
ignoreLeadingWhiteSpace CSV Indique s’il faut découper les espaces blancs de début des valeurs lors de l’écriture. Par défaut : false. S’applique à csv (DataFrameWriter).
ignoreNullFields JSON Indique s’il faut omettre des champs avec des valeurs Null à partir de la sortie JSON. Valeur par défaut : valeur de spark.sql.jsonGenerator.ignoreNullFields. S’applique à json (DataFrameWriter).
ignoreTrailingWhiteSpace CSV Indique s’il faut découper l’espace de fin des valeurs lors de l’écriture. Par défaut : false. S’applique à csv (DataFrameWriter).
lineSep CSV, JSON, Text Chaîne de séparation de ligne utilisée entre les enregistrements. Par défaut : \n. S’applique à csv (DataFrameWriter),json (DataFrameWriter), au texte (DataFrameWriter).
mergeSchema Delta Lake Indique s’il faut activer l’évolution du schéma pour l’opération d’écriture. Les nouvelles colonnes du DataFrame source sont ajoutées au schéma de table cible. S’applique aux ajouts de traitement par lots et de diffusion en continu. S’applique au schéma de la table Update.
nullValue CSV Chaîne écrite pour les valeurs Null. Par défaut : "". S’applique à csv (DataFrameWriter).
nullValue XML Chaîne écrite pour les valeurs Null. Par défaut : null. Lorsque la valeur est définie null, les attributs et les éléments enfants pour les champs Null sont omis. S’applique au xml (DataFrameWriter).
overwriteSchema Delta Lake Indique s’il faut remplacer le schéma de table et le partitionnement lors du remplacement. Nécessite mode("overwrite") sans replaceWhere. Impossible d’utiliser avec partitionOverwriteMode. S’applique au schéma de la table Update.
partitionOverwriteMode Delta Lake Mode de remplacement de partition. Définissez cette option pour dynamic remplacer uniquement les partitions contenant de nouvelles données, ce qui laisse toutes les autres partitions inchangées. Mode hérité ; non pris en charge sur le calcul serverless ou Databricks SQL. S’applique à remplacer de manière sélective les données avec Delta Lake.
quote CSV Caractère utilisé pour citer les valeurs de champ qui contiennent le séparateur. Par défaut : ". S’applique à csv (DataFrameWriter).
quoteAll CSV Indique s’il faut placer toutes les valeurs de champ entre guillemets, quel que soit le contenu. Par défaut : false. S’applique à csv (DataFrameWriter).
recordName Avro Nom d’enregistrement de niveau supérieur dans le schéma Avro de sortie. Par défaut : topLevelRecord. S’applique au fichier Avro.
recordNamespace Avro Espace de noms pour l’enregistrement de niveau supérieur dans le schéma Avro de sortie. Par défaut : "". S’applique au fichier Avro.
replaceWhere Delta Lake Expression de prédicat. Remplace atomiquement uniquement les enregistrements qui correspondent au prédicat. S’applique à remplacer de manière sélective les données avec Delta Lake.
rootTag XML Balise d’élément racine qui encapsule tous les éléments de ligne dans la sortie. Par défaut : ROWS. S’applique au xml (DataFrameWriter).
rowTag XML Balise d’élément qui représente une ligne dans la sortie. Par défaut : ROW. S’applique au xml (DataFrameWriter).
sep CSV Caractère délimiteur de champ. Par défaut : ,. S’applique à csv (DataFrameWriter).
timestampFormat CSV, JSON, XML Chaîne de format pour les valeurs de colonne timestamp. Par défaut : yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. S’applique à csv (DataFrameWriter),json (DataFrameWriter), xml (DataFrameWriter).
txnAppId Delta Lake Chaîne unique identifiant l’application pour les écritures idempotentes dans les foreachBatch opérations. Utilisez-les avec txnVersion pour garantir des écritures exactement une fois dans plusieurs tables Delta Lake. S’applique à Utiliser foreachBatch pour les écritures de tables idempotentes.
txnVersion Delta Lake Nombre monotoniquement croissant utilisé comme version de transaction pour les écritures idempotentes dans foreachBatch les opérations. Utilisez-les avec txnAppId pour garantir des écritures exactement une fois dans plusieurs tables Delta Lake. S’applique à Utiliser foreachBatch pour les écritures de tables idempotentes.
userMetadata Delta Lake, Apache Iceberg Chaîne définie par l’utilisateur ajoutée aux métadonnées de validation pour l’opération d’écriture. Visible dans la sortie de DESCRIBE HISTORY. S’applique à Enrichir des tables avec des métadonnées personnalisées.
validateName XML Indique s’il faut lever une exception si un nom de colonne n’est pas un identificateur d’élément XML valide. Par défaut : true. S’applique au xml (DataFrameWriter).
valueTag XML Nom de champ utilisé pour les données de caractères dans les éléments XML qui ont également des attributs ou des éléments enfants. Par défaut : _VALUE. S’applique au xml (DataFrameWriter).

Retours

DataFrameWriterV2