alternativet (DataFrameWriter)

Lägger till ett utdataalternativ för den underliggande datakällan. Några tillgängliga alternativ finns i Alternativ.

Syntax

option(key, value)

Parameters

Parameter Type Beskrivning
key str Alternativnyckeln.
value str, int, float eller bool Alternativvärdet.

Options

Följande tabell innehåller några skrivalternativ:

Nyckel Formats Beskrivning
arrayElementName XML Elementnamnet för matriselement som inte har något explicit namn. Förvald: item. Gäller för XML (DataFrameWriter).
attributePrefix XML Prefixet har förberetts för fältnamn som motsvarar XML-attribut. Förvald: _. Gäller för XML (DataFrameWriter).
avroSchema Avro Det fullständiga Avro-schemat som en JSON-sträng. Använd det här alternativet om du vill konvertera Spark SQL-typer till specifika Avro-typer. Gäller för Avro-filen.
charToEscapeQuoteEscaping CSV Tecknet som användes för att undkomma escape-tecknet när det skiljer sig från citattecknet. Standard: \0 (inte aktiverat). Gäller för csv (DataFrameWriter).
clusterByAuto Delta Lake Om du vill aktivera automatisk flytande klustring, där Azure Databricks väljer klustringskolumner baserat på frågemönster. Endast giltigt med mode("overwrite"). Det går inte att använda med append läge. Förvald: false. Tillgänglig i Databricks Runtime 16.4 och senare. Gäller för Använd flytande klustring för tabeller.
compression CSV, JSON, ORC, Parquet, Text, XML Komprimeringskodc som ska användas när du skriver. Giltiga värden varierar beroende på format. Gäller för csv (DataFrameWriter), json (DataFrameWriter), orc (DataFrameWriter), parquet (DataFrameWriter), text (DataFrameWriter), xml (DataFrameWriter).
dateFormat CSV, JSON, XML Formatera sträng för datumkolumnvärden. Förvald: yyyy-MM-dd. Gäller för csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter).
declaration XML XML-deklarationssträngen som skrivs överst i varje utdatafil. Ange till en tom sträng för att utelämna deklarationen. Förvald: version="1.0" encoding="UTF-8" standalone="yes". Gäller för XML (DataFrameWriter).
emptyValue CSV Strängen skrivs för tomma (icke-null)-värden. Förvald: "". Gäller för csv (DataFrameWriter).
encoding CSV, JSON, XML Teckenkodningen för utdatafilerna. Förvald: UTF-8. Gäller för csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter).
escape CSV Tecknet som användes för att undkomma angivna värden. Förvald: \. Gäller för csv (DataFrameWriter).
escapeQuotes CSV Om du vill undvika citattecken i angivna fältvärden. Förvald: true. Gäller för csv (DataFrameWriter).
header CSV Om du vill skriva kolumnnamn som den första raden i utdata. Förvald: false. Gäller för csv (DataFrameWriter).
ignoreLeadingWhiteSpace CSV Om du vill trimma inledande blanksteg från värden när du skriver. Förvald: false. Gäller för csv (DataFrameWriter).
ignoreNullFields JSON Om fält med null-värden ska utelämnas från JSON-utdata. Standard: värdet spark.sql.jsonGenerator.ignoreNullFieldsför . Gäller för json (DataFrameWriter).
ignoreTrailingWhiteSpace CSV Om du vill trimma avslutande blanksteg från värden när du skriver. Förvald: false. Gäller för csv (DataFrameWriter).
lineSep CSV, JSON, Text Radavgränsarsträngen som används mellan poster. Förvald: \n. Gäller för csv (DataFrameWriter), json (DataFrameWriter), text (DataFrameWriter).
mergeSchema Delta Lake Om du vill aktivera schemautveckling för skrivåtgärden. Nya kolumner i källdataramen läggs till i måltabellschemat. Gäller för batch- och strömmande tillägg. Gäller för Uppdatera tabellschema.
nullValue CSV Sträng som skrivits för null-värden. Förvald: "". Gäller för csv (DataFrameWriter).
nullValue XML Strängen som skrivits för null-värden. Förvald: null. När värdet är inställt på nullutelämnas attribut och underordnade element för null-fält. Gäller för XML (DataFrameWriter).
overwriteSchema Delta Lake Om du vill ersätta tabellschemat och partitioneringen vid överskrivning. Kräver mode("overwrite") utan replaceWhere. Det går inte att använda med partitionOverwriteMode. Gäller för Uppdatera tabellschema.
partitionOverwriteMode Delta Lake Partitionsöverskrivningsläget. Ställ in på så att dynamic endast partitioner som innehåller nya data skrivs över, vilket gör att alla andra partitioner är oförändrade. Äldre läge; stöds inte på serverlös beräkning eller Databricks SQL. Gäller för selektivt överskrivning av data med Delta Lake.
quote CSV Tecknet som används för att citera fältvärden som innehåller avgränsaren. Förvald: ". Gäller för csv (DataFrameWriter).
quoteAll CSV Om alla fältvärden ska omges av citattecken oavsett innehåll. Förvald: false. Gäller för csv (DataFrameWriter).
recordName Avro Postnamnet på den översta nivån i Avro-schemat för utdata. Förvald: topLevelRecord. Gäller för Avro-filen.
recordNamespace Avro Namnområdet för posten på den översta nivån i utdataschemat för Avro. Förvald: "". Gäller för Avro-filen.
replaceWhere Delta Lake Ett predikatuttryck. Atomiskt skriver endast över de poster som matchar predikatet. Gäller för selektivt överskrivning av data med Delta Lake.
rootTag XML Rotelementstaggen som omsluter alla radelement i utdata. Förvald: ROWS. Gäller för XML (DataFrameWriter).
rowTag XML Elementtaggen som representerar en rad i utdata. Förvald: ROW. Gäller för XML (DataFrameWriter).
sep CSV Fältgränstecknet. Förvald: ,. Gäller för csv (DataFrameWriter).
timestampFormat CSV, JSON, XML Formatsträngen för tidsstämpelkolumnvärden. Förvald: yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]. Gäller för csv (DataFrameWriter), json (DataFrameWriter), xml (DataFrameWriter).
txnAppId Delta Lake En unik sträng som identifierar programmet för idempotent-skrivningar i foreachBatch åtgärder. Använd tillsammans med txnVersion för att säkerställa exakt en gång skrivningar till flera Delta Lake-tabeller. Gäller för skrivningar foreachBatch av idempotenttabeller.
txnVersion Delta Lake Ett monotont ökande tal som används som transaktionsversion för idempotent-skrivningar i foreachBatch åtgärder. Använd tillsammans med txnAppId för att säkerställa exakt en gång skrivningar till flera Delta Lake-tabeller. Gäller för skrivningar foreachBatch av idempotenttabeller.
userMetadata Delta Lake, Apache Iceberg En användardefinierad sträng som läggs till i incheckningsmetadata för skrivåtgärden. Visas i utdata DESCRIBE HISTORYfrån . Gäller för Enrich-tabeller med anpassade metadata.
validateName XML Om ett undantag ska utlösas om ett kolumnnamn inte är en giltig XML-elementidentifierare. Förvald: true. Gäller för XML (DataFrameWriter).
valueTag XML Fältnamnet som används för teckendata i XML-element som också har attribut eller underordnade element. Förvald: _VALUE. Gäller för XML (DataFrameWriter).

Retur

DataFrameWriter

Exempel

Skriv en DataFrame till en CSV-fil med alternativuppsättningen nullValue .

import tempfile
with tempfile.TemporaryDirectory(prefix="option") as d:
    df = spark.createDataFrame([(100, None)], "age INT, name STRING")
    df.write.option("nullValue", "Alice").mode("overwrite").format("csv").save(d)

    spark.read.schema(df.schema).format('csv').load(d).show()
    # +---+------------+
    # |age|        name|
    # +---+------------+
    # |100|Alice|
    # +---+------------+