DataStreamWriter

Gränssnitt som används för att skriva en strömmande DataFrame till externa lagringssystem (till exempel filsystem och nyckelvärdeslager). Använd df.writeStream för att komma åt detta.

Syntax

# Access through DataFrame
df.writeStream

Methods

Metod Beskrivning
outputMode(outputMode) Anger hur data för en strömmande DataFrame skrivs till mottagaren. Alternativen är append, completeoch update.
format(source) Anger datakällformatet för utdata.
option(key, value) Lägger till ett utdataalternativ för den underliggande datakällan.
options(**options) Lägger till flera utdataalternativ för den underliggande datakällan.
partitionBy(*cols) Partitioner utdata av de angivna kolumnerna i filsystemet.
clusterBy(*cols) Grupperar utdata från de angivna kolumnerna.
queryName(queryName) Anger namnet på strömningsfrågan.
trigger(**kwargs) Anger utlösaren för körning av strömmande frågor.
foreach(f) Anger utdata för den strömmande fråga som ska bearbetas av den angivna funktionen eller objektet.
foreachBatch(func) Anger utdata för varje mikrobatch som ska bearbetas av den angivna funktionen.
start(path) Startar körningen av strömningsfrågan och returnerar ett StreamingQuery objekt.
table(tableName) Alias för toTable(). Skriver data till den angivna tabellen och returnerar ett StreamingQuery objekt.
toTable(tableName) Startar körningen av strömningsfrågan och matar kontinuerligt ut resultat till den angivna tabellen.

Exempel

Läs in en hastighetsström, tillämpa en transformering, skriv till konsolen och stoppa efter 3 sekunder.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()