DataStreamReader

Gränssnitt som används för att läsa in en strömmande DataFrame från externa lagringssystem (till exempel filsystem och nyckelvärdeslager). Använd spark.readStream för att komma åt detta.

Syntax

# Access through SparkSession
spark.readStream

Methods

Metod Beskrivning
format(source) Anger indatakällans format.
schema(schema) Anger schemat för strömmande DataFrame.
option(key, value) Lägger till ett indataalternativ för den underliggande datakällan.
options(**options) Lägger till flera indataalternativ för den underliggande datakällan.
load(path) Läser in strömmande DataFrame från den angivna sökvägen och returnerar den.
json(path) Läser in en JSON-filström och returnerar en DataFrame.
orc(path) Läser in en ORC-filström och returnerar en DataFrame.
parquet(path) Läser in en Parquet-filström och returnerar en DataFrame.
text(path) Läser in en textfilström och returnerar en DataFrame.
csv(path) Läser in en CSV-filström och returnerar en DataFrame.
xml(path) Läser in en XML-filström och returnerar en DataFrame.
table(tableName) Läser in en deltatabell för direktuppspelning och returnerar en DataFrame.
name(source_name) Tilldelar ett namn till strömningskällan för kontrollpunktsutveckling.
changes(tableName) Returnerar ändringar på radnivå (Ändra datainsamling) från den angivna tabellen som en strömmande DataFrame.

Exempel

spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

Läs in en hastighetsström, tillämpa en transformering, skriv till konsolen och stoppa efter 3 sekunder.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()