DataStreamReader

Gränssnitt som används för att läsa in en strömmande DataFrame från externa lagringssystem (till exempel filsystem och nyckelvärdeslager). Använd spark.readStream för att komma åt detta.

Syntax

# Access through SparkSession
spark.readStream

Methods

Metod	Beskrivning
`format(source)`	Anger indatakällans format.
`schema(schema)`	Anger schemat för strömmande DataFrame.
`option(key, value)`	Lägger till ett indataalternativ för den underliggande datakällan.
`options(**options)`	Lägger till flera indataalternativ för den underliggande datakällan.
`load(path)`	Läser in strömmande DataFrame från den angivna sökvägen och returnerar den.
`json(path)`	Läser in en JSON-filström och returnerar en DataFrame.
`orc(path)`	Läser in en ORC-filström och returnerar en DataFrame.
`parquet(path)`	Läser in en Parquet-filström och returnerar en DataFrame.
`text(path)`	Läser in en textfilström och returnerar en DataFrame.
`csv(path)`	Läser in en CSV-filström och returnerar en DataFrame.
`xml(path)`	Läser in en XML-filström och returnerar en DataFrame.
`table(tableName)`	Läser in en deltatabell för direktuppspelning och returnerar en DataFrame.
`name(source_name)`	Tilldelar ett namn till strömningskällan för kontrollpunktsutveckling.
`changes(tableName)`	Returnerar ändringar på radnivå (Ändra datainsamling) från den angivna tabellen som en strömmande DataFrame.

Exempel

spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

Läs in en hastighetsström, tillämpa en transformering, skriv till konsolen och stoppa efter 3 sekunder.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-19