DataStreamReader

Interface die wordt gebruikt voor het laden van een streaming DataFrame van externe opslagsystemen (bijvoorbeeld bestandssystemen en sleutel-waardearchieven). Gebruik spark.readStream dit om toegang te krijgen.

Syntaxis

# Access through SparkSession
spark.readStream

Methods

Methode	Beschrijving
`format(source)`	Hiermee geeft u de indeling van de invoergegevensbron op.
`schema(schema)`	Hiermee geeft u het schema van het streaming DataFrame.
`option(key, value)`	Hiermee voegt u een invoeroptie toe voor de onderliggende gegevensbron.
`options(**options)`	Voegt meerdere invoeropties toe voor de onderliggende gegevensbron.
`load(path)`	Laadt het streaming DataFrame van het opgegeven pad en retourneert het.
`json(path)`	Laadt een JSON-bestandsstroom en retourneert een DataFrame.
`orc(path)`	Laadt een ORC-bestandsstroom en retourneert een DataFrame.
`parquet(path)`	Laadt een Parquet-bestandsstroom en retourneert een DataFrame.
`text(path)`	Laadt een tekstbestandsstroom en retourneert een DataFrame.
`csv(path)`	Laadt een CSV-bestandsstroom en retourneert een DataFrame.
`xml(path)`	Laadt een XML-bestandsstroom en retourneert een DataFrame.
`table(tableName)`	Laadt een streaming Delta-tabel en retourneert een DataFrame.
`name(source_name)`	Wijst een naam toe aan de streamingbron voor controlepuntontwikkeling.
`changes(tableName)`	Retourneert wijzigingen op rijniveau (Change Data Capture) uit de opgegeven tabel als een streaming DataFrame.

Examples

spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

Laad een frequentiestroom, pas een transformatie toe, schrijf naar de console en stop na 3 seconden.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19