DataStreamReader

Interface die wordt gebruikt voor het laden van een streaming DataFrame van externe opslagsystemen (bijvoorbeeld bestandssystemen en sleutel-waardearchieven). Gebruik spark.readStream dit om toegang te krijgen.

Syntaxis

# Access through SparkSession
spark.readStream

Methods

Methode Beschrijving
format(source) Hiermee geeft u de indeling van de invoergegevensbron op.
schema(schema) Hiermee geeft u het schema van het streaming DataFrame.
option(key, value) Hiermee voegt u een invoeroptie toe voor de onderliggende gegevensbron.
options(**options) Voegt meerdere invoeropties toe voor de onderliggende gegevensbron.
load(path) Laadt het streaming DataFrame van het opgegeven pad en retourneert het.
json(path) Laadt een JSON-bestandsstroom en retourneert een DataFrame.
orc(path) Laadt een ORC-bestandsstroom en retourneert een DataFrame.
parquet(path) Laadt een Parquet-bestandsstroom en retourneert een DataFrame.
text(path) Laadt een tekstbestandsstroom en retourneert een DataFrame.
csv(path) Laadt een CSV-bestandsstroom en retourneert een DataFrame.
xml(path) Laadt een XML-bestandsstroom en retourneert een DataFrame.
table(tableName) Laadt een streaming Delta-tabel en retourneert een DataFrame.
name(source_name) Wijst een naam toe aan de streamingbron voor controlepuntontwikkeling.
changes(tableName) Retourneert wijzigingen op rijniveau (Change Data Capture) uit de opgegeven tabel als een streaming DataFrame.

Examples

spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

Laad een frequentiestroom, pas een transformatie toe, schrijf naar de console en stop na 3 seconden.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()