Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Gränssnitt som används för att läsa in en strömmande DataFrame från externa lagringssystem (till exempel filsystem och nyckelvärdeslager). Använd spark.readStream för att komma åt detta.
Syntax
# Access through SparkSession
spark.readStream
Methods
| Metod | Beskrivning |
|---|---|
format(source) |
Anger indatakällans format. |
schema(schema) |
Anger schemat för strömmande DataFrame. |
option(key, value) |
Lägger till ett indataalternativ för den underliggande datakällan. |
options(**options) |
Lägger till flera indataalternativ för den underliggande datakällan. |
load(path) |
Läser in strömmande DataFrame från den angivna sökvägen och returnerar den. |
json(path) |
Läser in en JSON-filström och returnerar en DataFrame. |
orc(path) |
Läser in en ORC-filström och returnerar en DataFrame. |
parquet(path) |
Läser in en Parquet-filström och returnerar en DataFrame. |
text(path) |
Läser in en textfilström och returnerar en DataFrame. |
csv(path) |
Läser in en CSV-filström och returnerar en DataFrame. |
xml(path) |
Läser in en XML-filström och returnerar en DataFrame. |
table(tableName) |
Läser in en deltatabell för direktuppspelning och returnerar en DataFrame. |
name(source_name) |
Tilldelar ett namn till strömningskällan för kontrollpunktsutveckling. |
changes(tableName) |
Returnerar ändringar på radnivå (Ändra datainsamling) från den angivna tabellen som en strömmande DataFrame. |
Exempel
spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>
Läs in en hastighetsström, tillämpa en transformering, skriv till konsolen och stoppa efter 3 sekunder.
import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()