DataStreamWriter

Interfaz que se usa para escribir un dataframe de streaming en sistemas de almacenamiento externos (por ejemplo, sistemas de archivos y almacenes de clave-valor). Use df.writeStream para acceder a esto.

Sintaxis

# Access through DataFrame
df.writeStream

Methods

Método Descripción
outputMode(outputMode) Especifica cómo se escriben los datos de un DataFrame de streaming en el receptor. Las opciones son append, complete y update.
format(source) Especifica el formato del origen de datos de salida.
option(key, value) Agrega una opción de salida para el origen de datos subyacente.
options(**options) Agrega varias opciones de salida para el origen de datos subyacente.
partitionBy(*cols) Divide la salida por las columnas especificadas en el sistema de archivos.
clusterBy(*cols) Agrupa la salida de las columnas especificadas.
queryName(queryName) Especifica el nombre de la consulta de streaming.
trigger(**kwargs) Establece el desencadenador para la ejecución de la consulta de streaming.
foreach(f) Establece la salida de la consulta de streaming que va a procesar la función o el objeto especificados.
foreachBatch(func) Establece la salida de cada microbatch que va a procesar la función especificada.
start(path) Inicia la ejecución de la consulta de streaming y devuelve un StreamingQuery objeto .
table(tableName) Alias para toTable(). Escribe datos en la tabla especificada y devuelve un StreamingQuery objeto .
toTable(tableName) Inicia la ejecución de la consulta de streaming y genera continuamente resultados en la tabla especificada.

Ejemplos

Cargue un flujo de velocidad, aplique una transformación, escriba en la consola y detenga después de 3 segundos.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()