Compartilhar via


DataStreamWriter

Interface usada para gravar um DataFrame de streaming em sistemas de armazenamento externos (por exemplo, sistemas de arquivos e repositórios de chave-valor). Use df.writeStream para acessar isso.

Sintaxe

# Access through DataFrame
df.writeStream

Methods

Método Descrição
outputMode(outputMode) Especifica como os dados de um DataFrame de streaming são gravados no coletor. As opções são append, complete e update.
format(source) Especifica o formato de fonte de dados de saída.
option(key, value) Adiciona uma opção de saída para a fonte de dados subjacente.
options(**options) Adiciona várias opções de saída para a fonte de dados subjacente.
partitionBy(*cols) Particiona a saída pelas colunas fornecidas no sistema de arquivos.
clusterBy(*cols) Clusteriza a saída pelas colunas fornecidas.
queryName(queryName) Especifica o nome da consulta de streaming.
trigger(**kwargs) Define o gatilho para a execução da consulta de streaming.
foreach(f) Define a saída da consulta de streaming a ser processada pela função ou objeto fornecido.
foreachBatch(func) Define a saída de cada microbatch a ser processada pela função fornecida.
start(path) Inicia a execução da consulta de streaming e retorna um StreamingQuery objeto.
table(tableName) Alias para toTable(). Grava dados na tabela especificada e retorna um StreamingQuery objeto.
toTable(tableName) Inicia a execução da consulta de streaming, gerando continuamente os resultados para a tabela fornecida.

Exemplos

Carregue um fluxo de taxa, aplique uma transformação, escreva no console e pare após 3 segundos.

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()