Compartilhar via


Conceitos de Streaming Estruturado

O Streaming Estruturado do Apache Spark é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento único usando APIs conhecidas do Spark. O Streaming Estruturado permite que você expresse computações em dados de streaming da mesma maneira que expressa computações em lote em dados estáticos. O mecanismo de Streaming Estruturado executa a computação incrementalmente e atualiza continuamente o resultado à medida que os dados de fluxo são recebidos.

Para obter um tutorial passo a passo, consulte Executar sua primeira carga de trabalho de Streaming Estruturado.

Ler de um fluxo de dados

Use o Streaming Estruturado para ingerir dados de fontes de dados com suporte incremental.

Característica Descrição
Carregador Automático Processe de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem.
Leituras e gravações do streaming de tabela Delta Use tabelas Delta Lake como fontes e destinos de streaming com garantias de processamento exatamente uma única vez.
Conectores padrão Conecte-se a barramentos de mensagens, filas e aplicativos empresariais usando conectores padrão.
Tamanho do microlote Limite as taxas de entrada para manter tamanhos de lote consistentes e evitar atrasos no processamento.

Gravar em um destino de dados

Configure como o Streaming Estruturado fornece dados para sistemas de destino.

Característica Descrição
Pontos de Verificação Armazene o estado de processamento para habilitar a tolerância a falhas e a semântica de entrega exatamente uma vez.
Modo de saída Escolha entre os modos acrescentar, atualizar e concluir para consultas de streaming com estado.
Intervalos de gatilho Defina intervalos de gatilho para equilibrar a latência e o custo dos requisitos de processamento.
Modo em tempo real no Streaming Estruturado Processe dados para cargas de trabalho em tempo real com latência de ponta a ponta tão baixa quanto cinco milissegundos.

Processamento com estado ou sem estado

As consultas sem estado processam linhas sem manter o estado. As consultas com estado mantêm o estado intermediário para agregações, junções e eliminação de duplicação.

Característica Descrição
Consultas de streaming sem estado Otimize as consultas que processam dados sem manter o estado intermediário.
Marcas d'água Controlar por quanto tempo o Streaming Estruturado aguarda os dados de chegada tardia em operações de estado.
Streaming com estado Gerenciar agregações, junções fluxo-fluxo e deduplicação usando operadores com estado.

Monitorar e gerenciar

Acompanhe o desempenho da consulta, aplique otimizações e governe o acesso a dados para cargas de trabalho de Streaming Estruturado de produção.

Característica Descrição
Monitorar com StreamingQueryListener Acompanhe o progresso da consulta e as métricas de desempenho usando a interface do usuário do Spark e a API do ouvinte.
Governe com o Catálogo do Unity Configure o Catálogo do Unity para cargas de trabalho de streaming com controle de governança e acesso.