Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Streaming Estruturado do Apache Spark é um mecanismo de processamento quase em tempo real que oferece tolerância a falhas de ponta a ponta com garantias de processamento único usando APIs conhecidas do Spark. O Streaming Estruturado permite que você expresse computações em dados de streaming da mesma maneira que expressa computações em lote em dados estáticos. O mecanismo de Streaming Estruturado executa a computação incrementalmente e atualiza continuamente o resultado à medida que os dados de fluxo são recebidos.
Para obter um tutorial passo a passo, consulte Executar sua primeira carga de trabalho de Streaming Estruturado.
Ler de um fluxo de dados
Use o Streaming Estruturado para ingerir dados de fontes de dados com suporte incremental.
| Característica | Descrição |
|---|---|
| Carregador Automático | Processe de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem. |
| Leituras e gravações do streaming de tabela Delta | Use tabelas Delta Lake como fontes e destinos de streaming com garantias de processamento exatamente uma única vez. |
| Conectores padrão | Conecte-se a barramentos de mensagens, filas e aplicativos empresariais usando conectores padrão. |
| Tamanho do microlote | Limite as taxas de entrada para manter tamanhos de lote consistentes e evitar atrasos no processamento. |
Gravar em um destino de dados
Configure como o Streaming Estruturado fornece dados para sistemas de destino.
| Característica | Descrição |
|---|---|
| Pontos de Verificação | Armazene o estado de processamento para habilitar a tolerância a falhas e a semântica de entrega exatamente uma vez. |
| Modo de saída | Escolha entre os modos acrescentar, atualizar e concluir para consultas de streaming com estado. |
| Intervalos de gatilho | Defina intervalos de gatilho para equilibrar a latência e o custo dos requisitos de processamento. |
| Modo em tempo real no Streaming Estruturado | Processe dados para cargas de trabalho em tempo real com latência de ponta a ponta tão baixa quanto cinco milissegundos. |
Processamento com estado ou sem estado
As consultas sem estado processam linhas sem manter o estado. As consultas com estado mantêm o estado intermediário para agregações, junções e eliminação de duplicação.
| Característica | Descrição |
|---|---|
| Consultas de streaming sem estado | Otimize as consultas que processam dados sem manter o estado intermediário. |
| Marcas d'água | Controlar por quanto tempo o Streaming Estruturado aguarda os dados de chegada tardia em operações de estado. |
| Streaming com estado | Gerenciar agregações, junções fluxo-fluxo e deduplicação usando operadores com estado. |
Monitorar e gerenciar
Acompanhe o desempenho da consulta, aplique otimizações e governe o acesso a dados para cargas de trabalho de Streaming Estruturado de produção.
| Característica | Descrição |
|---|---|
| Monitorar com StreamingQueryListener | Acompanhe o progresso da consulta e as métricas de desempenho usando a interface do usuário do Spark e a API do ouvinte. |
| Governe com o Catálogo do Unity | Configure o Catálogo do Unity para cargas de trabalho de streaming com controle de governança e acesso. |