Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo explica como usar o editor sem código para capturar automaticamente dados de streaming nos Hubs de Eventos para uma conta Azure Data Lake Storage Gen2 no formato Delta Lake.
Pré-requisitos
- Você deve tornar seus recursos de Hubs de Eventos do Azure e Azure Data Lake Storage Gen2 publicamente acessíveis. Não coloque-os atrás de um firewall ou proteja-os em um Rede Virtual do Azure.
- Você deve serializar os dados em seus Hubs de Eventos no formato JSON, CSV ou Avro.
Configurar uma tarefa para capturar dados
Use as etapas a seguir para configurar um trabalho do Stream Analytics para capturar dados no Azure Data Lake Storage Gen2.
No portal do Azure, vá para o hub de eventos.
Selecione Funcionalidades>Processar dados e selecione Iniciar na seção Capturar dados para o ADLS Gen2 no formato Delta Lake.
Como alternativa, selecione Recursos>Captura e selecione a opção Delta Lake no formato de serialização de eventos de saída. Em seguida, selecione Iniciar configuração de captura de dados.
Insira um nome para identificar o trabalho do Stream Analytics. Selecione Criar.
Especifique o tipo de Serialização dos dados em Hubs de Eventos e o Método de autenticação que o trabalho usa para se conectar aos Hubs de Eventos. Depois, selecione Conectar.
Quando a conexão for estabelecida com êxito, você vê:
- Os campos presentes nos dados de entrada. Você pode escolher Adicionar campo ou selecionar o símbolo de três pontos ao lado de um campo para, opcionalmente, remover, renomear ou alterar o nome dele.
- Um exemplo dinâmico dos dados de entrada na tabela Visualização de dados na exibição de diagrama. Ele é atualizado periodicamente. Você pode selecionar Pausar visualização de streaming para ver uma exibição estática dos dados de entrada de exemplo.
Selecione o bloco Azure Data Lake Storage Gen2 para editar a configuração.
Na página de configuração do Azure Data Lake Storage Gen2, siga estas etapas:
Selecione a assinatura, o nome da conta de armazenamento e o contêiner no menu de opções.
Depois de selecionar a assinatura, o método de autenticação e a chave da conta de armazenamento serão preenchidos automaticamente.
Para caminho da tabela Delta, especifique o caminho e o nome da sua tabela Delta Lake armazenada no Azure Data Lake Storage Gen2. Você pode optar por usar um ou mais segmentos de caminho para definir o caminho para a tabela delta e o nome da tabela delta. Para saber mais, consulte Escrever na tabela Delta Lake.
Selecione Conectar.
Quando a conexão for estabelecida, você vê campos presentes nos dados de saída.
Selecione Salvar (Save) na barra de comandos para salvar a configuração.
Selecione Iniciar na barra de comandos para iniciar o fluxo de streaming para capturar dados. Em seguida, na janela iniciar o trabalho do Stream Analytics :
- Escolha a hora de início do processamento.
- Selecione o número de SUs (unidades de streaming) com as quais o trabalho é executado. As SUs representam recursos de computação alocados para executar um trabalho no Stream Analytics. Para obter mais informações, confira Unidades de streaming no Azure Stream Analytics.
Depois de selecionar Iniciar, o trabalho começa a ser executado dentro de dois minutos e as métricas são abertas na seção de guias, conforme mostrado na imagem a seguir.
Você pode ver o novo trabalho na guia Trabalhos do Stream Analytics .
Verificar a saída
Certifique-se de que os arquivos parquet no formato Delta Lake sejam gerados no contêiner do Azure Data Lake Storage.
Considerações ao usar o recurso de replicação geográfica do Hubs de Eventos
Os Hubs de Eventos do Azure lançaram recentemente a versão prévia pública do recurso de replicação geográfica. Esse recurso é diferente do recurso de recuperação de desastres geográficos dos Hubs de Eventos do Azure.
Quando o tipo de failover é Forçado e a consistência de replicação é Assíncrona, uma tarefa do Stream Analytics não garante uma saída exatamente uma vez para os Hubs de Eventos do Azure.
O Azure Stream Analytics, como produtor com um hub de eventos como saída, pode observar um atraso de marca d'água na tarefa durante a duração do failover e durante a limitação imposta pelos Hubs de Eventos caso o atraso de replicação entre o primário e o secundário atinja o máximo configurado.
O Azure Stream Analytics, como consumidor com os Hubs de Eventos como entrada, pode experienciar um atraso de marca d'água na tarefa durante a duração do failover e pode pular dados ou encontrar dados duplicados após a conclusão do failover.
Devido a essas ressalvas, reinicie o trabalho do Stream Analytics com a hora de início apropriada logo após a conclusão do failover dos Hubs de Eventos. Além disso, como o recurso de replicação geográfica dos Hubs de Eventos está em versão prévia pública, não use esse padrão para trabalhos de produção do Stream Analytics neste momento. O comportamento atual do Stream Analytics será aprimorado antes da disponibilidade geral do recurso de replicação geográfica dos Hubs de Eventos para uso em trabalhos de produção do Stream Analytics.
Próximas etapas
Agora você sabe como usar o editor sem código do Stream Analytics para criar um trabalho que captura dados dos Hubs de Eventos para o Azure Data Lake Storage Gen2 no formato Delta Lake. Em seguida, saiba mais sobre o Azure Stream Analytics e como monitorar o trabalho criado.