Perguntas frequentes sobre eventos de arquivo

Encontre respostas para perguntas frequentes sobre eventos de arquivo para locais externos.

O que são eventos de arquivo?

Os eventos de arquivo permitem Azure Databricks detectar arquivos novos ou alterados por meio de notificações na nuvem em vez de verificar repetidamente seu armazenamento. Os eventos de arquivo reduzem a latência de ingestão e os custos de listagem de armazenamento em nuvem e são habilitados por padrão em novos locais externos.

Diagrama que mostra o processo de eventos de arquivos: uma origem de arquivos publica arquivos no armazenamento em nuvem do cliente, que publica notificações para uma assinatura de eventos e uma fila. O Unity Catalog autoriza o acesso à nuvem do serviço gerenciado de eventos de arquivos. O serviço configura a conexão, obtém eventos de arquivos da fila, armazena os metadados dos arquivos em um banco de dados e lista objetos para os consumidores do Auto Loader e de Triggers.

Como funcionam os eventos de arquivo?

Quando você habilita eventos de arquivo no modo Automatic, o Azure Databricks configura sua conta de armazenamento para enviar notificações de alteração de arquivos usando o Grade de Eventos do Azure e o Armazenamento do Azure Queues. O serviço de eventos de arquivos do Azure Databricks lê metadados de caminho de arquivo da fila para descobrir arquivos novos e modificados. Como uma rede de segurança, o serviço também executa listagens periódicas de diretório completo para verificar se nenhum arquivo foi perdido.

A infraestrutura de notificação nunca transmite conteúdo do arquivo.

Quais recursos de Azure Databricks usam eventos de arquivo?

Os seguintes recursos usam eventos de arquivo quando você os habilita em um local externo:

  • Carregador Automático: detecta novos arquivos para ingestão incremental sem listagens de diretório caras. Começando com o Databricks Runtime 18.1 e superior, o Carregador Automático usa automaticamente eventos de arquivo quando disponível (useManagedFileEvents = if_available).
  • Gatilhos de chegada de arquivos: inicie automaticamente seu trabalho quando novos arquivos chegarem, proporcionando melhor utilização de recursos e maior eficiência de custos, pois o cluster é executado somente quando há novos arquivos para processar. Os gatilhos de chegada de arquivo são significativamente mais escalonáveis com eventos de arquivo habilitados. Veja Acione trabalhos quando novos arquivos chegam.
  • Gatilhos de atualização da tabela: inicie automaticamente sua tarefa com base em atualizações em uma tabela. Os gatilhos de atualização de tabela são significativamente mais escalonáveis com eventos de arquivo habilitados. Consulte trabalhos de gatilho quando as tabelas de origem são atualizadas.

Como posso habilitar eventos de arquivo em meus pipelines e trabalhos?

Primeiro, habilite eventos de arquivos para seu local externo. Veja Configurar eventos de arquivo para um local externo.

Se você usar eventos de arquivo com gatilhos de chegada de arquivo ou de atualização de tabela, não precisará tomar medidas adicionais. A tarefa se beneficia automaticamente de eventos em arquivos.

Além disso, se você usar o Carregador Automático com o Databricks Runtime 18.1 ou superior, não será necessário tomar medidas adicionais. O pipeline se beneficia automaticamente de eventos de arquivo. Se você usar uma versão de runtime anterior, habilite eventos de arquivo no pipeline:

spark.readStream.option("cloudFiles.useManagedFileEvents", "true")...

E se eu não estiver usando o Carregador Automático ou gatilhos hoje?

Você pode desativar eventos de arquivo a qualquer momento e Azure Databricks limpa os recursos de notificação para você. O Databricks recomenda manter os eventos de arquivo habilitados.

Posso desativar os eventos de arquivos?

Azure Databricks habilita eventos de arquivo por padrão para novos locais externos porque reduzem os custos e melhoram o desempenho das cargas de trabalho de ingestão.

Para criar um local externo sem eventos de arquivo:

Gerenciador de Catálogos

  1. No Gerenciador de Catálogos, comece a criar um novo local externo.
  2. Se a credencial de armazenamento não tiver permissões de eventos de arquivo, você verá um aviso de validação. Clique em Forçar criar para continuar.
  3. Após a criação, verifique se os eventos de arquivo estão desativados, selecionando o local e desmarcando a configuração de eventos de arquivo.

API

Defina enable_file_events para false na solicitação de criação de local externo.

Para desabilitar eventos de arquivo em um local externo existente, consulte Configurar eventos de arquivo para um local externo.

Próximas Etapas