Guia rápido de agendamento de trabalhos de produção

Este artigo tem como objetivo fornecer orientações claras e opinativas para o agendamento de trabalhos de produção. O uso de práticas recomendadas pode ajudar a reduzir custos, melhorar o desempenho e reforçar a segurança.

Best Practice (Melhores Práticas) Impacto Documentos
Use computação serverless para tarefas Custo: Trabalhos serverless não requerem configuração de cluster. O Azure Databricks gere automaticamente o provisionamento e a escalabilidade.
Use Lakeflow Jobs para orquestração sempre que possível Cost: Não é necessário usar ferramentas externas para orquestrar se só estiveres a orquestrar cargas de trabalho em Azure Databricks.
Utilize entidades de serviço em vez de contas de utilizador para executar trabalhos de produção Segurança: Se os trabalhos forem de propriedade de usuários individuais, quando esses usuários deixarem a organização, esses trabalhos poderão parar de ser executados.
Para computação tradicional: use clusters de tarefas para fluxos de trabalho automatizados Custo: Clusters de tarefas são cobrados a tarifas mais baixas do que clusters interativos.
Para computação clássica: reiniciar clusters de longa duração Segurança: reinicie clusters para aproveitar patches e correções de bugs no Databricks Runtime.
Para computação clássica: use a versão LTS mais recente do Databricks Runtime Desempenho e custo: Azure Databricks está sempre a melhorar o tempo de execução do Databricks em usabilidade, desempenho e segurança.
Para computação clássica: não armazene dados de produção na raiz DBFS Segurança: Quando os dados são armazenados na raiz DBFS, todos os usuários podem acessá-los.