Aide-mémoire sur la planification de travaux de production

Cet article vise à fournir des conseils clairs et avisés pour la planification de travaux de production. Utiliser les meilleures pratiques peut réduire les coûts, améliorer le niveau de performance et renforcer la sécurité.

Meilleure Pratique Répercussion Documents
Utiliser le calcul sans serveur pour les tâches Coût : les travaux serverless ne nécessitent aucune configuration de cluster. Azure Databricks gère automatiquement l’approvisionnement et la mise à l’échelle.
Utiliser les Jobs Lakeflow pour l’orchestration dans la mesure du possible Cost : il n'est pas nécessaire d'utiliser des outils externes pour orchestrer si vous orchestrez uniquement des charges de travail sur Azure Databricks.
Utiliser des identités de service au lieu de comptes d'utilisateur pour exécuter des tâches de production Sécurité : si des travaux sont détenus par des utilisateurs individuels qui quittent l’organisation, il est possible que ces travaux cessent de fonctionner.
Pour le calcul classique : utiliser des clusters de travaux pour les flux de travail automatisés Coût : les clusters de travaux sont facturés à des tarifs plus bas que les clusters interactifs.
Pour le calcul classique : redémarrer des clusters en cours d'exécution depuis longtemps Sécurité : redémarrez des clusters pour tirer parti de patchs et de correctifs de bogues pour Databricks Runtime.
Pour le calcul classique : utiliser la dernière version LTS de Databricks Runtime Performance et coût : Azure Databricks améliore toujours Databricks Runtime pour la facilité d’utilisation, les performances et la sécurité.
Pour le calcul classique : ne stockez pas les données de production dans la racine DBFS Sécurité : quand des données sont stockées dans la racine DBFS, tous les utilisateurs peut y accéder.