Aide-mémoire sur la configuration de calcul

Cet article vise à fournir des instructions claires et avisées pour la création de calcul. En utilisant des types de calcul appropriés pour votre workflow, vous pouvez améliorer les performances et réduire les coûts.

Meilleure Pratique Répercussion Documents
Utiliser le calcul serverless pour la plupart des charges de travail Azure Databricks gère automatiquement le dimensionnement, la mise à l’échelle et l’infrastructure. Aucune configuration de cluster n’est requise.
Pour le calcul classique : utilisez le mode d’accès standard, sauf si vos fonctionnalités requises ne sont pas prises en charge Le calcul avec le mode d’accès standard peut être utilisé par plusieurs utilisateurs avec isolation des données entre les utilisateurs.
Pour le calcul classique : commencez par utiliser des types d’instances à usage général si vous débutez avec Azure Databricks La sélection du type d’instance approprié pour la charge de travail améliore l’efficacité.
Pour le calcul classique : utilisez les types d’instances de dernière génération s’il y a suffisamment de disponibilité La dernière génération de types d’instances offre les meilleures performances et les dernières fonctionnalités.
Pour le calcul classique : déterminez l'équilibre entre vos instances à la demande et ponctuelles en fonction du temps dont vous avez besoin pour exécuter votre charge de travail. Les instances spot réduisent les coûts, mais peuvent affecter le temps d’exécution global d’une opération si les instances spot sont récupérées.
Pour le calcul classique : choisissez la taille de vos nœuds et le nombre de workers en fonction des types d’opérations que votre charge de travail effectue Par exemple, si vous prévoyez de nombreux mélanges, il peut être plus efficace d’utiliser un grand nœud unique plutôt que plusieurs nœuds plus petits.
Pour le calcul classique : exécutez un vide sur un cluster avec un groupe de mise à l’échelle automatique pour 1 à 4 workers, où chaque worker a 8 cœurs.
Sélectionnez un pilote avec entre 8 et 32 cœurs. Augmentez la taille du driver si vous obtenez des erreurs de mémoire insuffisante (OOM).
Les instructions Vacuum se produisent en deux phases, la seconde nécessitant une charge importante pour le pilote. Si vous n’utilisez pas le cluster de taille appropriée, l’opération peut entraîner un ralentissement et risque de ne pas réussir.
Pour le calcul classique : évaluer si votre workflow de traitement par lots tirerait parti de Photon Photon fournit des requêtes plus rapides et réduit le coût total par charge de travail.