Créer un cluster Spark

Effectué

Vous pouvez créer un ou plusieurs clusters dans votre espace de travail Azure Databricks à l’aide de l’interface utilisateur de l’espace de travail Azure Databricks.

Capture d’écran de l’interface créer un cluster dans l’interface utilisateur d’Azure Databricks Workspace.

Quand vous créez le cluster, vous pouvez spécifier des paramètres de configuration, notamment :

  • Nom du cluster.
  • Mode d’accès, qui contrôle la façon dont les utilisateurs interagissent avec le cluster :
    • Standard : plusieurs utilisateurs peuvent partager le cluster simultanément. L’isolation entre le code utilisateur est appliquée automatiquement. Adapté à l’ingénierie des données collaborative et à l’analytique partagée.
    • Dédié : le cluster est attribué exclusivement à un seul utilisateur ou groupe. Requis pour les charges de travail qui utilisent les API RDD, l’accélération GPU ou la prise en charge du langage R.
  • L’architecture du cluster, qui détermine la façon dont le calcul est distribué :
    • Multi-nœuds : un nœud de pilote plus un ou plusieurs nœuds de travail. Active le traitement distribué et la mise à l’échelle horizontale pour les jeux de données volumineux.
    • Nœud unique : nœud directeur uniquement, sans nœuds de calcul. Adapté aux petits jeux de données, à l’exploration légère ou aux frameworks Machine Learning tels que scikit-learn qui ne distribuent pas entre les nœuds.
  • Version du Runtime Databricks à utiliser dans le cluster ; qui détermine la version de Spark et des composants individuels tels que Python, Scala et d’autres qui sont installés.
  • Type de machine virtuelle utilisée pour les nœuds worker du cluster.
  • Nombres minimal et maximal de nœuds worker dans le cluster.
  • Type de machine virtuelle utilisée pour le nœud pilote dans le cluster.
  • Indique si le cluster prend en charge la mise à l’échelle automatique pour redimensionner dynamiquement le cluster.
  • Temps d’inactivité du cluster avant son arrêt automatique.

Comment Azure gère les ressources de cluster

Quand vous créez un espace de travail Azure Databricks, une appliance Databricks est déployée comme ressource Azure dans votre abonnement. Quand vous créez un cluster dans l’espace de travail, vous spécifiez les types et tailles des machines virtuelles à utiliser pour les nœuds pilote et worker ainsi que d’autres options de configuration, mais Azure Databricks gère tous les autres aspects du cluster.

L’appliance Databricks est déployée dans Azure en tant que groupe de ressources managé au sein de votre abonnement. Ce groupe de ressources contient les machines virtuelles pilote et worker, ainsi que d’autres ressources nécessaires, comme un réseau virtuel, un groupe de sécurité et un compte de stockage. Toutes les métadonnées, comme celles relatives aux travaux planifiés, sont stockées dans une base de données Azure avec géoréplication pour la tolérance de panne.

Azure Databricks est divisé en deux plans principaux : le plan de contrôle, qui se compose de services principaux (par exemple, l’interface utilisateur web) gérés par Microsoft et le plan de calcul, où vos charges de travail de données s’exécutent. Il existe deux variantes de calcul : le calcul classique, qui utilise votre propre abonnement Azure et votre réseau virtuel (offrant une isolation à l’intérieur de votre abonnement) et le calcul serverless, qui s’exécute dans l’environnement managé de Databricks, mais toujours dans la même région Azure que votre espace de travail, avec des contrôles de réseau et de sécurité pour isoler entre les clients. Chaque espace de travail dispose d’un compte de stockage dans votre abonnement qui contient les données système (notebooks, journaux, métadonnées de travail), le système de fichiers distribué (DBFS) et les ressources de catalogue (si unity Catalog est activé), avec des contrôles supplémentaires pour la mise en réseau, le pare-feu et l’accès pour garantir la sécurité et l’isolation appropriée.

Diagramme de l’architecture Azure Databricks.

Tip

Pour le développement interactif de notebooks et la plupart des charges de travail ETL, envisagez le calcul sans serveur au lieu des clusters de calcul classiques. Le calcul serverless démarre en 2 à 6 secondes, est entièrement géré par Azure Databricks et est mis à l’échelle automatiquement, sans configuration de cluster requise. Pour une comparaison plus approfondie des options de calcul, consultez Select et configurez le calcul dans Azure Databricks dans Microsoft Learn.

Remarque

Vous avez également la possibilité d’attacher votre cluster à un pool de nœuds inactifs pour réduire le temps de démarrage du cluster. Pour plus d’informations, consultez Pools dans la documentation Azure Databricks.