Paramètres d’itinéraire définis par l’utilisateur pour Azure Databricks

Si votre espace de travail Azure Databricks est redéployé sur votre propre réseau virtuel (VNet), vous pouvez utiliser des itinéraires personnalisés, également appelés itinéraires utilisateur (UDR), pour vous assurer que le trafic réseau est routé correctement pour votre espace de travail. Par exemple, si vous connectez le réseau virtuel à votre réseau local, le trafic peut être acheminé via le réseau local et impossible d’atteindre le plan de contrôle Azure Databricks. Les routes définies par l’utilisateur peuvent résoudre ce problème.

Vous avez besoin d’un UDR pour chaque type de connexion sortante du réseau virtuel. Vous pouvez utiliser à la fois les étiquettes de service Azure et les adresses IP pour définir des contrôles d’accès réseau sur vos itinéraires définis par l’utilisateur. Databricks recommande d’utiliser Azure balises de service pour empêcher les pannes de service en raison des modifications IP.

Configurer des itinéraires définis par l’utilisateur avec des balises de service Azure

Databricks vous recommande d’utiliser Azure balises de service, qui représentent un groupe de préfixes d’adresses IP d’un service Azure donné. Microsoft gère les préfixes d’adresse englobés par l’étiquette de service et met automatiquement à jour l’étiquette de service à mesure que les adresses changent. Cela permet d’éviter les pannes de service en raison des modifications d’adresse IP et de supprimer la nécessité de rechercher régulièrement ces adresses IP et de les mettre à jour dans votre table de routage. Toutefois, si les stratégies de votre organisation interdisent les étiquettes de service, vous pouvez éventuellement spécifier les itinéraires en tant qu’adresses IP.

À l’aide de balises de service, vos itinéraires définis par l’utilisateur doivent utiliser les règles suivantes et associer la table de routage aux sous-réseaux publics et privés de votre réseau virtuel.

Origine Préfixe de l’adresse Type de saut suivant
Par défaut AzureDatabricks Internet
Par défaut Storage Internet
Par défaut EventHub Internet

Remarque

Vous pouvez choisir d’ajouter la balise de service Microsoft Entra ID pour faciliter l’authentification Microsoft Entra ID des clusters Azure Databricks aux ressources Azure.

Si Azure Private Link est activé sur votre espace de travail, l'étiquette de service Azure Databricks n'est pas requise.

La balise de service Azure Databricks représente les adresses IP pour les connexions sortantes requises au plan de contrôle Azure Databricks, la connectivité de cluster secure cluster (SCC) et l’application web Azure Databricks. Vous devez également ouvrir le port 3306 pour le trafic sortant dans votre groupe de sécurité réseau afin de permettre la connectivité au metastore Hive hérité.

La balise de service stockage Azure représente les adresses IP pour le stockage Blob d’artefacts et le stockage d’objets blob de journal. La balise de service Azure Event Hubs représente les connexions sortantes requises pour la journalisation vers Azure Event Hub.

Certaines étiquettes de service permettent d’obtenir un contrôle plus précis en limitant les plages d’adresses IP à une région spécifiée. Par exemple, une table de routage pour un espace de travail Azure Databricks dans les régions USA Ouest peut ressembler à ceci :

Nom Préfixe de l’adresse Type de saut suivant
adb-servicetag AzureDatabricks Internet
adb-storage Storage.WestUS Internet
adb-eventhub EventHub.WestUS Internet

Important

Si vous utilisez des balises de service délimitées à la région, notez que certains points de terminaison de région peuvent résider dans une région différente de Azure que le point de terminaison de stockage principal. Par exemple, un espace de travail au Japon Est dispose de son stockage d’artefacts secondaire au Japon Ouest. Dans ce cas, vous devez également ajouter une balise de service pour la région secondaire. Pour passer en revue les noms de domaine complets pour la région de votre espace de travail, consultez metastore, stockage d’objets blob d’artefacts, stockage des tables système, stockage d’objets blob de journal et adresses IP du point de terminaison Event Hubs.

Pour obtenir les balises de service requises pour les itinéraires définis par l’utilisateur, consultez balises de service de réseau virtuel.

Configurer des itinéraires définis par l’utilisateur avec des adresses IP

Databricks vous recommande d'utiliser Azure balises de service, mais si vos stratégies d'organisation n'autorisent pas les balises de service, vous pouvez utiliser des adresses IP pour définir des contrôles d'accès réseau sur vos itinéraires définis par l'utilisateur.

Les détails varient selon que la connectivité sécurisée des clusters (SCC) est activée ou non pour l’espace de travail :

  • Si la connectivité sécurisée des clusters est activée pour l’espace de travail, vous avez besoin d’un UDR pour autoriser les clusters à se connecter au relais de connectivité sécurisée des clusters dans le plan de contrôle. Veillez à inclure les systèmes marqués comme Adresse IP du relais SCC pour votre région.
  • Si la connectivité sécurisée des clusters est désactivée pour l’espace de travail, il existe une connexion entrante à partir de la NAT de plan de contrôle, mais le protocole TCP SYN-ACK de bas niveau vers cette connexion est techniquement une donnée sortante qui nécessite un UDR. Veillez à inclure les systèmes indiqués en tant que NAT IP du plan de contrôle pour votre région.

Vos itinéraires définis par l’utilisateur doivent utiliser les règles suivantes et associer la table de routage aux sous-réseaux publics et privés de votre réseau virtuel.

Origine Préfixe de l’adresse Type de saut suivant
Par défaut Adresse IP NAT du plan de contrôle (si la SCC est désactivée) Internet
Par défaut Adresse IP du relais SCC (si SCC est activée) Internet
Par défaut Application Web IP Internet
Par défaut Adresse IP de metastore Internet
Par défaut Adresse IP de stockage d’artefacts Blob Internet
Par défaut Adresse IP du stockage Blob de journal Internet
Par défaut Adresse IP de stockage de l’espace de travail - point de terminaison Stockage Blob Internet
Par défaut Adresse IP de stockage de l’espace de travail - Point de terminaison ADLS (dfs) Internet
Par défaut IP d’Event Hubs Internet

Si Azure Private Link est activé sur votre espace de travail, vos itinéraires définis par l'utilisateur doivent utiliser les règles suivantes et associer la table de routage aux sous-réseaux publics et privés de votre réseau virtuel.

Origine Préfixe de l’adresse Type de saut suivant
Par défaut Adresse IP de metastore Internet
Par défaut Adresse IP de stockage d’artefacts Blob Internet
Par défaut Adresse IP du stockage Blob de journal Internet
Par défaut IP d’Event Hubs Internet

Pour obtenir les adresses IP requises pour les itinéraires définis par l’utilisateur, utilisez les tables et instructions dans Azure Databricks régions, en particulier :