Activer la prise en charge de pare-feu pour votre compte de stockage d’espace de travail

Chaque espace de travail Azure Databricks a un compte de stockage Azure associé dans un groupe de ressources managé appelé compte de stockage workspace. Ce compte contient des données système de l'espace de travail (sortie du travail, paramètres système et journaux), la racine du système de fichiers Databricks et, dans certains cas, un catalogue d'espaces de travail Unity Catalog. Vous pouvez limiter l’accès à votre compte de stockage d’espace de travail aux ressources et réseaux autorisés uniquement à l’aide du Azure CLI ou de PowerShell.

Qu’est-ce que la prise en charge de pare-feu pour votre compte de stockage d’espace de travail ?

Par défaut, votre compte de stockage d’espace de travail accepte les connexions authentifiées de tous les réseaux. Lorsque vous activez la prise en charge du pare-feu, Azure Databricks bloque l’accès au réseau public et limite l’accès aux ressources autorisées uniquement. Vous pouvez le configurer si votre organisation a Azure stratégies qui nécessitent que les comptes de stockage soient privés.

Lorsque la prise en charge du pare-feu est activée, les services en dehors de Azure Databricks qui doivent accéder au compte de stockage de l’espace de travail doivent utiliser des points de terminaison privés avec Private Link. Le calcul sans serveur d'Azure Databricks doit utiliser soit des points de terminaison de service, soit des points de terminaison privés pour pouvoir accéder au compte de stockage de l'espace de travail.

Azure Databricks crée un connecteur d'accès avec une identité managée Azure pour accéder au compte de stockage de l’espace de travail.

Spécifications

  • Votre espace de travail doit activer l’injection de réseau virtuel pour les connexions à partir du plan de calcul classique.

  • Votre espace de travail doit activer la connectivité de cluster sécurisée (Pas d’IP publique / NPIP) pour les connexions depuis le plan de calcul classique.

  • Votre espace de travail doit être sur le plan Premium.

  • Vous devez disposer d’un sous-réseau distinct pour les points de terminaison privés du compte de stockage. Cela s’ajoute aux deux principaux sous-réseaux pour les fonctionnalités de base Azure Databricks.

    Le sous-réseau doit se trouver dans le même VNet que l’espace de travail ou dans un VNet distinct auquel l’espace de travail peut accéder. Utilisez la taille minimale, /28, dans la notation CIDR.

  • Si vous utilisez Cloud Fetch avec le Microsoft Fabric Power BI service, vous devez toujours utiliser une passerelle de réseau virtuel ou une passerelle locale pour l’accès privé au compte de stockage de l’espace de travail. Consultez l’étape 2 (recommandé) : Configurer des points de terminaison privés pour les réseaux virtuels clients Cloud Fetch.

  • Pour les méthodes de déploiement Azure CLI ou PowerShell, vous devez créer un connecteur d’accès Azure Databricks et enregistrer son ID de ressource avant d’activer le pare-feu de stockage d’espace de travail par défaut. Cela nécessite l’utilisation d’une identité managée affectée par le système ou affectée par l’utilisateur. Consultez Access Connector pour Databricks. Vous ne pouvez pas utiliser le connecteur d'accès Azure Databricks dans le groupe de ressources managé.

Connecter des services depuis Azure Databricks au compte de stockage

Étape 1 : Créer des points de terminaison privés dans le compte de stockage

Créez deux points de terminaison privés dans votre compte de stockage d’espace de travail à partir de votre VNet que vous avez utilisé pour l’injection de VNet pour les valeurs de la Sous-ressource cible : dfs et blob.

Remarque

Si vous recevez une erreur d’affectation de refus sur votre groupe de ressources managé, il est possible que votre espace de travail précède le modèle actuel d’autorisations de groupe de ressources managé. Contactez votre équipe de compte Azure Databricks pour mettre à jour la configuration du groupe de ressources managé avant de continuer.

Si vous recevez un avertissement sur l’exécution des ressources de calcul, arrêtez tout le calcul dans votre espace de travail avant de suivre les étapes 1 à 4.

  1. Accédez à votre espace de travail.

  2. Sous Fonctionnalités essentielles, cliquez sur le nom du Groupe de ressources managé.

  3. Sous Ressources, notez le nom de votre compte de stockage d’espace de travail. Le nom commence généralement par dbstorage.

  4. Dans la zone de recherche située en haut du portail, entrez et sélectionnez Point de terminaison privé.

  5. Cliquez sur + Créer.

  6. Dans le champ du nom du Groupe de ressources, définissez votre groupe de ressources.

    Importante

    Le groupe de ressources doit être différent du groupe de ressources managé dans lequel se trouve votre compte de stockage d’espace de travail.

  7. Dans le champ Nom , entrez un nom unique pour ce point de terminaison privé :

    • Pour le premier point de terminaison privé que vous créez pour chaque réseau source, créez un point de terminaison DFS. Azure Databricks recommande d’ajouter le suffixe -dfs-pe.
    • Pour le second point de terminaison privé que vous créez pour chaque réseau source, créez un point de terminaison Blob. Azure Databricks recommande d’ajouter le suffixe -blob-pe.

    Le champ Nom de l’interface réseau est automatiquement renseigné.

  8. Définissez le champ Région sur la région de votre espace de travail.

  9. Cliquez sur Suivant : Ressource.

  10. Dans la méthode Connection, sélectionnez Connecter à une ressource de Azure dans mon répertoire.

  11. Dans Abonnement, sélectionnez l’abonnement dans lequel se trouve votre espace de travail.

  12. Dans Type de ressource, sélectionnez Microsoft. Storage/storageAccounts.

  13. Dans Ressource, sélectionnez votre compte de stockage d’espace de travail.

  14. Dans la sous-ressource cible, sélectionnez le type de ressource cible.

    • Pour le premier point de terminaison privé que vous créez pour chaque réseau source, définissez la valeur dfs.
    • Pour le second point de terminaison privé que vous créez pour chaque réseau source, définissez la valeur blob.
  15. Cliquez sur Next : Virtual Network.

  16. Dans le champ Réseau virtuel, sélectionnez un VNet.

  17. Dans le champ du sous-réseau, sélectionnez le sous-réseau distinct que vous avez réservé pour les points de terminaison privés du compte de stockage.

    Ce champ peut remplir automatiquement le sous-réseau de vos points de terminaison privés, mais vous devrez peut-être le définir explicitement. N'utilisez pas les deux sous-réseaux d'espace de travail pour les fonctionnalités d'espace de travail de base Azure Databricks, qui sont généralement appelées private-subnet et public-subnet.

  18. Modifiez la configuration IP privée et le groupe de sécurité d’application par défaut si nécessaire.

  19. Cliquez sur Suivant : DNS. L’onglet DNS est automatiquement renseigné avec l’abonnement et le groupe de ressources appropriés que vous avez sélectionnés précédemment. Changez-les si nécessaire.

    Remarque

    Si aucune zone DNS privée pour le type de sous-ressource cible (dfs ou blob) n’est attachée au réseau virtuel de l’espace de travail, Azure crée une zone DNS privée. Si une zone DNS privée pour ce type de sous-ressource existe déjà sur le réseau virtuel de l’espace de travail, Azure la sélectionne automatiquement. Un réseau virtuel ne peut avoir qu’une seule zone DNS privée par type de sous-ressource.

  20. Cliquez sur Suivant : Balises et ajouter des balises si vous le souhaitez.

  21. Cliquez sur Suivant : Passez en revue + créez et passez en revue les champs.

  22. Cliquez sur Créer.

Étape 2 (recommandé) : Configurer des points de terminaison privés pour les réseaux virtuels clients Cloud Fetch

Cloud Fetch est un mécanisme dans ODBC et JDBC qui extrait des données en parallèle via le stockage cloud pour fournir des données plus rapidement aux outils décisionnels. Si vous extrayez des résultats de requête de plus de 100 Mo à partir d’outils décisionnels, vous utilisez probablement Cloud Fetch.

Remarque

Si vous utilisez le Microsoft Fabric Power BI service avec Azure Databricks et activez la prise en charge du pare-feu sur le compte de stockage de l’espace de travail, vous devez configurer une passerelle de données de réseau virtuel ou une passerelle de données locale pour autoriser l’accès privé au compte de stockage. Cela garantit que les Fabric Power BI service peuvent continuer à accéder au compte de stockage de l’espace de travail et que Cloud Fetch continue de fonctionner correctement.

Cette exigence ne s’applique pas à Power BI Desktop.

Si vous utilisez Cloud Fetch, créez des points de terminaison privés vers le compte de stockage de l’espace de travail depuis les réseaux virtuels de vos clients Cloud Fetch.

Pour chaque réseau source pour les clients Cloud Fetch, créez deux points de terminaison privés qui utilisent deux valeurs différentes pour la Sous-ressource cible : dfs et blob. Consultez l’étape 1 : Créer des points de terminaison privés sur le compte de stockage pour obtenir des étapes détaillées. Dans ces étapes, pour le champ Réseau virtuel lorsque vous créez le point de terminaison privé, veillez à spécifier votre VNet source pour chaque client Cloud Fetch.

Étape 3 : Confirmer les approbations des points de terminaison

Après avoir créé tous les points de terminaison privés sur le compte de stockage, vérifiez qu’ils sont approuvés. Ils peuvent approuver automatiquement ou vous devrez peut-être les approuver sur le compte de stockage.

  1. Accédez à votre espace de travail dans le portail Azure.
  2. Sous Fonctionnalités essentielles, cliquez sur le nom du Groupe de ressources managé.
  3. Sous Ressources, cliquez sur la ressource de type Compte de stockage dont le nom commence par dbstorage.
  4. Dans la barre latérale, cliquez sur Mise en réseau.
  5. Cliquez sur connexion de point de terminaison privé.
  6. Vérifiez l’État de la connexion pour confirmer qu’ils sont marqués Approuvé, ou sélectionnez-les et cliquez sur Approuver.

Connexions à partir d’un calcul sans serveur

Remarque

Azure Databricks intègre tous les comptes de stockage d’espace de travail existants qui ont activé les pare-feu à un périmètre de sécurité réseau qui permet l’étiquette de service AzureDatabricksServerless. Cette intégration devrait se terminer à la fin de 2026.

Lorsque vous activez la prise en charge du pare-feu, Azure Databricks intègre automatiquement le compte de stockage de l’espace de travail à un périmètre de sécurité réseau qui autorise l’étiquette de service AzureDatabricksServerless. Cela permet à Azure Databricks de se connecter au calcul sans serveur à travers des points de terminaison de service. Pour vous connecter via des points de terminaison privés, ajoutez une règle de point de terminaison privé à votre NCC pour le compte de stockage de workspace. Consultez Configurer la connectivité privée aux ressources Azure.

Si vous souhaitez gérer votre propre périmètre de sécurité réseau, vous pouvez détacher le périmètre de sécurité réseau approvisionné Azure Databricks et attacher votre propre périmètre. Le basculement provoque une brève pause dans le service. Préparez votre périmètre de sécurité réseau de remplacement à l’avance et planifiez une fenêtre de maintenance.

Activer la prise en charge du pare-feu de stockage en utilisant l'Azure CLI

  • Pour activer la prise en charge du pare-feu à l’aide du connecteur d’accès avec une identité affectée par le système, exécutez Cloud Shell :

    az databricks workspace update \
       --resource-group "<resource-group-name>" \
       --name "<workspace-name>" \
       --subscription "<subscription-id>" \
       --default-storage-firewall "Enabled" \
       --access-connector "{\"id\":\"/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>\", \"identity-type\":\"SystemAssigned\"}"
    
  • Pour activer la prise en charge du pare-feu à l’aide du connecteur d’accès avec une identité affectée par l’utilisateur, exécutez dans Cloud Shell :

    az databricks workspace update \
    --resource-group "<resource-group-name>" \
    --name "<workspace-name>" \
    --subscription "<subscription-id>" \
    --default-storage-firewall "Enabled" \
    --access-connector "{\"id\":\"/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>\", \"identity-type\":\"UserAssigned\", \"user-assigned-identity-id\":\"/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>\"}"
    
  • Pour désactiver la prise en charge du pare-feu à l’aide du connecteur d’accès, dans Cloud Shell exécuter :

    az databricks workspace update \
       --name "<workspace-name>" \
       --subscription "<subscription-id>" \
       --resource-group "<resource-group-name>" \
       --default-storage-firewall "Disabled"
    

Activer la prise en charge du pare-feu de stockage à l’aide de PowerShell

  • Pour activer la prise en charge du pare-feu à l’aide du connecteur d’accès avec une identité affectée par le système, exécutez Cloud Shell :

    Update-AzDatabricksWorkspace `
       -Name "<workspace-name>" `
       -ResourceGroupName "<resource-group-name>" `
       -SubscriptionId "<subscription-ID>" `
       -Sku "Premium" `
       -AccessConnectorId "/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>" `
       -AccessConnectorIdentityType "SystemAssigned" `
       -DefaultStorageFirewall "Enabled"
    
  • Pour activer la prise en charge du pare-feu à l’aide du connecteur d’accès avec une identité affectée par l’utilisateur, exécutez dans Cloud Shell :

    Update-AzDatabricksWorkspace `
       -Name "<workspace-name>" `
       -ResourceGroupName "<resource-group-name>" `
       -SubscriptionId "<subscription-ID>" `
       -Sku "Premium" `
       -AccessConnectorId "/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>" `
       -AccessConnectorIdentityType "UserAssigned" `
       -AccessConnectorUserAssignedIdentityId "/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>" `
       -DefaultStorageFirewall "Enabled"
    
  • Pour désactiver la prise en charge du pare-feu à l’aide du connecteur d’accès, dans Cloud Shell exécuter :

    Update-AzDatabricksWorkspace `
       -Name "<workspace-name>" `
       -ResourceGroupName "<resource-group-name>" `
       -SubscriptionId "<subscription-ID>" `
       -DefaultStorageFirewall "Disabled"