Condividi tramite


Abilitare il supporto firewall per l'account di archiviazione dello spazio di lavoro

Ogni area di lavoro di Azure Databricks ha un account di archiviazione di Azure associato in un gruppo di risorse gestito noto come account di archiviazione dell'area di lavoro. L'account di archiviazione dell'area di lavoro contiene i dati di sistema dell'area di lavoro (output del processo, impostazioni di sistema e log), la radice DBFS e, in alcuni casi, un catalogo di aree di lavoro di Unity Catalog. Questa pagina descrive come limitare l'accesso all'account di archiviazione dell'area di lavoro solo da risorse e reti autorizzate. È possibile usare l'interfaccia della riga di comando di Azure o PowerShell.

Cos'è il supporto firewall per il tuo account di archiviazione dell'area di lavoro?

Per impostazione predefinita, l'account di archiviazione di Azure del tuo spazio di lavoro accetta connessioni autenticate da tutte le reti. È possibile limitare questo accesso abilitando il supporto del firewall per l'account di archiviazione dell'area di lavoro. Ciò impedisce l'accesso alla rete pubblica e impedisce alle reti non autorizzate di accedere all'account di archiviazione dell'area di lavoro. È possibile configurare questa opzione se l'organizzazione dispone di criteri di Azure che assicurano che gli account di archiviazione siano privati.

Quando il supporto del firewall per l'account di archiviazione dell'area di lavoro è abilitato, tutti gli accessi da servizi esterni ad Azure Databricks devono usare endpoint privati approvati con collegamento privato. Azure Databricks crea un connettore di accesso per connettersi all'archiviazione usando un'identità gestita di Azure. L'accesso dall'ambiente di calcolo serverless di Azure Databricks deve usare endpoint di servizio o endpoint privati.

Requisiti

  • L'area di lavoro deve abilitare l'inserimento della rete virtuale per le connessioni provenienti dal piano di calcolo classico.

  • L'area di lavoro deve abilitare connettività sicura del cluster (Nessun IP pubblico/NPIP) per le connessioni dal piano di calcolo classico.

  • L'area di lavoro deve essere nel piano Premium.

  • È necessario disporre di una subnet separata per gli endpoint privati per l'account di archiviazione. Oltre alle due subnet principali per le funzionalità di base di Azure Databricks.

    La subnet deve trovarsi nella stessa rete virtuale dell'area di lavoro o in una rete virtuale separata a cui l'area di lavoro può accedere. Usare la dimensione /28 minima nella notazione CIDR.

  • Se si usa Cloud Fetch con Microsoft Fabric servizio Power BI, è necessario usare sempre un gateway per l'accesso privato all'account di archiviazione dell'area di lavoro o disabilitare Cloud Fetch. Vedere Passaggio 2 (scelta consigliata): Configurare gli endpoint privati per le VNets client di Cloud Fetch.

  • Per i metodi di distribuzione con Azure CLI o PowerShell, è necessario creare un connettore di accesso ad Azure Databricks e salvare il suo ID risorsa prima di abilitare il firewall di archiviazione predefinito dell'area di lavoro. Ciò richiede l'uso di un'identità gestita assegnata dal sistema o assegnata dall'utente. Vedere Access Connector per Databricks. Non è possibile usare il connettore di accesso di Azure Databricks nel gruppo di risorse gestite.

Passaggio 1: Creare un endpoint privato per l'account di archiviazione.

Crea due endpoint privati per l'account di archiviazione dell'area di lavoro dalla tua rete virtuale che hai usato per l'inserimento di VNet per la sotto-risorsa di destinazione valori: dfs e blob.

Nota

Se visualizzi un errore di assegnazione di negazione nel gruppo di risorse gestite, l'area di lavoro potrebbe essere stata creata prima del modello di autorizzazioni corrente per il gruppo di risorse gestite. Contatti il team dell'account Databricks per aggiornare la configurazione del gruppo di risorse gestite prima di procedere.

Se viene visualizzato un avviso relativo all'esecuzione delle risorse di calcolo, arrestare tutte le risorse di calcolo nell'area di lavoro prima di seguire i passaggi da 1 a 4.

  1. Passa all'area di lavoro.

  2. In Informazioni di base fare clic sul nome del gruppo di risorse gestite.

  3. In Risorse, annotare il nome dell'account di archiviazione dello spazio di lavoro. Il nome inizia in genere con dbstorage.

  4. Nella casella di ricerca nella parte superiore del portale, immettere e selezionare endpoint privato.

  5. Fare clic su + Crea.

  6. Nel campo nome del gruppo di risorse , impostare il gruppo di risorse.

    Importante

    Il gruppo di risorse non deve corrispondere al gruppo di risorse gestite in cui si trova l'account di archiviazione dell'area di lavoro.

  7. Nel campo Nome immettere un nome univoco per questo endpoint privato:

    • Per il primo endpoint privato creato per ogni rete di origine, creare un endpoint DFS. Databricks consiglia di aggiungere il suffisso -dfs-pe
    • Per il secondo endpoint privato creato per ogni rete di origine, creare un endpoint BLOB. Databricks consiglia di aggiungere il suffisso -blob-pe

    Il campo Nome interfaccia di rete viene popolato automaticamente.

  8. Impostare il campo nell'area alla regione della propria area di lavoro.

  9. Clicca su Successivo: Risorsa.

  10. In metodo di connessione, selezionare Connetti a una risorsa di Azure nella mia directory.

  11. In Sottoscrizione, selezionare la sottoscrizione in cui si trova l'area di lavoro.

  12. In Tipo di risorsaselezionare Microsoft.Storage/storageAccounts.

  13. Nella risorsa "Risorsa", selezionare l'account di archiviazione dello spazio di lavoro.

  14. In Risorsa secondaria di destinazioneselezionare il tipo di risorsa di destinazione.

    • Per il primo endpoint privato creato per ciascuna rete di origine, impostarlo su dfs.
    • Per il secondo endpoint privato creato per ogni rete di origine, impostare questa opzione su blob.
  15. Fare clic su Avanti: Rete virtuale.

  16. Nel campo Rete virtuale selezionare una rete virtuale.

  17. Nel campo subnet, imposta la subnet dedicata per gli endpoint privati dell'account di archiviazione.

    Questo campo potrebbe essere popolato automaticamente con la subnet per gli endpoint privati, ma potrebbe essere necessario impostarlo in modo esplicito. Non è possibile usare una delle due subnet dell'area di lavoro, utilizzate per le funzionalità di base di Azure Databricks, che sono solitamente chiamate private-subnet e public-subnet.

  18. Se necessario, modificare le impostazioni predefinite della configurazione IP privato e del gruppo di sicurezza dell'applicazione .

  19. Fare clic su Avanti: DNS. La scheda DNS viene automaticamente associata alla sottoscrizione e al gruppo di risorse giusti selezionati in precedenza. Se necessario, puoi modificarle.

    Nota

    Se nessuna zona DNS privata per il tipo di risorsa secondaria di destinazione (dfs o BLOB) è collegata alla rete virtuale dell'area di lavoro, Azure crea una nuova zona DNS privata. Se nella rete virtuale dell'area di lavoro esiste già una zona DNS privata per tale tipo di risorsa secondaria, Azure lo seleziona automaticamente. Una rete virtuale può avere una sola zona DNS privata per ogni tipo di sotto-risorsa.

  20. Fare clic su Avanti: Tag e aggiungere tag, se necessario.

  21. Fare clic su Avanti: Rivedi e crea ed esamina i campi.

  22. Cliccare su Crea.

Passaggio 2 (consigliato): Configurare gli endpoint privati per le reti virtuali client Cloud Fetch

Cloud Fetch è un meccanismo in ODBC e JDBC per recuperare i dati in parallelo tramite l'archiviazione cloud per portare i dati più velocemente agli strumenti di business intelligence. Se si recuperano risultati di query superiori a 100 MB dagli strumenti di BUSINESS Intelligence, è probabile che si usi Cloud Fetch.

Nota

Se si usa il servizio Power BI di Microsoft Fabric con Azure Databricks e si abilita il supporto del firewall nell'account di archiviazione dell'area di lavoro, è necessario configurare un gateway dati di rete virtuale o un gateway dati locale per consentire l'accesso privato all'account di archiviazione. In questo modo si garantisce che il servizio Power BI fabric possa continuare ad accedere all'account di archiviazione dell'area di lavoro e che Cloud Fetch continui a funzionare correttamente.

Questo requisito non si applica a Power BI Desktop.

Se utilizzi Cloud Fetch, crea endpoint privati per l'account di archiviazione dello spazio di lavoro da qualsiasi rete virtuale dei clienti di Cloud Fetch.

Per ogni rete di origine per i clienti Cloud Fetch, creare due endpoint privati che utilizzano due diversi valori di di sotto-risorsa di destinazione: dfs e blob. Per informazioni dettagliate, vedere Passaggio 1: Creare endpoint privati per l'account di archiviazione . In questi passaggi, per il campo Rete virtuale durante la creazione dell'endpoint privato, assicurarsi di specificare la rete virtuale di origine per ogni client Cloud Fetch.

Passaggio 3: Confermare le approvazioni degli endpoint

Dopo aver creato tutti gli endpoint privati per l'account di archiviazione, verificare se sono approvati. Potrebbero approvarli automaticamente oppure potrebbe essere necessario approvarli manualmente sull'account di archiviazione.

  1. Passare all'area di lavoro nel portale di Azure
  2. In Informazioni di base fare clic sul nome del gruppo di risorse gestite.
  3. In Risorse fare clic sulla risorsa di tipo Account di archiviazione con un nome che inizia con dbstorage.
  4. Nella barra laterale fare clic su Rete.
  5. Fare clic su Connessioni endpoint privati.
  6. Controlla lo stato della Connessione per confermare che dicano Approvato o selezionarli e fare clic su Approva.

Passaggio 4: Autorizzare le connessioni di calcolo senza server

È necessario autorizzare il calcolo serverless per connettersi all'account di archiviazione dell'area di lavoro. Il metodo dipende dal momento in cui è stato creato l'account di archiviazione dell'area di lavoro:

  • Collegando il tuo spazio di lavoro a un NCC, il firewall dell'account di archiviazione predefinito dello spazio di lavoro viene configurato automaticamente con endpoint di servizio per l'accesso senza server.
  • Se desideri abilitare l'accesso al calcolo serverless di Azure Databricks usando endpoint privati, contatta il team del tuo account Azure Databricks.

Abilitare il supporto del firewall di archiviazione tramite l'interfaccia della riga di comando di Azure

  • Per abilitare il supporto del firewall tramite il connettore di accesso con un'identità assegnata dal sistema, in Cloud Shell eseguire:

    az databricks workspace update \
       --resource-group "<resource-group-name>" \
       --name "<workspace-name>" \
       --subscription "<subscription-id>" \
       --default-storage-firewall "Enabled" \
       --access-connector "{\"id\":\"/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>\", \"identity-type\":\"SystemAssigned\"}"
    
  • Per abilitare il supporto del firewall usando il connettore di accesso con un'identità assegnata dall'utente, in Cloud Shell eseguire:

    az databricks workspace update \
    --resource-group "<resource-group-name>" \
    --name "<workspace-name>" \
    --subscription "<subscription-id>" \
    --default-storage-firewall "Enabled" \
    --access-connector "{\"id\":\"/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>\", \"identity-type\":\"UserAssigned\", \"user-assigned-identity-id\":\"/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>\"}"
    
  • Per disabilitare il supporto del firewall tramite il connettore di accesso, in Cloud Shell eseguire:

    az databricks workspace update \
       --name "<workspace-name>" \
       --subscription "<subscription-id>" \
       --resource-group "<resource-group-name>" \
       --default-storage-firewall "Disabled"
    

Abilitare il supporto del firewall di archiviazione con PowerShell

  • Per abilitare il supporto del firewall tramite il connettore di accesso con un'identità assegnata dal sistema, in Cloud Shell eseguire:

    Update-AzDatabricksWorkspace `
       -Name "<workspace-name>" `
       -ResourceGroupName "<resource-group-name>" `
       -SubscriptionId "<subscription-ID>" `
       -Sku "Premium" `
       -AccessConnectorId "/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>" `
       -AccessConnectorIdentityType "SystemAssigned" `
       -DefaultStorageFirewall "Enabled"
    
  • Per abilitare il supporto del firewall usando il connettore di accesso con un'identità assegnata dall'utente, in Cloud Shell eseguire:

    Update-AzDatabricksWorkspace `
       -Name "<workspace-name>" `
       -ResourceGroupName "<resource-group-name>" `
       -SubscriptionId "<subscription-ID>" `
       -Sku "Premium" `
       -AccessConnectorId "/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Databricks/accessConnectors/<access-connector-name>" `
       -AccessConnectorIdentityType "UserAssigned" `
       -AccessConnectorUserAssignedIdentityId "/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>" `
       -DefaultStorageFirewall "Enabled"
    
  • Per disabilitare il supporto del firewall tramite il connettore di accesso, in Cloud Shell eseguire:

    Update-AzDatabricksWorkspace `
       -Name "<workspace-name>" `
       -ResourceGroupName "<resource-group-name>" `
       -SubscriptionId "<subscription-ID>" `
       -DefaultStorageFirewall "Disabled"