Freigeben über


Herstellen einer Verbindung mit und Verwalten Azure Databricks Unity Catalog in Microsoft Purview

In diesem Artikel wird beschrieben, wie Sie Azure Databricks registrieren und wie Sie Azure Databricks Unity Catalog in Microsoft Purview authentifizieren und damit interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.

Unterstützte Funktionen

Scanfunktionen

Metadatenextraktion Vollständiger Scan Inkrementelle Überprüfung Bereichsbezogene Überprüfung
Ja Ja Ja Nein

Beim Scannen Azure Databricks Unity Catalog unterstützt Microsoft Purview Folgendes:

  • Extrahieren von technischen Metadaten, einschließlich:
    • Metastore
    • Kataloge
    • Schemata
    • Tabellen einschließlich der Spalten
    • Ansichten einschließlich der Spalten
  • Abrufen der Herkunft für Ressourcenbeziehungen zwischen Tabellen, Sichten und Spalten während Notebookausführungen.

Beim Einrichten einer Überprüfung können Sie den gesamten Unity Catalog überprüfen oder die Überprüfung auf eine Teilmenge von Katalogen festlegen.

Weitere Funktionen

Klassifizierungen, Vertraulichkeitsbezeichnungen, Richtlinien, Datenherkunft und Liveansicht finden Sie in der Liste der unterstützten Funktionen.

Hinweis

Dieser Connector enthält Metadaten aus Azure Databricks Unity Catalog. Informationen zum Überprüfen Azure Databricks-Arbeitsbereichsmetadaten finden Sie unter Azure Databricks Hive-Metastore-Connector.

Bekannte Einschränkungen

  • In Microsoft Purview werden Databricks-Notebooknamen als numerische IDs anstelle lesbarer Namen angezeigt. Diese Einschränkung besteht, weil Databricks keine Notebooknamen in der Unity Catalog-Systemtabelle verfügbar macht.

  • Möglicherweise treten Fehler auf, wenn die Überprüfungsergebnisse von Azure Databricks 1 MB überschreiten und Azure von Databricks verwalteter Blobspeicher den Zugriff auf öffentliche Netzwerke verweigert. Um dieses Problem zu vermeiden, stellen Sie sicher, dass Microsoft Purview Zugriff auf den internen DBFS-Speicherort des Azure Databricks-Arbeitsbereichs hat, der überprüft wird. Weitere Informationen finden Sie unter Cloudabruf in JDBC.

  • Die inkrementelle Überprüfung ist nur für die Azure Databricks Unity Catalog-Datenquelle verfügbar.

  • Die bereichsbezogene Überprüfung ist nur für die Unity Catalog-Option unter Azure Databricks-Datenquelle verfügbar.

  • Sie können verwaltete private Endpunkte nur für die Unity Catalog-Option unter Azure Databricks-Datenquelle hinzufügen.

  • Wenn Sie ein Objekt aus der Datenquelle löschen, wird bei der nachfolgenden Überprüfung nicht automatisch das entsprechende Objekt in Microsoft Purview entfernt.

  • Datenherkunftsinformationen sind in Azure Databricks-Arbeitsbereichen in der Region China nicht verfügbar. Diese Einschränkung besteht, weil Azure Databricks-Systemtabellen in dieser Region nicht unterstützt werden. Microsoft Purview verwendet diese Tabellen zum Extrahieren der Herkunft, sodass die Herkunft in dieser Region nicht abgerufen werden kann.

  • Legen Sie den Databricks-Tabellenspaltenkommentar auf eine leere Zeichenfolge fest, wenn die Spaltenbeschreibung nicht in Microsoft Purview angezeigt werden soll.

  • Weitere Informationen zu anderen Einschränkungen im Zusammenhang mit der nativen Azure Databricks-Herkunft finden Sie in Azure Databricks-Dokumentation.

Voraussetzungen

  • Sie müssen über ein Azure-Konto mit einem aktiven Abonnement verfügen. Erstellen Sie kostenlos ein Konto.

  • Sie müssen über ein aktives Microsoft Purview-Konto verfügen.

  • Sie benötigen eine Azure Key Vault und um Microsoft Purview-Berechtigungen für den Zugriff auf Geheimnisse zu erteilen.

  • Sie benötigen Datenquellenadministrator- und Datenleserberechtigungen, um eine Quelle zu registrieren und im klassischen Microsoft Purview-Governanceportal zu verwalten. Weitere Informationen zu Berechtigungen finden Sie unter Zugriffssteuerung in Microsoft Purview.

  • Um Azure Databricks Unity Catalog zu überprüfen, stellt Microsoft Purview eine Verbindung mit einem SQL-Warehouse in Ihrem Arbeitsbereich her und verwendet ein persönliches Zugriffstoken für die Authentifizierung. Sie benötigen einen Azure Databricks-Arbeitsbereich, der Unity Catalog aktiviert und an den Metastore angefügt ist, den Sie überprüfen möchten. In Ihrem Azure Databricks-Arbeitsbereich:

    • Erstellen Sie ein SQL-Warehouse. Sie können ggf. auch das automatisch erstellte Starter-Warehouse verwenden.

    • Notieren Sie sich den HTTP-Pfad. Sie finden sie in Azure Databricks-Arbeitsbereich > SQL Warehouses > Ihres Warehouses > Verbindungsdetails > HTTP-Pfad.

    • Stellen Sie sicher, dass der Benutzer über die Berechtigung Kann verwenden verfügt, damit er eine Verbindung mit dem Azure Databricks SQL-Warehouse herstellen kann. Weitere Informationen finden Sie unter Sql Warehouse-Zugriffssteuerung.

    • Das SQL-Warehouse in Azure Databricks muss ausgeführt werden, um eine Verbindung mit Microsoft Purview herzustellen, bevor die Überprüfung in Microsoft Purview eingerichtet wird.

  • Zum Abrufen der Herkunft aus Azure Databricks mithilfe von Microsoft Purview müssen die folgenden Voraussetzungen erfüllt sein:

    • Systemschema aktivieren: Das Systemschema system.access muss in Ihrem Unity Catalog aktiviert sein. Diese Anforderung besteht, da Herkunftsinformationen in Systemtabellen gespeichert werden und das Aktivieren dieses Schemas den Zugriff auf diese Tabellen ermöglicht. Erfahren Sie mehr über die Überwachung der Nutzung mit Systemtabellen.

    • Benutzerberechtigungen:

      • Das Benutzerkonto, das Sie für die Überprüfung verwenden, muss über SELECT-Berechtigungen für die folgenden Systemtabellen verfügen:

        • system.access.table_lineage
        • system.access.column_lineage

        Diese Berechtigungen sind erforderlich, da Herkunftsdaten direkt aus den Systemtabellen gelesen werden und Ohne den erforderlichen Zugriff kann Microsoft Purview die Herkunftsinformationen nicht abrufen.

        Das Benutzerkonto, das Sie für die Überprüfung verwenden, muss ebenfalls über die folgenden Berechtigungen verfügen:

        • USE CATALOG on system
        • USE SCHEMA für system.access
  • Wenn Ihr Azure Databricks-Arbeitsbereich den Zugriff aus einem öffentlichen Netzwerk nicht zulässt oder Ihr Microsoft Purview-Konto nicht den Zugriff aus allen Netzwerken ermöglicht, können Sie die Verwaltete Virtual Network Integration Runtime oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime verwenden. Sie können bei Bedarf einen verwalteten privaten Endpunkt für Azure Databricks einrichten, um eine private Konnektivität herzustellen.

Datenquelleneinrichtung (Azure Databricks im Vergleich zu Azure Databricks Unity Catalog)

Sie können eine Azure Databricks Unity Catalog-Verbindung mit Microsoft Purview über zwei Quellen einrichten:

  • Azure Databricks (alte Quelle)
  • Azure Databricks Unity Catalog

Unterschiede in den Funktionen zwischen Datenquellen

Die Funktionen des Azure Databricks Unity Catalog-Connectors unterscheiden sich je nach der für die Verbindung verwendeten Quelle, wie in dieser Tabelle beschrieben:

Funktion Alte Quelle Neue Quelle
Quellname Azure Databricks Azure Databricks Unity Catalog
Quellunterstützung Hive & Unity Catalog Unity Catalog
Authentifizierung: Persönliches Zugriffstoken Unterstützt Unterstützt
Authentifizierung: Dienstprinzipal Nein Unterstützt
Authentifizierung: Verwaltete Identität Nein Unterstützt (systemseitig verwaltete Identität)
Integration Runtime: Azure IR Unterstützt Unterstützt
Integration Runtime: Verwaltete Virtual Network IR Unterstützt Ja**
Integration Runtime: Kubernetes Self-Hosted IR Unterstützt Unterstützt
Bereichsbezogene Überprüfung Ja – Katalogebene Nein
Inkrementelle Überprüfung Nein Ja
Herkunft Unterstützt Unterstützt

**Das Scannen Azure Databricks Unity Catalog wird über managed Virtual Network Integration Runtime unterstützt. Verwalteter privater Endpunkt wird in diesem Fall jedoch nicht unterstützt.

Welche Quelle sollte ich verwenden?

Wählen Sie entweder die Quelle basierend auf den Anforderungen Ihrer organization aus, oder verwenden Sie beide parallel. Wenn Sie zwischen Quellen wechseln oder beides gleichzeitig verwenden, führt dies nicht zu einer Ressourcenduplizierung in Microsoft Purview. Diese Flexibilität ermöglicht Es Ihnen, mit der Option zu beginnen, die am besten zu Ihrem aktuellen Setup passt, und nach Bedarf im Laufe der Zeit anzupassen.

Authentifizierung für eine Überprüfung

Sie können persönliche Zugriffstoken, verwaltete Identitäten oder Dienstprinzipal-Authentifizierungsmethoden verwenden, um Azure Databricks Unity Catalog zu überprüfen.

Wenn Sie eine systemseitig zugewiesene verwaltete Identität verwenden

In Azure Databricks
  1. Wechseln Sie zu Einstellungen>Arbeitsbereichsadministrator>Identität und Zugriff.

  2. Wählen Sie Dienstprinzipal hinzufügen aus.

  3. Wählen Sie Neu hinzufügen aus.

  4. Wählen Sie verwaltet Microsoft Entra ID aus. Geben Sie die Anwendungs-ID für Microsoft Purview ein. Sie finden die Anwendungs-ID unter Ressourcendetails des Microsoft Purview-Kontos im Azure-Portal.

Bild des Benutzers

In Microsoft Purview
  1. Wählen Sie unter Anmeldeinformationen die systemseitig zugewiesene verwaltete Identität aus.
  • Für alle Objekte, die Sie in Microsoft Purview einbinden möchten, muss der Benutzer oder Dienstprinzipal mindestens über select-Berechtigungen für Tabellen/Sichten, USE CATALOG für den Objektkatalog und USE SCHEMA für das Schema des Objekts verfügen.

Registrieren

In diesem Abschnitt wird beschrieben, wie Sie einen Azure Databricks-Arbeitsbereich in Microsoft Purview mithilfe des klassischen Microsoft Purview-Governanceportals registrieren.

  1. Wechseln Sie zu Ihrem Microsoft Purview-Konto.

  2. Wählen Sie im linken Bereich Data Map aus.

  3. Wählen Sie Registrieren aus.

  4. Wählen Sie unter Quellen registrierenAzure Databricks Unity Catalog>Continue aus.

  5. Führen Sie auf dem Bildschirm Quellen registrieren (Azure Databricks Unity Catalog) die folgenden Schritte aus:

  6. Geben Sie unter Name einen Namen ein, den Microsoft Purview als Datenquelle auflistet.

    1. Geben Sie für Metastore-ID die Metastore-ID für den Azure Databricks Unity Catalog-Metastore an, den Sie überprüfen möchten.

    2. Wählen Sie eine Sammlung aus der Liste aus.

Screenshot: Registrieren Azure Databricks Unity Catalog-Quelle

  1. Klicken Sie auf Fertigstellen.

Überprüfung

Tipp

So beheben Sie Probleme mit der Überprüfung:

  1. Vergewissern Sie sich, dass alle Voraussetzungen erfüllt sind.
  2. Lesen Sie die Dokumentation zur Problembehandlung bei der Überprüfung.

Führen Sie die folgenden Schritte aus, um Azure Databricks zu überprüfen und Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen finden Sie unter Scans und Erfassung in Microsoft Purview.

  1. Wechseln Sie zu Quellen.

  2. Wählen Sie die registrierte Azure Databricks aus.

  3. Wählen Sie + Neuer Scan aus.

  4. Geben Sie die folgenden Details an:

    1. Name: Geben Sie einen Namen für die Überprüfung ein.

    2. Verbindung über Integration Runtime herstellen: Wählen Sie die Standard-Azure Integration Runtime, managed Virtual Network IR oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime aus, die Sie erstellt haben.

    3. Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:

    4. Arbeitsbereichs-URL: Geben Sie die URL für den Arbeitsbereich an, den Sie überprüfen möchten.

      1. HTTP-Pfad: Geben Sie den HTTP-Pfad des Databricks SQL Warehouse an, mit dem Microsoft Purview eine Verbindung herstellt und die Überprüfung durchführt. Beispiel: /sql/1.0/endpoints/xxxxxxxxxxxxxxxx. Sie finden sie in Azure Databricks-Arbeitsbereich –> SQL Warehouses –> Ihr Warehouse –> Verbindungsdetails –> HTTP-Pfad.
    5. Herkunftsextraktion: Schalten Sie die Herkunftsextraktion auf Ein um, um die Herkunft der gescannten Ressourcen abzurufen.

  5. Wählen Sie Verbindung testen aus, um die Einstellungen zu überprüfen.

    Screenshot: Einrichten Azure Databricks Unity Catalog-Überprüfung.

  6. Wählen Sie Weiter.

  7. Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.

  8. Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.

Nachdem die Überprüfung erfolgreich abgeschlossen wurde, sehen Sie sich an, wie Sie Ressourcen durchsuchen und durchsuchen.

Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen

So zeigen Sie vorhandene Überprüfungen an:

  1. Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
  3. Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
  4. Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.

Verwalten ihrer Überprüfungen

So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:

  1. Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.

  2. Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.

  3. Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:

    • Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
    • Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
    • Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.

Hinweis

  • Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.

Durchsuchen und Durchsuchen von Ressourcen

Nachdem Sie Ihre Azure Databricks überprüft haben, können Sie Unified Catalog durchsuchen oder Unified Catalog suchen, um die Ressourcendetails und die Herkunft anzuzeigen.

Beim Durchsuchen nach Quelltypen werden zwei Einträge für Azure Databricks Unity Catalog und Azure Databricks angezeigt. Der Azure Databricks Unity Catalog-Eintrag enthält die Unity Catalog-Artefakte, einschließlich des Metastores und seiner Kataloge, Schemas, Tabellen und Sichten. Der Azure Databricks-Eintrag enthält die Arbeitsbereichsartefakte.

Screenshot: Durchsuchen von Ressourcen nach Quelltyp

Im Azure Databricks-Arbeitsbereichsobjekts finden Sie den zugeordneten Unity-Katalog auf der Registerkarte Eigenschaften. Die Zuordnung funktioniert auch umgekehrt.

Screenshot: Suchen des zugehörigen Unity Catalog mit Azure Databricks-Quelle

Herkunft

Wenn Sie eine bestimmte Azure Databricks-Ressource durchsuchen, können Sie die Notizbücher sehen, die die Herkunft erfasst haben.

Wechseln Sie zum Medienobjekt, und wählen Sie die Registerkarte Herkunft aus. Sie können die Herkunft auf der Azure Databricks Notebook-Ressource oder dem Tabellen-/Ansichtsobjekt anzeigen, falls zutreffend.

Screenshot: Durchsuchen von Notebooks, die in der zugeordneten Azure Databricks Unity Catalog-Arbeitsbereichsressource vorhanden sind

Screenshot: Notebookherkunft im zugeordneten Azure Databricks Unity Catalog-Arbeitsbereichsobjekt

Unterstützte Herkunftsszenarien

  • Die Herkunft wird für Tabellen und Sichten unterstützt, wenn sie über Databricks-Notebooks innerhalb von Unity Catalog verbunden sind.

  • Die Herkunft wird nur für Objekte angezeigt, die über Microsoft Purview gescannt wurden. Alle zugehörigen Ressourcen müssen gescannt werden, um ein vollständiges Herkunftsdiagramm zu bilden. Stellen Sie sicher, dass alle Databricks-Arbeitsbereiche mit relevanten Notebooks in Microsoft Purview-Überprüfungen enthalten sind.

Herkunftseinschränkungen

  • Wenn Sie Notebooks über Databricks-Aufträge ausführen, wird die Herkunft auf Spaltenebene möglicherweise nicht erfasst.
  • Microsoft Purview zeigt nur eine teilweise Herkunft an, wenn Sie nicht alle An einem Datenfluss beteiligten Objekte überprüfen. Wenn beispielsweise ein Notizbuch in Arbeitsbereich A Daten in eine Tabelle in Arbeitsbereich B schreibt, Sie arbeitsbereich A jedoch nur mithilfe von Microsoft Purview scannen, zeigt die Herkunft das Notizbuch, aber nicht die Zieltabelle an, was zu einer unvollständigen Herkunft führt.
  • Wenn ein externer Dienst ein Notebook auslöst (z. B. Azure Data Factory [ADF]-Pipeline, die einen Databricks-Auftrag aufruft), spiegelt die Herkunft in Microsoft Purview diese Abhängigkeit nicht wider.
    • In diesem Fall wird die Herkunft zwischen ADF-Datasets und Databricks-Ressourcen nicht angezeigt.
    • Es wird nur die Herkunft erfasst, die in Databricks-Notebooks erstellt wurde.

Das Szenario "Herkunft fehlt"

Herkunftsextraktion ist passiv; Microsoft Purview erfasst nur, welche Unity Catalog-Systemtabellenprotokolle protokolliert und zugänglich sind.

  • Lesen Sie die vorherigen Abschnitte, um sicherzustellen, dass Ihr Herkunftsszenario unterstützt wird.
  • Überprüfen Sie, ob die Systemtabellen der Unity Catalog-Herkunft (system.access.table_lineage, system.access.column_lineage) ordnungsgemäß aufgefüllt sind.
  • Erstellen Sie ein Supportticket, wenn weiterhin Probleme auftreten.

Informationen zu unterstützten Databricks Unity Catalog-Herkunftsszenarien finden Sie im Abschnitt unterstützte Funktionen . Weitere Informationen zur Herkunft im Allgemeinen finden Sie im Benutzerhandbuch zur Datenherkunft und -herkunft.

Häufig gestellte Fragen (FAQ)

Erfasst Microsoft Purview die Datenherkunft auf Spaltenebene aus Unity Catalog?

Microsoft Purview erfasst die Herkunft sowohl auf der Unity Catalog-Tabellen- und Ansichtsebene als auch auf Spaltenebene.

Warum wird keine Herkunft auf Spaltenebene angezeigt?

Die Herkunft auf Spaltenebene wird angezeigt, wenn Sie Ihr Notebook aus einem Cluster ausführen. SQL-Warehouses generieren keine Herkunft auf Spaltenebene.

Gewusst wie einen Timeoutfehler beheben?

Ihre Überprüfung wird möglicherweise nicht abgeschlossen, wenn Ihr Arbeitsbereich eine große Anzahl von Ressourcen enthält. Um dieses Problem zu beheben, legen Sie die Überprüfung auf einige Kataloge gleichzeitig fest. Dieser Ansatz reduziert die Anzahl der Ressourcen in jeder Überprüfung und hilft Ihnen, Ihre Überprüfungen abzuschließen.

Warum hat Microsoft Purview die Herkunft nicht abgerufen, nachdem ich mein Notizbuch ausgeführt habe?

Nachdem Sie Ihr Notebook ausgeführt haben, benötigt Databricks möglicherweise einige Minuten, um die Herkunftsinformationen in den Systemtabellen zu aktualisieren. Microsoft Purview kann die Herkunft abrufen, nachdem die Systemtabellen aktualisiert wurden.

Nächste Schritte

Nachdem Sie Ihre Quelle registriert haben, verwenden Sie die folgenden Leitfäden, um mehr über Microsoft Purview und Ihre Daten zu erfahren: