Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Manage Azure Databricks Previews.
Auf dieser Seite wird gezeigt, wie Sie einen registrierten Community-Connector verwenden, um Daten aus einer unterstützten Quelle in Azure Databricks aufzunehmen. Informationen zum Erstellen eines benutzerdefinierten Connectors für eine Quelle, die noch nicht unterstützt wird, finden Sie unter Erstellen eines benutzerdefinierten Connectors.
Anforderungen
- Ein Azure Databricks Arbeitsbereich mit aktiviertem Unity-Katalog
- Eine Verbindung zur Quelle, die Sie einbinden möchten, oder Berechtigungen, um eine Verbindung zu erstellen
- Schreibzugriff auf einen Katalog und ein Schema für die ingestierten Tabellen
Erstellen einer Aufnahmepipeline
So verwenden Sie einen registrierten Community-Connector:
Klicken Sie in der Randleiste Ihres Azure Databricks Arbeitsbereichs auf +Neu>Daten hinzufügen oder hochladen und wählen Sie dann die Quelle unter Community Connectors aus.
Klicken Sie auf +Verbindung erstellen , oder wählen Sie eine vorhandene Verbindung aus, und klicken Sie dann auf Weiter.
Geben Sie für den Pipelinenamen einen Namen für die Pipeline ein.
Geben Sie für den Speicherort des Ereignisprotokolls einen Katalognamen und einen Schemanamen ein. Azure Databricks speichert hier das Pipelineereignisprotokoll. Aufgenommene Tabellen werden auch standardmäßig hier geschrieben.
Geben Sie für den Stammpfad Ihren Arbeitsbereichspfad ein (z. B.
/Workspace/Users/<your-email>/connectors). Azure Databricks klont und speichert den Connector-Quellcode hier.Klicken Sie auf "Pipeline erstellen".
Im Pipeline-Editor öffnen Sie
ingest.pyund aktualisieren das Feld Objekte, um die Tabellen einzuschließen, die Sie aufnehmen möchten. Beispiel:from databricks.labs.community_connector.pipeline import ingest pipeline_spec = { "connection_name": "my_stripe_connection", # Required: UC connection name "objects": [ {"table": {"source_table": "charges"}}, {"table": {"source_table": "customers", "destination_table": "stripe_customers"}}, ], } ingest(spark, pipeline_spec)Führen Sie die Pipeline manuell aus, oder planen Sie sie.
Pipelinekonfigurationsoptionen
Sie können die folgenden Optionen konfigurieren in ingest.py:
| Auswahl | Description |
|---|---|
connection_name |
Erforderlich. Der Name der Verbindung, die Authentifizierungsanmeldeinformationen für die Quelle speichert. |
objects |
Erforderlich. Eine Liste der zu aufnehmenden Tabellen. Jeder Eintrag weist das Format {"table": {"source_table": "..."}}auf. Sie können auch ein optionales destination_table innerhalb des table Objekts angeben. |
destination_catalog |
Der Katalog, in dem importierte Tabellen abgelegt werden. Standardeinstellung für den Katalog, der während der Pipelineerstellung festgelegt wurde. |
destination_schema |
Das Schema, in das eingelesene Tabellen geschrieben werden. Standardeinstellung für das Schema, das während der Pipelineerstellung festgelegt wurde. |
scd_type |
Die langsam ändernde Dimensionstrategie: SCD_TYPE_1, SCD_TYPE_2 oder APPEND_ONLY. Wird standardmäßig auf SCD_TYPE_1 festgelegt. |
primary_keys |
Überschreiben Sie die voreingestellten Primärschlüssel einer Tabelle. Geben Sie eine Liste von Spaltennamen an. |