Freigeben über


Transformieren von Daten durch Ausführen eines Synapse-Notebooks

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Die Azure Synapse-Notebook-Aktivität in einer Pipeline führt ein Synapse-Notebook in Ihrem Azure Synapse Analytics-Arbeitsbereich aus. Dieser Artikel baut auf dem Artikel zu Datentransformationsaktivitäten auf, der eine allgemeine Übersicht über die Datentransformation und die unterstützten Transformationsaktivitäten bietet.

Sie können eine Azure Synapse Analytics-Notebook-Aktivität direkt über die Benutzeroberfläche von Azure Data Factory Studio erstellen. Eine schrittweise Anleitung zum Erstellen einer Synapse-Notebook-Aktivität mithilfe der Benutzeroberfläche finden Sie im Folgenden.

Hinzufügen einer Notebook-Aktivität für Azure Synapse zu einer Pipeline mit Benutzeroberfläche

Führen Sie die folgenden Schritte aus, um eine Notebook-Aktivität für Azure Synapse in einer Pipeline zu verwenden:

Allgemeine Einstellungen

  1. Suchen Sie im Bereich „Pipeline-Aktivitäten“ nach Notebook und ziehen Sie eine Notebook-Aktivität unter Synapse auf die Pipeline-Canvas.
  2. Wählen Sie die neue Notebook-Aktivität im Canvas aus, wenn sie noch nicht ausgewählt ist.
  3. Geben Sie „Beispiel“ als Name in den allgemeinen Einstellungen ein.
  4. Optional können Sie auch eine Beschreibung angeben.
  5. Timeout: Der maximale Zeitraum für das Ausführen einer Aktivität. Der Standardwert ist 12 Stunden, und die maximal zulässige Zeit beträgt 7 Tage. Das Format ist „D.HH:MM:SS“.
  6. Wiederholung: Die maximale Anzahl der Wiederholungsversuche.
  7. Wiederholungsintervall (Sek.): Die Anzahl von Sekunden zwischen den einzelnen Wiederholungsversuchen.
  8. Sichere Ausgabe: Wenn diese Option aktiviert ist, werden die Ausgaben der Aktivität nicht in der Protokollierung erfasst.
  9. Sichere Eingabe: Wenn diese Option aktiviert ist, werden Eingaben der Aktivität nicht bei der Protokollierung erfasst.

Azure Synapse Analytics Einstellungen (Artefact-Einstellungen)

Wählen Sie die Registerkarte Azure Synapse Analytics (Artefakte) aus, um einen neuen verknüpften Azure Synapse Analytics-Dienst auszuwählen oder zu erstellen, der die Notebook-Aktivität ausführt.

Screenshot: Registerkarte „Verknüpfter Dienst“ für eine Notebook-Aktivität.

Registerkarte "Einstellungen"

  1. Wählen Sie die neue Synapse-Notebook-Aktivität im Canvas aus, falls sie nicht bereits ausgewählt ist.

  2. Klicken Sie auf die Registerkarte Einstellungen.

  3. Erweitern Sie die Notebook-Liste. Sie können ein vorhandenes Notebook in der verknüpften Azure Synapse Analytics (Artefakte) auswählen.

  4. Klicken Sie auf die Schaltfläche „Öffnen“, um die Seite des verknüpften Diensts zu öffnen, auf der sich das ausgewählte Notebook befindet.

Hinweis

Wenn die Ressourcen-ID des Arbeitsbereichs im verknüpften Dienst leer ist, wird die Schaltfläche „Öffnen“ deaktiviert.

Screenshot: Schaltfläche „Öffnen“ ist deaktiviert.

  1. Wählen Sie die Registerkarte Einstellungen aus, und wählen Sie das Notebook sowie optionale Basisparameter aus, die an das Notebook übergeben werden sollen.

    Screenshot: Registerkarte „Einstellungen“ für eine Notebook-Aktivität.

  2. (Optional) Sie können Informationen zum Synapse-Notebook eingeben. Wenn die folgenden Einstellungen leer sind, werden die Einstellungen des Synapse-Notebooks selbst zum Ausführen verwendet; wenn die folgenden Einstellungen nicht leer sind, ersetzen diese Einstellungen die Einstellungen des Synapse-Notebooks selbst.

    Eigenschaft BESCHREIBUNG
    Spark-Pool Verweis auf den Spark-Pool. Sie können den Apache Spark-Pool aus der Liste auswählen.
    „Executor size“ (Executorgröße) Die Anzahl der Kerne und der Arbeitsspeicher, die zur Verwendung von Executors im angegebenen Apache Spark-Pool für die Sitzung zugeordnet sind. Für dynamische Inhalte sind die gültigen Werte Small/Medium/Large/XLarge/XXLarge.
    Executors dynamisch zuordnen Diese Einstellung entspricht der dynamischen Zuordnungseigenschaft in der Spark-Konfiguration für die Executorzuteilung der Spark-Anwendung.
    Minimale Anzahl von Executor Dies ist die minimale Anzahl von Executors, die einem angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
    Maximale Ausführende Dies ist die max. Anzahl von Executors, die im angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
    Treibergröße Die Anzahl von Kernen und die Menge an Arbeitsspeicher, die für Treiber im angegebenen Apache Spark-Pool für den Auftrag verwendet werden sollen.

Azure Synapse Analytics-Notebook-Aktivitätsdefinition

Hier sehen Sie die JSON-Beispieldefinition einer Azure Synapse Analytics-Notebook-Aktivität:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Aktivitätseigenschaften von Azure Synapse Analytics-Notebook

Die folgende Tabelle beschreibt die JSON-Eigenschaften, die in der JSON-Definition verwendet werden:

Eigenschaft BESCHREIBUNG Erforderlich
Name Der Name der Aktivität in der Pipeline. Ja
Beschreibung Ein Text, der beschreibt, was mit der Aktivität ausgeführt wird. Nein
Typ Für die Notebook-Aktivität von Azure Synapse Analytics lautet der Aktivitätstyp SynapseNotebook. Ja
Notebook Der Name des Notebooks, das im Azure Synapse Analytics ausgeführt werden soll. Ja
sparkPool Der Spark-Pool, der für die Ausführung eines Azure Synapse Analytics Notebooks erforderlich ist. Nein
Parameter Der Parameter, der erforderlich ist, um ein Azure Synapse Analytics-Notebook auszuführen. Weitere Informationen finden Sie unter Transformieren von Daten durch Ausführen eines Synapse-Notebooks Nein

Festlegen einer Parameterzelle

Azure Data Factory sucht nach der Parameterzelle und verwendet deren Werte als Standardwerte für die Parameter, die zur Ausführungszeit übergeben werden. Die Ausführungs-Engine fügt eine neue Zelle mit Eingabeparametern unter der Parameterzelle hinzu, um die Standardwerte zu überschreiben. Informationen finden Sie unter Transformieren von Daten durch Ausführen eines Synapse-Notebooks.

Lesen des Ausgabewerts einer Synapse-Notebookzelle

Sie können den Ausgabewert der Notebook-Zelle in der Aktivität lesen. Für diesen Bereich können Sie sich auf Transformieren von Daten durch Ausführen eines Synapse-Notebooks beziehen.

Führen Sie ein weiteres Synapse-Notebook aus

Sie können in einer Synapse-Notebookaktivität auf andere Notebooks verweisen, indem Sie %run magic oder die Notebook-Hilfsprogramme mssparkutils aufrufen. Beide unterstützen geschachtelte Funktionsaufrufe. Berücksichtigen Sie je nach Szenario die folgenden wichtigen Unterschiede zwischen diesen beiden Methoden:

  • %run magic kopiert alle Zellen aus dem Notebook, auf das verwiesen wird, in die Zelle %run und teilt den Variablenkontext. Wenn notebook1 über %run notebook2 auf notebook2 verweist und notebook2 die Funktion mssparkutils.notebook.exit aufruft, wird die Zellenausführung in notebook1 beendet. Sie sollten %run magic verwenden, wenn Sie eine Notebookdatei einschließen möchten.
  • Die mssparkutils Notebook-Hilfsprogramme verwenden das referenzierte Notebook als Methode oder Funktion. Der Variablenkontext wird nicht geteilt. Wenn notebook1 über mssparkutils.notebook.run("notebook2") auf notebook2 verweist und notebook2 die Funktion mssparkutils.notebook.exit aufruft, wird die Zellenausführung in notebook1 fortgesetzt. Sie sollten die Notebook-Hilfsprogramme mssparkutils verwenden, wenn Sie ein Notebook importieren möchten.

Siehe Ausführungsverlauf der Azure Synapse Analytics-Notebook-Aktivität

Gehen Sie zu Pipelineausführungen unter der Registerkarte Überwachen, dort sehen Sie die von Ihnen ausgelösten Pipelines. Öffnen Sie die Pipeline, die Notebookaktivitäten enthält, um den Ausführungsverlauf anzuzeigen.

Screenshot: Eingabe und Ausgabe für eine Notebook-Aktivität.

Für „Notebook-Momentaufnahme öffnen“ wird dieses Feature derzeit nicht unterstützt.

Wählen Sie die Schaltfläche Eingabe oder Ausgabe aus, um die Eingaben oder Ausgaben der Notebookaktivität anzuzeigen. Sollte Ihre Pipeline mit einem Benutzerfehler fehlgeschlagen sein, wählen Sie die Ausgabe, um das Ergebnissfeld zu überprüfen. Darin finden Sie eine detaillierte Rückverfolgung des Benutzerfehlers.

Screenshot: Fehlermeldung des Benutzers bei einer Notebook-Aktivität.