Transformieren von Daten durch Ausführen eines Databricks-Auftrags

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Die Azure Databricks-Auftragsaktivität in einer Pipeline führt Databricks-Aufträge in Ihrem Azure Databricks Arbeitsbereich aus, einschließlich serverloser Aufträge. Dieser Artikel baut auf dem Artikel zu Datentransformationsaktivitäten auf, der eine allgemeine Übersicht über die Datentransformation und die unterstützten Transformationsaktivitäten bietet. Azure Databricks ist eine verwaltete Plattform zum Ausführen von Apache Spark.

Sie können einen Databricks-Auftrag direkt über die benutzeroberfläche von Azure Data Factory Studio erstellen.

Hinzufügen einer Auftragsaktivität für Azure Databricks zu einer Pipeline mit Benutzeroberfläche

Führen Sie die folgenden Schritte aus, um eine Auftragsaktivität für Azure Databricks in einer Pipeline zu verwenden:

  1. Suchen Sie im Bereich Pipelineaktivitäten nach Job, und ziehen Sie eine Jobaktivität auf den Pipeline-Canvas.

  2. Wählen Sie die neue Auftragsaktivität auf der Canvas aus, wenn sie noch nicht ausgewählt ist.

  3. Wählen Sie die Registerkarte Azure Databricks aus, um einen neuen Azure Databricks verknüpften Dienst auszuwählen oder zu erstellen.

    Hinweis

    Die Azure Databricks Auftragsaktivität wird automatisch auf serverlosen Clustern ausgeführt, sodass Sie keinen Cluster in Ihrer verknüpften Dienstkonfiguration angeben müssen. Wählen Sie stattdessen die Option "Serverless " aus.

    Screenshot der Benutzeroberfläche für eine Auftragsaktivität mit hervorgehobener Registerkarte Azure Databricks.

  4. Wählen Sie die Registerkarte Settings aus, und geben Sie den Auftrag an, der für Azure Databricks ausgeführt werden soll, optionale Basisparameter, die an den Auftrag übergeben werden sollen, sowie alle anderen Bibliotheken, die auf dem Cluster installiert werden sollen, um den Auftrag auszuführen.

    Screenshot der Benutzeroberfläche für eine Auftragsaktivität mit hervorgehobener Registerkarte

Databricks-Jobaktivitätsdefinition

Hier sehen Sie die JSON-Beispieldefinition einer Databricks-Auftragsaktivität:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Eigenschaften der Databricks-Auftragsaktivität

Die folgende Tabelle beschreibt die JSON-Eigenschaften, die in der JSON-Definition verwendet werden:

Eigentum BESCHREIBUNG Erforderlich
name Der Name der Aktivität in der Pipeline. Ja
Beschreibung Ein Text, der beschreibt, was mit der Aktivität ausgeführt wird. Nein
Typ Für Databricks Job Activity ist der Aktivitätstyp DatabricksJob. Ja
verbundenerDienstname Name des Databricks Linked Service, auf dem der Databricks-Auftrag ausgeführt wird. Weitere Informationen zu diesem verknüpften Dienst finden Sie im Artikel Von Azure Data Factory unterstützten Compute-Umgebungen. Ja
jobId Die ID des Auftrags, der im Databricks-Arbeitsbereich ausgeführt werden soll. Ja
jobParameters Ein Array aus Schlüssel-Wert-Paaren. Für jede Aktivitätsausführung können Auftragsparameter verwendet werden. Wenn der Auftrag einen Parameter verwendet, der nicht angegeben ist, wird der Standardwert aus dem Auftrag verwendet. Weitere Informationen zu Parametern finden Sie in Databricks Jobs. Nein

Übergeben von Parametern zwischen Aufträgen und Pipelines

Sie können Parameter mithilfe der JobParameters-Eigenschaft in Databricks-Aktivität an Aufträge übergeben.

Hinweis

Auftragsparameter werden nur in selbst gehosteter IR-Version 5.52.0.0 oder höher unterstützt.