Databricks ジョブを実行してデータを変換する

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。 データ統合を初めて使用する場合は、Fabric Data Factory から始めます。 既存の ADF ワークロードをFabricにアップグレードして、データ サイエンス、リアルタイム分析、レポートの新機能にアクセスできます。

pipeline のAzure Databricks ジョブ アクティビティは、サーバーレス ジョブを含む、Azure Databricks ワークスペースで Databricks ジョブを実行します。 この記事は、データ変換とサポートされる変換アクティビティの概要を説明する、 データ変換アクティビティ に関する記事に基づいています。 Azure Databricksは、Apache Spark を実行するためのマネージド プラットフォームです。

Databricks ジョブは、Azure Data Factory Studio ユーザー インターフェイスを使用して直接作成できます。

UI を使用してパイプラインにAzure Databricksのジョブ アクティビティを追加する

パイプライン内のAzure Databricksにジョブ アクティビティを使用するには、次の手順を実行します。

  1. [パイプライン アクティビティ] ウィンドウで ジョブ を検索し、ジョブ アクティビティをパイプライン キャンバスにドラッグします。

  2. まだ選択されていない場合は、キャンバス上でその新しいジョブ アクティビティを選びます。

  3. Azure Databricks タブを選択して、Azure Databricks にリンクされたサービスを選択するか、新しいサービスを作成します。

    Azure Databricks ジョブ アクティビティはサーバーレス クラスターで自動的に実行されるため、リンクされたサービス構成でクラスターを指定する必要はありません。 代わりに、[ サーバーレス ] オプションを選択します。

    Azure Databricks タブが強調表示されたジョブ アクティビティの UI のスクリーンショット。

  4. Settings タブを選択し、Azure Databricksで実行するジョブ、ジョブに渡すオプションの基本パラメーター、およびジョブを実行するためにクラスターにインストールするその他のライブラリを指定します。

    [設定] タブが強調表示されているジョブ アクティビティの UI のスクリーンショット。

Databricks ジョブ アクティビティの定義

Databricks ジョブ アクティビティのサンプル JSON 定義を次に示します。

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Databricks ジョブ アクティビティのプロパティ

次の表で、JSON 定義で使用される JSON プロパティについて説明します。

プロパティ 説明 必須
名前 パイプラインのアクティビティの名前。 イエス
説明 アクティビティの動作を説明するテキスト。 いいえ
Databricks ジョブ アクティビティの場合、アクティビティの種類は DatabricksJob です。 イエス
リンクされたサービス名 Databricks ジョブが実行される Databricks のリンクされたサービスの名前。 このリンクされたサービスの詳細については、計算のリンクされたサービスに関する記事をご覧ください。 イエス
jobId Databricks ワークスペースで実行するジョブの ID。 イエス
ジョブパラメータ キーと値ペアの配列です。 ジョブ パラメーターは、各アクティビティの実行に使用できます。 指定されていないパラメーターをジョブが受け取った場合、ジョブの既定値が使用されます。 パラメーターの詳細については、 Databricks ジョブを参照してください。 いいえ

ジョブとパイプラインの間でのパラメーターの受け渡し

Databricks アクティビティの jobParameters プロパティを使用して、パラメーターをジョブに渡すことができます。

ジョブ パラメーターは、セルフホステッド IR バージョン 5.52.0.0 以降でのみサポートされます。