データ ファクトリ パイプラインを操作する
データ ファクトリ パイプラインを操作するには、Azure Data Factoryのパイプラインを理解することが不可欠です。
Azure Data Factory のパイプラインは、アクティビティの論理的なグループを表しており、それらのアクティビティが組み合わさって特定のタスクを実行します。
1 つのパイプライン内でアクティビティを組み合わせる例として、ログ データの取り込みと除去を、除去されたログ データを分析するマッピング データ フローと組み合わせて行うことができます。
パイプラインを使用すると、個々のアクティビティをセットとして管理できます。 そうすれば、各アクティビティを別々に管理する場合と比べて、1 つのパイプラインを使用することによってアクティビティを効率的にデプロイおよびスケジュールすることができます。
パイプライン内のアクティビティは、データに対して実行するアクションと呼ばれます。 アクティビティは 0 個以上の入力データセットを受け取り、1 個以上の出力データセットを生成できます。
アクションの例としては、Azure SQL DatabaseからAzure Data Lake Storage Gen2にデータをコピーするコピー アクティビティを使用できます。 この例を基に構築するには、データ フロー アクティビティまたは Azure Databricks Notebook アクティビティを使用して、Azure Data Lake Storage Gen2 アカウントにコピーされたデータを処理および変換し、Microsoft Fabricなどのビジネス インテリジェンス レポート ソリューションのデータを準備できます。
Azure Data Factory のパイプラインには多くのアクティビティが存在する可能性があるため、それらのアクティビティを以下の 3 つのカテゴリに分類しました。
- データ移動アクティビティ: Data Factory のコピー アクティビティは、ソース データ ストアからシンク データ ストアにデータをコピーします。
- データ変換アクティビティ: Azure Data Factory では、データ フロー、Azure 関数、Spark などの変換アクティビティがサポートされています。このアクティビティは、パイプラインに個別に追加することも、別のアクティビティと連結することもできます。
- 制御アクティビティ: 制御フロー アクティビティの例として、"メタデータの取得"、"For Each"、"パイプラインの実行" があります。
アクティビティは相互に依存させることができます。 つまり、アクティビティの依存関係では、後続のアクティビティが前のアクティビティにどのように依存するかを定義します。 依存関係自体は、タスクを完了するために、前に定義されたアクティビティの実行を続けるかどうかという条件に基づいて設定できます。 1 つ以上の前のアクティビティに依存しているアクティビティには、さまざまな依存関係の条件が含まれている可能性があります。
依存関係の 4 つの条件を以下に示します。
- 成功
- 失敗
- スキップ
- 完了
たとえば、パイプラインにアクティビティ A、その後にアクティビティ B があり、アクティビティ B にアクティビティ A に対する依存関係の条件として "成功" が設定されている場合、アクティビティ B はアクティビティ A の状態が "成功" の場合にのみ実行されます。
パイプラインに複数のアクティビティがあり、後続のアクティビティが以前のアクティビティに依存していない場合、アクティビティは並列で実行される可能性があります。