Data Factory のエンド ツー エンドのシナリオ: 概要とアーキテクチャ

このチュートリアルでは、約 1 時間で完全なデータ統合シナリオについて説明します。 Microsoft Fabricの Data Factory の主な機能と、それらを一般的なデータ ワークフローに適用する方法について説明します。

ビルドする内容

このチュートリアルには、概要と 3 つのモジュールが含まれています。

Microsoft Fabric のデータファクトリー

Microsoft Fabric は、データ移動、データ レイク、データ エンジニアリング、データ統合、データ サイエンス、リアルタイム分析、ビジネス インテリジェンスをカバーする統合分析プラットフォームです。 複数のベンダーのサービスをまとめる必要はありません。

FabricData Factory> は、Power Queryの使いやすさとAzure Data Factoryのスケールを組み合わせたものになります。 低コードで AI 対応のデータ準備、ペタバイト規模の変換、ハイブリッド接続とマルチクラウド接続を備えた数百のコネクタを提供します。

主な機能

Data Factory には、データ統合のニーズに対して次の 3 つの主要な機能が用意されています。

  • コピー ジョブを使用したデータ インジェスト: コピー ジョブ は、データ インジェストの推奨される開始点です。 ペタバイト規模のデータを数百のデータ ソースから Lakehouse に移動し、パイプラインを構築する必要なく、一括、増分、CDC ベースのコピーをネイティブにサポートします。
  • データ変換: Dataflow Gen2 には、300 以上の変換を使用してデータを変換するためのローコード インターフェイスが用意されています。 Azure SQL Database、Lakehouse などの複数の宛先に結果を読み込むことができます。
  • エンドツーエンドの自動化: パイプラインは 、コピー ジョブ、データフロー、ノートブックなどのアクティビティを調整します。 アクティビティを連結して、順番に、または並列に実行します。 データ統合フロー全体を 1 か所で監視します。

チュートリアルのアーキテクチャ

エンド ツー エンドのデータ統合シナリオを完了するときに、3 つの主要な機能をすべて確認します。

このシナリオには、次の 3 つのモジュールが含まれています。

  1. コピー ジョブを使用してデータを取り込む: スタンドアロンのコピー ジョブを作成して、Blob Storage から Lakehouse の ブロンズ テーブルに生データを取り込みます。
  2. データフローを使用してデータを変換する: ブロンズ テーブルから生データを処理し、 ゴールド テーブルに移動します。
  3. パイプラインを使用した調整と自動化: コピー ジョブとデータフローを調整し、電子メール通知を送信し、フロー全体をスケジュールするパイプラインを作成します。

このチュートリアルで説明するデータ フローとモジュールを示す図。

このチュートリアルでは、 NYC-Taxi サンプル データセットを使用します。 完了したら、Microsoft Fabricの Data Factory を使用して、特定の期間のタクシー料金の毎日の割引を分析できます。

次のステップ