このチュートリアルでは、約 1 時間で完全なデータ統合シナリオについて説明します。 Microsoft Fabricの Data Factory の主な機能と、それらを一般的なデータ ワークフローに適用する方法について説明します。
ビルドする内容
このチュートリアルには、概要と 3 つのモジュールが含まれています。
- モジュール 1- コピー ジョブを使用してデータを取り込む: スタンドアロンのコピー ジョブを作成して、Blob Storage から Lakehouse の ブロンズ テーブルに生データを取り込みます。
- モジュール 2 - データフローを使用してデータを変換する: ブロンズ テーブルから生データを処理し、Lakehouse の ゴールド テーブルに移動します。
- モジュール 3- パイプラインを使用して調整および自動化する: コピー ジョブとデータフローを調整するパイプラインを作成し、ジョブが完了したときに電子メール通知を送信し、フロー全体をスケジュールします。
Microsoft Fabric のデータファクトリー
Microsoft Fabric は、データ移動、データ レイク、データ エンジニアリング、データ統合、データ サイエンス、リアルタイム分析、ビジネス インテリジェンスをカバーする統合分析プラットフォームです。 複数のベンダーのサービスをまとめる必要はありません。
FabricData Factory> は、
主な機能
Data Factory には、データ統合のニーズに対して次の 3 つの主要な機能が用意されています。
- コピー ジョブを使用したデータ インジェスト: コピー ジョブ は、データ インジェストの推奨される開始点です。 ペタバイト規模のデータを数百のデータ ソースから Lakehouse に移動し、パイプラインを構築する必要なく、一括、増分、CDC ベースのコピーをネイティブにサポートします。
- データ変換: Dataflow Gen2 には、300 以上の変換を使用してデータを変換するためのローコード インターフェイスが用意されています。 Azure SQL Database、Lakehouse などの複数の宛先に結果を読み込むことができます。
- エンドツーエンドの自動化: パイプラインは 、コピー ジョブ、データフロー、ノートブックなどのアクティビティを調整します。 アクティビティを連結して、順番に、または並列に実行します。 データ統合フロー全体を 1 か所で監視します。
チュートリアルのアーキテクチャ
エンド ツー エンドのデータ統合シナリオを完了するときに、3 つの主要な機能をすべて確認します。
このシナリオには、次の 3 つのモジュールが含まれています。
- コピー ジョブを使用してデータを取り込む: スタンドアロンのコピー ジョブを作成して、Blob Storage から Lakehouse の ブロンズ テーブルに生データを取り込みます。
- データフローを使用してデータを変換する: ブロンズ テーブルから生データを処理し、 ゴールド テーブルに移動します。
- パイプラインを使用した調整と自動化: コピー ジョブとデータフローを調整し、電子メール通知を送信し、フロー全体をスケジュールするパイプラインを作成します。
このチュートリアルでは、 NYC-Taxi サンプル データセットを使用します。 完了したら、Microsoft Fabricの Data Factory を使用して、特定の期間のタクシー料金の毎日の割引を分析できます。