Microsoft Fabric 意思決定ガイド: データ移動戦略を選択する

Microsoft Fabric には、プラットフォームにデータを取り込むためのいくつかの方法が用意されています。 このガイドでは、最も一般的なシナリオに関する明確な推奨事項を示し、さらに詳しく調べる必要がある場合の 詳細な機能比較 を提供します。

クイック推奨事項: どのデータ移動オプションを使用する必要がありますか?

ガイドとして medallion アーキテクチャを使用します。

  • ゴールドデータ(処理されたデータに関するレポートと分析) - ミラーリングを利用します。 ETL 処理が既に他の場所にあり、主にレポート用にキュレーションされたデータを Fabric に取り込む必要がある場合、ミラーリングは最も簡単でコスト効率の高い選択肢です。 無料で、最小限のセットアップが必要で、データを OneLake に継続的にレプリケートします。

  • ブロンズ データ (生インジェスト) - コピー ジョブを開始します。 生データを取り込む場合、変換、スキーマ マッピング、スケジュール制御、増分読み込みがすぐに必要になります。 コピー ジョブを使用すると、パイプラインの構築が複雑になることなく、これらの機能がネイティブに提供されます。

  • リアルタイム ストリーミング データ - Eventstreams を使用します。 Eventstreams は、待機時間が短く、イベントドリブンのインジェストと処理のために、コードなしの変換と複数の宛先へのルーティングを備えたリアルタイム パイプラインを提供します。

  • 複雑なオーケストレーション - パイプラインは、必要なオーケストレーションの柔軟性を提供し、 パイプライン内のコピー アクティビティは データ オブジェクトのパラメーター化とメタデータ駆動型のデータ インジェストを提供します。 それ以外の場合、コピー ジョブ アクティビティとコピー アクティビティはパイプライン内で等価です。

機能とサポートされている機能の詳細なサイド バイ サイドの内訳については、 機能の詳細な比較を参照してください。

ミラーリング、イベントストリーム、コピー ジョブ、コピー アクティビティの比較を示すデータ移動戦略デシジョン ツリーのスクリーンショット。

重要な概念

  • ミラーリング を使用すると、運用データを分析のために Fabric に 簡単かつ自由 にミラーリングできます。 最小限のセットアップで使いやすく最適化されており、OneLake の単一の読み取り専用の宛先に書き込みます。

  • パイプラインのコピー アクティビティ は、パイプライン ベースの調整されたデータ インジェスト ワークフローを必要とするユーザー向けに構築されています。 これを広範囲にカスタマイズして変換ロジックを追加できますが、増分コピーの最後の実行の状態の追跡など、パイプライン コンポーネントを自分で定義して管理する必要があります。

  • コピー ジョブ を使用すると 、一括コピー、増分コピー、変更データ キャプチャ (CDC) レプリケーションなど、複数の配信スタイルのネイティブ サポートにより、データ インジェストが容易になります。パイプラインを構築する必要はありませんが、多くの高度なオプションにアクセスできます。 多くのソースと変換先がサポートされており、ミラーリングよりも制御が必要ですが、コピー アクティビティを使用してパイプラインを管理するよりも複雑さが少ない場合にうまく機能します。

  • Eventstreams: ストリーミング データのリアルタイム インジェスト、変換、処理用に設計されています。 待機時間の短いパイプライン、スキーマ管理、Eventhouse、Lakehouse、Activator、カスタム エンドポイントサポート (AMQP、Kafka、HTTP エンドポイント) などの宛先へのルーティングをサポートします。

詳細な機能の比較

次の表は、各データ移動オプションの完全な機能を比較しています。 このセクションは、シナリオの特定の機能を評価する必要がある場合に使用します。

ミラーリング コピー作業 コピー アクティビティ (パイプライン) Eventstreams
ソース データベース + オープン ミラーリングへのサードパーティの統合 サポートされているすべてのデータ ソースと形式 サポートされているすべてのデータ ソースと形式 25 以上のソースとすべての形式
目的 地 Fabric OneLake の表形式 (読み取り専用) サポートされているすべての宛先と形式 サポートされているすべての宛先と形式 4 つ以上の宛先
柔軟性 固定動作を使用した簡単なセットアップ 使いやすい + 高度なオプション 高度で完全にカスタマイズ可能なオプション シンプルでカスタマイズ可能なオプション
機能 ミラーリング コピー作業 コピー アクティビティ (パイプライン) Eventstreams
カスタム スケジュール イエス イエス 継続的
テーブルと列の管理 イエス イエス はい (スキーマ、イベント、フィールド管理)
コピーの動作: Append、Upsert、Override イエス イエス Append
高度な可観測性と監査 イエス イエス
コピー モード
CDC 形式を用いた連続レプリケーション イエス イエス イエス
バッチコピーまたは一括コピー イエス イエス はい (CDC の初期スナップショット レプリケーション)
増分コピーのネイティブ サポート (水印ベース) イエス
ユーザー定義クエリを使用してコピーする イエス イエス
利用事例
分析とレポートのための継続的レプリケーション イエス イエス イエス
データウェアハウス用メタデータ駆動型ELT/ETL イエス イエス
データ統合 イエス イエス イエス
データ移行/データバックアップ/データ共有 イエス イエス イエス
無料 イエス
予測可能なパフォーマンス イエス イエス イエス

シナリオ

これらのシナリオを確認して、ニーズに最も適したデータ移動戦略を選択します。

シナリオ 1

James は保険会社の財務マネージャーです。 彼のチームは、Azure SQL Database を使用して、複数の部署にわたるポリシー データ、クレーム、顧客情報を追跡します。 エグゼクティブ チームは、ビジネス パフォーマンス監視用のリアルタイム ダッシュボードを作成したいと考えていますが、James では、分析クエリで、毎日何千ものトランザクションを処理する運用システムの速度を低下させるのを許可できません。

James は既に ETL 処理を実施しており、彼のチームには、エグゼクティブ レポート用に Fabric で使用できる処理済みのゴールド層データが必要です。 彼はスケジュールの管理、増分読み込みの設定、テーブルの選択に関わりたいわけではなく、すべてを自動的にミラーリングされることを望んでいます。 これはレポート専用であるため、OneLake の読み取り専用形式のデータは完全に機能します。 また、このソリューションは部門の予算から出てくるため、コスト効率が高い必要があります。

James は ミラーリングを選択します。 ミラーリングにより、必要な CDC ベースの継続的レプリケーションが提供され、構成なしですべてのテーブルが自動的に処理されます。 シンプルなセットアップは、技術的な専門知識を必要としないことを意味し、無料コストは彼の予算に合っています。 OneLake の読み取り専用の表形式は、運用パフォーマンスに影響を与えることなく、チームに必要な分析アクセスを提供します。

シナリオ 2

リサは物流会社のビジネス アナリストです。 彼女は、サプライ チェーン分析のために、複数の Snowflake データベースから Fabric Lakehouse テーブルに生の出荷データを取り込む必要があります。 データには、最初の負荷の履歴レコードと、1 日を通して到着する新しい出荷の両方が含まれます。 リサは、このプロセスをカスタム スケジュール (営業時間中は 4 時間ごと) で実行したいと考えています。

リサはブロンズ層の生データを取り込むので、変換、スキーママッピング、スケジューリング制御がすぐに必要になると彼女は知っています。 各 Snowflake インスタンスから特定のテーブルを選択し、列を標準化された名前にマップし、upsert 動作を使用して既存の出荷レコードの更新を処理する必要があります。 また、データの品質と処理のパフォーマンスを追跡するための高度な監視も望んでいます。

リサはコピー ジョブを選択 します。 コピー ジョブは、必要なカスタム スケジュールを提供し、Snowflake を含むすべてのデータ ソースをサポートし、複数リージョンのセットアップ用のテーブルと列の管理機能を提供します。 彼女はウォーターマークベースの検出とアップサート動作による増分コピーのネイティブサポートにより、パイプラインを構築せずにこれらの要件を処理できます。

シナリオ 3

David は、電気通信会社のシニア データ エンジニアです。 カスタム SQL クエリを使用して Oracle から顧客の使用状況データを抽出し、ビジネス変換を適用し、Fabric Warehouse と外部システムの両方を含む複数の宛先に読み込む必要がある複雑なデータ インジェスト ワークフローを構築しています。 また、ワークフローは、データの検証や通知の手順などの他のパイプライン アクティビティと連携する必要もあります。

David では、ユーザー定義クエリを使用してテーブルを結合し、ソースでデータをフィルター処理する機能など、コピー プロセスを完全に制御する必要があります。 高度で完全にカスタマイズ可能な構成オプション、大量のデータに対する予測可能なパフォーマンス、および依存関係とエラー処理を使用して、コピー プロセスをより広範なパイプライン オーケストレーション ワークフローに統合する機能が必要です。

David は、使用可能なオプションを確認し、[ パイプラインのコピー アクティビティ] を選択します。 このアプローチにより、必要な高度で完全にカスタマイズ可能な構成が提供され、複雑なデータ抽出のためのユーザー定義クエリがサポートされ、ワークフローに必要なパイプライン ベースのオーケストレーションが提供されます。 高度な監視および監査機能は、複雑なプロセスを追跡するのに役立ちますが、パイプライン フレームワークを使用すると、コピー アクティビティを他のデータ処理手順と調整できます。

シナリオ 4

Ash は、通信会社の製品マネージャーです。 彼女のチームは、SLA コンプライアンスを確保し、顧客満足度を向上させるために、通話量、待機時間、エージェントのパフォーマンスなどのカスタマー サポート メトリックをリアルタイムで監視する必要があります。 データは、CRM プラットフォーム、コール センター ログ、エージェント割り当てデータベースなどの複数の運用システムから取得され、1 日を通して高頻度で到着します。

Ash は Fabric Eventstreams を使用して、移動中のデータを取り込み、変換します。 彼女は、さまざまなソースからデータをプルするようにストリーミング コネクタを構成し、コードなしのエクスペリエンスを使用して変換を適用し、処理されたイベントを Eventhouse にルーティングしてリアルタイム分析を行います。 データ アクティベーターを統合して、SLA のしきい値に違反したときにアラートと自動化されたワークフローをトリガーし、監督者に通知を送信したり、スタッフのレベルを動的に調整したりできます。

その結果、数秒で更新されるリアルタイム ダッシュボードが得られ、Ash のチームはライブ パフォーマンス メトリックを可視化し、データに基づく迅速な意思決定が可能になります。 このストリーミング アーキテクチャにより、バッチ パイプラインの待ち時間がなくなり、企業は顧客のニーズに即座に対応できるようになります。

概要

使用するデータ移動戦略を理解したら、次のリソースを使い始めることができます。