ソリューションのアイデア
この記事では、ソリューションのアイデアについて説明します。 クラウド アーキテクトは、このガイダンスを使用して、このアーキテクチャの一般的な実装の主要なコンポーネントを視覚化するのに役立ちます。 この記事は、ワークロードの特定の要件に合わせて適切に設計されたソリューションを設計するための出発点として使用します。
この記事では、Azure Databricks への既存の投資と、Microsoft Fabric などのフル マネージド サービスとしてのソフトウェア (SaaS) データ プラットフォームを組み合わせることで、中小企業 (SMB) が最新のデータ プラットフォーム アーキテクチャを構築する方法について説明します。 SaaS データ プラットフォームは、Azure Machine Learning、Foundry Tools、Power Platform、Microsoft Dynamics 365、その他のMicrosoft テクノロジなどのツールと統合されるエンドツーエンドのデータ分析ソリューションです。
簡略化されたアーキテクチャ
このアーキテクチャの Visio ファイル をダウンロードします。
Azure Databricks と Fabric の相互運用性により、分析機能を強化しながらデータの断片化を最小限に抑える堅牢なソリューションが提供されます。
Fabric は、基になる SaaS ストレージとして、OneLake と呼ばれるオープンで管理されたデータ レイクを提供します。 OneLake とAzure Databricksの両方で Delta Parquet 形式が使用されます。 OneLake からAzure Databricksデータにアクセスするには、Fabricで Azure Databricks Unity カタログを
OneLake のAzure Databricks データのPower BIで Direct Lake モードを使用することもできます。 Direct Lake モードでは、サービス レイヤーが簡略化され、レポートのパフォーマンスが向上します。 OneLake では、Azure Data Lake Storage の API がサポートされ、すべての表形式のデータが Delta Parquet 形式で格納されます。
その結果、Azure Databricks ノートブックは OneLake エンドポイントを使用して、格納されているデータにアクセスできます。 このエクスペリエンスは、Fabric ウェアハウスを介してデータにアクセスする場合と同じです。 この統合により、データを再整形することなく、FabricまたはAzure Databricksを使用できます。
建築
このアーキテクチャの Visio ファイル をダウンロードします。
データ フロー
次のデータ フローは、前の図に対応しています。
既存のAzure Data Factory パイプラインを使用して、ソース システムから構造化データと非構造化データを取り込み、既存のデータ レイクに配置します。
Microsoft Dynamics 365 データ ソースを使用して、Azure Synapse Link または Microsoft Fabric Link を使用して、拡張データセットに対して一元化された BI ダッシュボードを構築できます。 統合された処理済みデータを Microsoft Dynamics 365 と Power BI に戻し、さらに分析します。
ストリーミング データは、これらのメッセージを送信するプロトコルに応じて、Azure Event HubsまたはAzure IoT Hubを介して取り込むことができます。
コールド パスでは、Azure Databricksを使用してストリーミング データを一元化されたデータ レイクに取り込み、さらに分析、保存、レポートを行うことができます。 このデータは、バッチ分析のために他のデータ ソースと統合できます。
ホット パスでは、リアルタイムでデータを分析し、Microsoft Fabric Real-Time インテリジェンスを使用してリアルタイムのダッシュボードを作成できます。
既存のAzure Databricks ノートブックを使用して、データ クレンジング、統一、分析を実行できます。 次のような medallion アーキテクチャの使用を検討してください。
- 生データを保持するブロンズ。
- Silver には、クリーニングされ、フィルタリングされたデータが含まれています。
- Gold は、ビジネス分析に役立つ集計データを格納します。
ゴールデン データまたはデータ ウェアハウスの場合は、Azure Databricks SQL を引き続き使用するか、Fabricで Azure Databricks Unity カタログのミラーリングを作成します。 Fabric lakehouse でレポートと分析を有効にするには、セマンティック モデルを明示的に作成し、Direct Lake または DirectQuery を使用してPower BIダッシュボードを構築して高パフォーマンスを実現します。 詳細については、Fabric のセマンティック モデルを参照してください。
ガバナンス、コラボレーション、セキュリティ、パフォーマンス、コストの監視には、次のツールが使用されます。
検出と管理:
Microsoft Purview は、データ資産全体にわたるデータ検出サービス、機密データ分類、ガバナンスの分析情報を提供します。
Unity Catalog は、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供します。
プラットフォーム リソース:
Microsoft Entra IDでは、Azure Databricks ユーザーにシングル サインオン (SSO) が提供されます。 Azure Databricks では、Microsoft Entra ID を使用した次の自動化されたユーザー プロビジョニングがサポートされています。
- 新しいユーザーを作成します。
- 各ユーザーにアクセス レベルを割り当てます。
- ユーザーを削除し、アクセスを拒否します。
Microsoft Cost Management は、Azure ワークロード用の財務ガバナンス サービスを提供します。
Azure Key Vault は、シークレット、キー、証明書を管理します。
Azure Monitor は、Azure リソース テレメトリを収集して分析します。 このサービスは、問題を事前に特定することで、パフォーマンスと信頼性を最大化します。
Microsoft Defender for Cloudでは、Azureリソースとワークロードのセキュリティ体制管理と脅威保護が提供されます。
Azure DevOpsは、継続的インテグレーションと継続的デプロイ (CI/CD) およびその他の統合バージョン管理機能を提供します。
GitHubでは、コードとデプロイ パイプラインを管理するためのバージョン管理と共同開発機能が提供されます。
コンポーネント
Data Lake Storage は、構造化データと非構造化データ用に設計されたスケーラブルなデータ ストレージ サービスです。 このアーキテクチャでは、Data Lake Storage は Delta Lake の基盤となるインフラストラクチャとして機能します。 これは生データと処理済みデータのプライマリ ストレージ 層であり、分析と機械学習ワークロードの効率的なデータ インジェスト、ストレージ、取得を可能にします。
Data Factory は、データの移動と変換を調整および自動化するクラウドベースのデータ統合サービスです。 このアーキテクチャでは、Data Factory は、さまざまなデータ ストアやサービス間でデータを移動および変換するデータ パイプラインを作成、スケジュール、調整します。
Event Hubs は、任意のソースから 1 秒あたり何百万ものイベントを処理できるリアルタイム データ インジェスト サービスです。 このアーキテクチャでは、Event Hubs はさまざまなソースから大量のデータをキャプチャしてストリーミングし、リアルタイムの分析とイベント ドリブン処理を可能にします。
IoT Hub は、モノのインターネット (IoT) デバイスとクラウド間のセキュリティと信頼性の高い通信を向上させるマネージド サービスです。 このアーキテクチャでは、IoT Hub は IoT デバイスからのテレメトリ データの取り込み、処理、分析を容易にして、リアルタイムの分析情報を提供し、リモート監視を有効にします。
Microsoft Dataverse は、組織がビジネス アプリケーションで使用するデータを安全に格納および管理するために使用できるスケーラブルなデータ プラットフォームです。 このアーキテクチャでは、Azure Synapse Link または Microsoft Fabric Link 経由で分析パイプラインにフィードするデータ ソースとして機能します。
Azure Synapse Link は、Dynamics アプリケーションを Azure Synapse Analytics または Data Lake Storage に接続するデータ統合機能です。 このアーキテクチャでは、Dataverse から Data Lake Storage にほぼリアルタイムでデータをコピーします。
Microsoft Fabric Link は、Dynamics アプリケーションを Fabric に接続するデータ統合機能です。 このアーキテクチャでは、Dataverse からデータをほぼリアルタイムでFabricにレプリケートします。
Azure Databricks は、ビッグ データ処理、機械学習、データ エンジニアリングのための Apache Spark ベースの分析プラットフォームです。 このアーキテクチャでは、medallion アーキテクチャ レイヤーを使用してデータ クレンジング、変換、および分析を実行します。
Delta Lake は、原子性、一貫性、分離性、持続性 (ACID) トランザクションを Spark およびビッグ データ ワークロードに提供するオープン ソース ストレージ レイヤーです。 このアーキテクチャでは、Delta Lake はデータ レイク内のデータの信頼性とパフォーマンスを強化します。
Azure Databricks SQL は、ユーザーが Azure Databricks に格納されているデータに対して SQL クエリを実行できるようにする SQL ベースの分析サービスです。 このアーキテクチャでは、Azure Databricks SQL は、データのクエリと分析を行う強力な SQL インターフェイスを提供します。これにより、対話型分析が可能になります。
AI と機械学習 には、機械学習モデルの開発、デプロイ、管理を可能にするさまざまなテクノロジとサービスが含まれています。 このアーキテクチャでは、AI サービスと Machine Learning サービスが予測モデルを構築、トレーニング、デプロイします。 この機能により、データドリブンの意思決定が可能になります。
Unity Catalog は、Azure Databricks ワークスペース全体で一元的なアクセス制御、監査、系列、およびデータ検出機能を提供するデータ ガバナンス ソリューションです。 このアーキテクチャでは、Unity Catalog は、きめ細かなアクセス制御、監査、データ系列の追跡を提供することで、データ ガバナンスとセキュリティを確保するのに役立ちます。
Medallion lakehouse アーキテクチャ は、効率的なデータ処理と分析のために、データをブロンズ、シルバー、ゴールドの各レイヤーに整理するデータ アーキテクチャ パターンです。 このアーキテクチャでは、Data Lake Storage、Delta Lake、Azure Databricks を使用してデータ処理ワークフローを構造化し、スケーラブルな分析をサポートします。
Fabric は、シームレスなデータ管理と分析エクスペリエンスを提供するために、さまざまなデータ サービスとツールを統合する包括的なデータ プラットフォームです。 このアーキテクチャでは、Fabric は複数のソースからのデータを接続して統合します。これにより、組織全体の包括的なデータ分析と分析情報が可能になります。
Real-Time インテリジェンス は、組織がリアルタイムでデータを取り込み、処理し、分析できるようにするデータ処理機能です。 Real-Time インテリジェンスは、さまざまなソースからのストリーミング データを処理します。 このアーキテクチャでは、リアルタイムの分析情報を提供し、データ パターンに基づいて自動化されたアクションを有効にします。
OneLake ショートカットを使用すると、 OneLake と他のデータ ソースの間にインプレース リンクが作成されます。 このアーキテクチャでは、データ アクセスと管理を簡素化し、組織全体のデータの統一されたビューを提供します。
Fabric Copilot は、Fabricワークロード全体に統合された AI を利用したアシスタントです。 大きな言語モデル (LLM) を使用して、ユーザーが自然言語を使用してデータを操作できるようにします。 これにより、SQL、DAX、変換の生成などのタスクが簡略化され、レポートまたはダッシュボードが作成されます。 Copilotは、会話コンテキストをサポートし、視覚化を作成し、分析パイプラインを構築するのに役立ちます。 これは、深いコーディングの専門知識を必要とせずに、組織がデータの分析情報を高速化し、ワークフローを最適化するのに役立ちます。
Fabric データ エージェントは、組織が単一のインターフェイスを介して、lakehouses、warehouse、semantic models、KQL データベース、ミラー化されたデータベースなど、複数のソースにわたってデータのクエリと分析に使用する、Fabricのインテリジェントな LLM ベースのサービスです。 複雑な複数ステップクエリをサポートし、サンプル クエリとエージェントまたはデータ ソース命令を使用してカスタム ロジックを適用し、Microsoft 365 Copilotまたは Teams に発行します。 これは、企業ユーザーに対して、自然言語でセキュリティで保護された管理されたエンタープライズ データへのアクセスを提供します。
Power BI は、対話型の視覚化とビジネス インテリジェンス (BI) 機能を提供するビジネス分析サービスです。 このアーキテクチャでは、Power BI Direct Lake モードを使用してFabricおよびAzure Databricksからのデータを視覚化し、パフォーマンスを向上させます。
Microsoft Purview は、組織がさまざまなソースにわたってデータを管理および管理するのに役立つ統合データ ガバナンス サービスです。 このアーキテクチャでは、データをカタログ化し、系列を追跡し、データ資産全体にコンプライアンスを適用します。 Unity Catalog を Purview に統合して、Purview から Unity カタログメタデータにアクセスできます。
Microsoft Entra ID は、セキュリティで保護されたサインインと、Microsoft 365、Azure、その他の SaaS アプリケーションなどのリソースへのアクセスを確保するのに役立つクラウドベースの ID およびアクセス管理ソリューションです。 このアーキテクチャでは、Microsoft Entra ID によって、Azure リソースのセキュリティで保護された ID とアクセス管理が提供されます。 この機能により、セキュリティで保護されたサインインが可能になり、ユーザー ID が管理され、データとリソースへの承認されたアクセスが保証されます。
Cost Management は、組織がMicrosoft Cloudコストの分析、監視、最適化に使用できる FinOps ツールのスイートです。 このアーキテクチャでは、これらのツールによって Azure リソースに対する財務ガバナンスが提供されます。
Key Vault は、API キー、パスワード、証明書、暗号化キーなどのシークレットを格納および管理するクラウド サービスです。 このアーキテクチャでは、Azure Databricks は Key Vault からシークレットを取得して Data Lake Storage の認証とアクセスを行うことができます。これにより、安全な統合が保証されます。
Azure Monitor は、アプリケーション、インフラストラクチャ、ネットワークに対してフル スタックの可観測性を提供する監視サービスです。 Azure Monitor を使用すると、ユーザーは自分の Azure 環境とオンプレミス環境からテレメトリ データを収集、分析、および操作できます。 このアーキテクチャでは、Azure Monitor は、問題を事前に特定することで、パフォーマンスと信頼性を確保します。
Defender for Cloud は、Azure、ハイブリッド、マルチクラウドの各環境にわたってセキュリティ体制管理と脅威保護を提供するクラウドネイティブアプリケーション保護プラットフォームです。 このアーキテクチャでは、Defender for Cloudは、脆弱性を特定し、脅威を検出し、Azure リソース全体でセキュリティに関する推奨事項を提供することで、データ プラットフォームとワークロードをセキュリティで保護します。
Azure DevOps は、コラボレーション カルチャと合理化されたプロセスをサポートする一連の開発ツールです。 これらのツールを使用すると、開発者、プロジェクト マネージャー、共同作成者がより効率的にソフトウェアを開発できます。 Azure DevOps には、Azure Boards、Azure Repos、Azure Pipelines、Azure Test Plans、Azure Artifacts などの統合機能が用意されています。 これらの機能には、Web ブラウザーまたは統合開発環境クライアントを使用してアクセスできます。 このアーキテクチャでは、Azure DevOps では、データ パイプラインとノートブックの自動デプロイとバージョン管理がサポートされています。
GitHub は、開発者向けのバージョン管理とコラボレーションを簡略化するクラウドベースの Git リポジトリ ホスティング サービスです。 個人とチームは、コードの保存と管理、変更の追跡、プロジェクトでの共同作業を行うことができます。 このアーキテクチャでは、GitHubをAzure DevOpsと統合して、Data Factory、Azure Databricks、Fabricの開発ワークフローとデプロイ パイプラインに自動化とコンプライアンスを適用します。
選択肢
独立したファブリック環境を作成するには、「Fabric の Greenfield lakehouse」を参照してください。
オンプレミスの SQL 分析環境を Fabric に移行するには、SMB 向けの最新のデータ ウェアハウスを参照してください。
このアーキテクチャ内のサービスの代替手段
バッチ・インジェスチョン
- 必要に応じて、Data Factory パイプラインの代わりに、データ統合には Fabric のデータ パイプライン を使用できます。 選択は、いくつかの要因によって異なります。 詳細については、「 Azure Data Factory と Fabric Data Factory の違い」を参照してください。
Microsoft Dynamics 365 の取り込み
データ レイク ストレージとして Data Lake Storage を使用していて、Dataverse データを取り込む場合は、Azure Synapse Link for Dataverse with Data Lake Storage を使用してください。 Dynamics 365 Finance and Operations アプリについては、Dataverse 用 Azure Synapse Link で財務および運用データを選択するを参照してください。
データ レイク ストレージとして Fabric Lakehouse を使用している場合は、Dataverse 環境を Fabric にリンクするを参照してください。
ストリーミングデータ取り込み
- Azure IoTと Event Hubs の間の決定は、ストリーミング データのソース、レポート デバイスとの複製と双方向通信が必要かどうか、および必要なプロトコルによって異なります。 詳細については、「IoT Hub と Event Hubsの比較」を参照してください。
レイクハウス
- Fabric lakehouse は、主に Delta Parquet ファイルを使用するオープン形式で構造化データと非構造化データを管理および分析するための統合データ アーキテクチャ プラットフォームです。 2 種類のストレージがサポートされています。 これらのストレージの種類は、CSV、Parquet、Delta、アンマネージド ファイルなどのマネージド テーブルです。 マネージド テーブルは自動的に認識されます。 アンマネージド ファイルには、明示的なテーブルの作成が必要です。 このプラットフォームでは、Spark または SQL エンドポイントを介したデータ変換が可能になり、他のFabric コンポーネントと統合されます。 この統合により、重複することなくデータを共有できます。 この概念は、分析ワークロードで使用される一般的な medallion アーキテクチャと一致します。 詳細については、「 ファブリックの Lakehouse」を参照してください。
リアルタイム分析
Azure Databricks
- 既存のAzure Databricks ソリューションがある場合は、引き続き Spark 構造化ストリーミングを使用してリアルタイム分析を行う必要があります。 詳細については、「Azure Databricks での
Streaming」を参照してください。
- 既存のAzure Databricks ソリューションがある場合は、引き続き Spark 構造化ストリーミングを使用してリアルタイム分析を行う必要があります。 詳細については、「Azure Databricks での
生地
他のAzure サービスをリアルタイム分析に使用したことがある場合、または既存のリアルタイム分析ソリューションがない場合は、「 Real-time Intelligence とAzure ストリーミング ソリューションを参照してください。
Fabric構造化ストリーミングでは、Spark 構造化ストリーミングを使用して、ライブ データ ストリームを継続的に追加されたテーブルとして処理および取り込みます。 構造化ストリーミングでは、CSV、JSON、ORC、Parquet、Kafka や Event Hubs などのメッセージング サービスなど、さまざまなファイル ソースがサポートされています。 このアプローチにより、スケーラブルでフォールト トレラントなストリーム処理が保証され、高スループットの運用環境が最適化されます。 詳細については、「Spark を使用 したレイクハウスへのデータ ストリーミング」を参照してください。
データ エンジニアリング
- FabricまたはAzure Databricksを使用して Spark ノートブックを作成します。 詳細については、「 Fabric ノートブックの使用」を参照してください。 Fabric ノートブックと Azure Synapse Spark の提供内容の比較については、「Fabric Data Engineering と Azure Synapse Sparkの比較」を参照してください。 Azure Databricks ノートブックの詳細については、「Azure Databricks ノートブックの概要」を参照>。
データ ウェアハウスまたはゴールド レイヤー
- Fabric または Azure Databricks を使用して、SQL ベースのウェアハウスまたはゴールド レイヤーを作成できます。 Fabric内でデータ ウェアハウスまたはゴールド レイヤー ストレージ ソリューションを選択する方法の決定ガイドについては、「データ ストアの選択を参照してください。 Azure Databricks の SQL ウェアハウスの種類の詳細については、「SQL ウェアハウスの種類を参照してください。
データ サイエンス
データ サイエンス機能には、Fabric または Azure Databricks を使用します。 Fabric データ サイエンス オファリングの詳細については、「Data Science in Fabric」を参照してください。 Azure Databricks オファリングの詳細については、「Azure Databricks の
AI と機械学習」を参照してください。 ファブリック データ サイエンスは Machine Learning とは異なります。 Machine Learning は、ワークフローを管理し、機械学習モデルをデプロイするための包括的なソリューションを提供します。 Fabric Data Science は、分析とレポートのシナリオに合わせて調整されています。
Power BI
Azure Databricks Power BIと統合することで、データ処理と視覚化が可能になります。 詳細については、「Power BI を Azure Databricksに接続する」を参照してください。
Azure Databricks Unity Catalog を Fabric でミラーリングすることで、Azure Databricks Unity Catalog で管理されるデータに Fabric のワークロードから直接アクセスできます。 詳細については、「Mirror Azure Databricks Unity カタログを参照してください。 Power BI サービスにデータをコピーすることなく、Direct Lake モードのPower BIからこのデータに対してクエリを実行できます。
シナリオの詳細
既存のAzure Databricks環境と、必要に応じてレイクハウス アーキテクチャを持つ SMB は、このパターンの恩恵を受けることができます。 現在、Data Factory などのAzure抽出、変換、読み込み (ETL) ツールを使用し、Power BIでレポートを提供しています。 ただし、同じデータ レイク上で異なる独自のデータ形式を使用する複数のデータ ソースが存在する場合もあり、データの重複やベンダーのロックインの問題につながる可能性があります。 このような状況では、データ管理が複雑になり、特定のベンダーへの依存が増える可能性があります。 また、意思決定のために最新かつほぼリアルタイムのレポーティングを必要とする場合があり、自社環境全体にAIツールを導入したいと考えることもあります。
Fabric は、次の用途に使用できるオープンで統一された管理された SaaS 基盤です。
OneLake でデータを一元化して、ベンダーのロックインに関する懸念なしに、データを 1 か所に格納、管理、分析します。
Microsoft 365 アプリへの統合により、より迅速にイノベーションを行うことができます。
Power BI Direct Lake モードの利点により、迅速な分析情報を得ることができます。
すべてのFabricエクスペリエンスでCopilotを活用できます。
1 つの基盤で AI モデルを開発することで、分析を高速化します。
移動せずにデータを配置し続けることにより、データ サイエンティストが価値を提供する必要がある時間が短縮されます。
貢献者
Microsoft では、この記事を保持しています。 この記事を書いたのは、以下の寄稿者です。
主な作成者:
- ナレン ジョグエンドラン |クラウド ソリューション アーキテクト
- ボニータ ルイ |クラウド ソリューション アーキテクト
公開されていない LinkedIn プロフィールを見るには、LinkedIn にサインインしてください。
次の手順
- データ エンジニア向けの ラーニング パス
- Fabric - Microsoft Learn を使ってみる
- Fabric - Microsoft Learn モジュール
- Data Lake Storage のストレージ アカウントを作成する
- Event Hubs クイック スタート - Azure ポータルを使用してイベント ハブを作成します
- メダリオンレイクハウスの建築とは何ですか?
- ファブリックのレイクハウスとは