メインフレーム データを Azure にレプリケートして同期する

Azure Data Factory
Azure Databricks
Microsoft Fabric

ソリューションのアイデア

この記事ではソリューションのアイデアについて説明します。 クラウド アーキテクトは、このガイダンスを使用して、このアーキテクチャの一般的な実装の主要なコンポーネントを視覚化できます。 ワークロードの特定の要件に適合する、適切に設計されたソリューションを設計するための出発点として、この記事を使用してください。

この記事では、最新化中にデータをレプリケートしてAzureに同期するための実装計画について説明します。 データストア、ツール、サービスなどの技術的な側面について説明します。

アーキテクチャ

メインフレームの最新化中にオンプレミスのデータと Azure データベースのデータを同期する方法を示すアーキテクチャ図。

この図は、Db2 ソースから Azure Data Factory パイプラインを経由して Azure 上のデータ ストレージ、分析、BI サービスへのデータ フローを示しています。 この図には 2 つの領域があり、1 つはオンプレミス コンポーネント用、もう 1 つは Azure コンポーネント用です。 オンプレミス領域には 2 つの四角形があります。 1 つの長方形は、Db2 zOS や Db2 LUW などのデータベースを画像化します。 矢印は、これらのデータベースから 2 番目の四角形を指し、統合ツールが一覧表示されます。 矢印は、各統合ツールから Azure セクションのコンポーネントを指しています。 セルフホステッド統合ランタイムは、"動的パイプライン" というラベルの付いたボックスを指しています。 このボックスには、1 つの親パイプラインと 3 つの子パイプラインが含まれています。 矢印は、これらのパイプラインから "データ ストレージ、分析、BI" というラベルの付いたボックスを指しています。 このボックスには、Azure SQL Database、Azure Cosmos DB、Azure Blob Storage などの Azure サービスが含まれています。 点線の両面矢印は、動的パイプライン経路を Azure Data Lake Storage Gen2 と Azure Databricks で接続します。 矢印は、オンプレミスの SQL Server 統合サービスと Microsoft 以外のツールから、Azure セクションの [データ ストレージ、分析、BI] というラベルの付いたボックスを指しています。 オンプレミス データ ゲートウェイ統合ツールは、Fabric Data Factory のデータ パイプラインを指しています。 矢印は、このパイプラインから [データ ストレージ、分析、BI] ボックスを指しています。

このアーキテクチャの Visio ファイルをダウンロードします。

Workflow

次のワークフローは、上記のダイアグラムに対応しています。

メインフレームおよびミッドレンジシステムは、オンプレミスのアプリケーションデータベースを定期的に更新します。 一貫性を維持するために、このソリューションでは最新のデータを Azure データベースと同期します。 同期プロセスには、次の手順が含まれます。

  1. Azure Data Factory 動的パイプラインは、データ抽出からデータ読み込みまで、さまざまなアクティビティを調整します。 パイプライン アクティビティをスケジュールしたり、手動で開始したり、自動的にトリガーしたりできます。

    パイプラインは、タスクを実行するアクティビティをグループ化します。 データを抽出するために、Azure Data Factory はオンプレミス テーブルごとに 1 つのパイプラインを動的に作成します。 その後、Azure でデータをレプリケートするときに、超並列実装を使用できます。 また、要件を満たすようにソリューションを構成することもできます。

    • フルレプリケーション: データベース全体をレプリケートし、ターゲット Azure データベースのデータ型とフィールドに必要な変更を加えます。

    • 部分レプリケーション、差分レプリケーション、または増分レプリケーション: ソース テーブルのウォーターマーク列を使用して、更新された行を Azure データベースと同期します。 これらの列には、連続的に増加するキー、またはテーブルの最終更新を示すタイムスタンプが含まれます。

    Azure Data Factory では、次の変換タスクにもパイプラインが使用されます。

    • データ型の変換
    • データ操作
    • データの書式設定
    • カラムの導出
    • データのフラット化
    • データの並べ替え
    • データのフィルター処理
  2. Db2 zOS、Db2 for i、Db2 LUW などのオンプレミス・データベースは、アプリケーション・データを保管します。

  3. セルフホステッド統合ランタイム (IR) は、Azure Data Factory がアクティビティの実行とディスパッチに使用する環境を提供します。

  4. Azure Data Lake Storage Gen2 と Azure Blob Storage はデータをステージングします。 この手順は、複数のソースからのデータを変換およびマージするために必要になる場合があります。

  5. データの準備のために、Azure Data Factory は Azure Databricks、カスタム アクティビティ、パイプライン データフローを使用して、データを迅速かつ効果的に変換します。

  6. Azure Data Factory は、次のリレーショナルおよび非リレーショナル Azure データベースにデータを読み込みます。

    • Azure SQL
    • Azure Database for PostgreSQL
    • Azure Cosmos DB
    • Azure Data Lake Storage
    • Azure Database for MySQL
  7. SQL Server Integration Services (SSIS) は、データの抽出、変換、および読み込みを行います。

  8. オンプレミス データ ゲートウェイは、ローカルにインストールされた Windows クライアント アプリケーションであり、ローカルのオンプレミス データ ソースと Azure サービスの間のブリッジとして機能します。

  9. Microsoft Fabric のデータ パイプラインは、Db2 から Azure ストレージとデータベースへのデータ インジェストを実行するアクティビティの論理的なグループです。

  10. ソリューションでほぼリアルタイムのレプリケーションが必要な場合は、Microsoft 以外のツールを使用できます。

コンポーネント

このセクションでは、データの最新化、同期、および統合中に使用できるその他のツールについて説明します。

データ インテグレーター

  • Azure Data Factory は、ハイブリッド データ統合サービスです。 このフル マネージドのサーバーレス ソリューションを使用して、抽出、変換、読み込み (ETL) ワークフローと抽出、読み込み、変換 (ELT) ワークフローを作成、スケジュール、調整できます。

  • Microsoft Fabric は、データ エンジニアリング、データ ウェアハウス、データ統合、リアルタイム分析、ビジネス インテリジェンスの分析に時間を短縮するエンタープライズ分析プラットフォームです。 これは SaaS ソリューションとして提供され、OneLake に一元化されたストレージを備えます。 Microsoft Fabricは、次のテクノロジとサービスを組み合わせたものです。

    • エンタープライズ データ ウェアハウス用の SQL テクノロジ は、オープン Delta 形式のマネージド トランザクション (ACID) ウェアハウスである Fabric Data Warehouse で利用できます。

    • 大規模なデータ エンジニアリングと機械学習 は、Spark 機能が組み込まれた Data Engineering (Lakehouse + Notebooks) によって提供されます。

    • ほぼリアルタイムは、Eventhouse (KQL) と Eventstreams を使用したリアルタイム インテリジェンスによって対処されます。

    • ETL/ELT ワークフローは、Fabric の Data Factoryで実装され、パイプライン、Dataflows Gen2、ハイブリッド/オンプレミス ゲートウェイのサポートを備えた幅広いコネクタを含みます。

    • Fabricは、Power BIとネイティブに統合され、Azure Cosmos DBやAzure Machine LearningなどのAzure サービスと統合されています。

  • SSIS は、エンタープライズ レベルのデータ統合および変換ソリューションを構築するためのプラットフォームです。 SSIS を使用して、データの管理、レプリケート、クレンジング、およびマイニングを行うことができます。

  • Azure Databricks はデータ分析プラットフォームです。 これは、Apache Spark オープンソースの分散処理システムに基づいており、Azure クラウド プラットフォーム用に最適化されています。 分析ワークフローでは、Azure Databricks は複数のソースからデータを読み取り、Spark を使用して分析情報を提供します。

データ ストレージ

  • Azure SQL DatabaseAzure SQL ファミリの一部であり、クラウド向けに構築されています。 このサービスは、フルマネージドでエバーグリーンなPaaS(Platform as a Service)の利点を提供します。 SQL Database には、パフォーマンスと耐久性を最適化する AI を利用した自動化機能も用意されています。 サーバーレス コンピューティングと ハイパースケール ストレージ オプションのオプション により、リソースはオンデマンドで自動的にスケーリングされます。

  • Azure SQL Managed Instance は、Azure SQL サービス ポートフォリオの一部です。 このインテリジェントでスケーラブルなクラウド データベース サービスは、最も広範な SQL Server エンジンの互換性と、フル マネージドでエバーグリーンな PaaS のすべての利点を兼ね備えています。 SQL Managed Instance を使用して、既存のアプリを大規模に最新化します。

  • Azure Virtual Machines 上の SQL Server は、完全なコード互換性を備えた SQL Server ワークロードをクラウドにリフト アンド シフトする方法を提供します。 Azure SQL ファミリの一部である Azure Virtual Machines 上の SQL Server は、SQL Server のパフォーマンス、セキュリティ、分析と、Azure の柔軟性とハイブリッド接続を組み合わせたものです。 Azure Virtual Machines 上の SQL Server を使用して、既存のアプリを移行したり、新しいアプリをビルドしたりします。 また、SQL Server 2019 を含む最新の SQL Server の更新プログラムとリリースにアクセスすることもできます。

  • Azure Database for PostgreSQL は、オープンソースの PostgreSQL データベース エンジンのコミュニティ エディションに基づくフル マネージド リレーショナル データベース サービスです。 このサービスを使用して、データベース管理ではなくアプリケーションのイノベーションに重点を置きます。 必要に応じてワークロードをスケーリングすることもできます。

  • Azure Cosmos DB は、グローバルに分散された マルチモデル データベースです。 Azure Cosmos DB を使用して、ソリューションが任意の数の地理的リージョン間でスループットとストレージを弾力的かつ独立してスケーリングできるようにします。 このフルマネージドNoSQLデータベースサービスは、世界中のどこでも99パーセンタイルで1桁のミリ秒のレイテンシを保証します。

  • Data Lake Storage は、大量のデータをネイティブの生形式で保持するストレージ リポジトリです。 Data Lake Store は、テラバイトとペタバイトのデータにスケーリングするために最適化されています。 通常、データは複数の異種ソースから取得され、構造化、半構造化、または非構造化の場合があります。 Data Lake Storage Gen2 は、Data Lake Storage Gen1 の機能と Blob Storage を組み合わせたものです。 この次世代のデータレイクソリューションは、ファイルシステムのセマンティクス、ファイルレベルのセキュリティ、およびスケールを提供します。 また、Blob Storage の階層型ストレージ、高可用性、ディザスター リカバリー機能も提供します。

  • Azure Database for MySQL は、 オープンソースの MySQL データベース エンジンのコミュニティ エディションに基づくフル マネージド リレーショナル データベース サービスです。

その他のツール

  • 分散リレーショナル データベース アーキテクチャ (DRDA) の Microsoft サービスはHost Integration Server のコンポーネントです。 Microsoft サービス for DRDA は、DRDA アプリケーション リクエスター (AR) クライアントが使用するアプリケーション サーバーです。 DRDA AR クライアントの例としては、IBM Db2 for z/OS や Db2 for i5/OS などがあります。 これらのクライアントは、アプリケーション・サーバーを使用して Db2 SQL ステートメントを変換し、SQL Server 上で実行します。

  • SQL Server Migration Assistant for Db2 は、Db2 から Microsoft データベース サービスへの移行を自動化します。 このツールは仮想マシン上で実行されます。 Db2 データベース・オブジェクトを SQL Server データベース・オブジェクトに変換し、それらのオブジェクトを SQL で作成します。

シナリオの詳細

データの可用性と整合性は、メインフレームとミッドレンジのモダナイゼーションに不可欠です。 データファースト戦略は、 Azure への移行中にデータをそのまま利用できるようにするのに役立ちます。 最新化中の中断を防ぐために、データを迅速にレプリケートしたり、オンプレミスのデータを Azure データベースと同期させたりする必要がある場合があります。

具体的には、このソリューションは以下をカバーします。

  • 抽出: ソース データベースに接続してデータを抽出します。

  • 変換:

    • ステージング: データを元の形式で一時的に保存し、変換の準備をします。

    • 準備: ターゲット・データベースの要件を満たすマッピング・ルールを使用して、データを変換および操作します。

  • 読み込み中: ターゲット データベースにデータを挿入します。

考えられるユース ケース

このソリューションからメリットを得られるデータのレプリケーションと同期のシナリオには、次のようなものがあります。

  • コマンド クエリの責任 分離アーキテクチャでは、Azure を使用してすべての問い合わせチャネルにサービスを提供します。

  • オンプレミスのアプリケーションと、リホストまたは再設計されたアプリケーションを並行してテストする環境。

  • 段階的な修復または最新化が必要な緊密に結合されたアプリケーションを持つオンプレミスシステム。

  • メインフレーム システムのデータを最新の分析プラットフォームに統合することで、組織は履歴およびリアルタイムのトランザクション レコードから貴重な分析情報を引き出すことができます。

貢献者達

Microsoft では、この記事を保持しています。 この記事を書いたのは、以下の寄稿者です。

主要な著者:

公開されていない LinkedIn プロフィールを見るには、LinkedIn にサインインしてください。

次のステップ