Azure Data FactoryとAzure Synapse Analyticsのデータを変換する

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。データ統合を初めて使用する場合は、Fabric Data Factory から始めます。既存の ADF ワークロードをFabricにアップグレードして、データサイエンス、リアルタイム分析、レポートの新機能にアクセスできます。

Fabric無料試用版を開始します。
Azure Data Factory から Microsoft Fabric の Data Factory へのアップグレード

重要

Azure Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。その日付までに Azure Machine Learning に移行することをお勧めします。

2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービスプラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) 実験と Web サービスを引き続き使用できます。詳細については、以下を参照してください:

Machine Learning Studio (クラシック) ドキュメントは廃止され、今後更新されない可能性があります。

概要

この記事では、Azure Data Factory パイプラインと Synapse パイプラインのデータ変換アクティビティについて説明します。このアクティビティを使用して、生データを大規模な予測と分析情報に変換して処理できます。変換アクティビティは、Azure DatabricksやAzure HDInsightなどのコンピューティング環境で実行されます。各変換アクティビティの詳細情報に関する記事へのリンクが提供されています。

このサービスは、次のデータ変換アクティビティをサポートしています。これらは、個別にまたは他のアクティビティと連結してパイプラインに追加できます。

データフローを使用してAzure Data FactoryとAzure Synapse Analyticsでネイティブに変換する

データフローのマッピング

マッピングデータフローは、Azure Data FactoryとAzure Synapseで視覚的に設計されたデータ変換です。データフローを使用すると、データエンジニアは、コードを記述することなくグラフィカルなデータ変換ロジックを開発できます。生成されたデータフローは、スケールアウトされた Spark クラスターを使用するパイプライン内のアクティビティとして実行されます。データフローアクティビティは、サービス内の既存のスケジュール設定、制御、フロー、および監視機能を通して運用化できます。詳細については、マッピングデータフローに関するページを参照してください。

データ整理

Azure Data FactoryのPower Queryにより、クラウド規模のデータラングリングが可能になり、クラウド規模でコード不要のデータ準備を繰り返し行うことができます。データラングリングは、Power Query Online と統合され、Power Query M 関数を Spark の実行を介してクラウド規模でデータラングリングに使用できるようにします。詳細については、Azure Data Factory 内のデータラングリングを参照してください。

Note

Power Queryは現在、Azure Data Factoryでのみサポートされており、Azure Synapseではサポートされていません。各サービスでサポートされている特定の機能の一覧については、Azure Data Factory および Azure Synapse Analytics パイプラインの使用可能な機能を参照してください。

外部変換

必要に応じて、変換を手動でコーディングし、外部のコンピューティング環境を自分で管理することもできます。

HDInsight Hive 活動

パイプライン内の HDInsight Hive アクティビティは、独自またはオンデマンドのWindows/Linux ベースの HDInsight クラスターで Hive クエリを実行します。このアクティビティの詳細については、Hive アクティビティに関する記事をご覧ください。

HDInsight Pig アクティビティ

パイプライン内の HDInsight Pig アクティビティは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Pig クエリを実行します。このアクティビティの詳細については、Pig アクティビティに関する記事をご覧ください。

HDInsight MapReduce アクティビティ

パイプライン内の HDInsight MapReduce アクティビティは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで MapReduce プログラムを実行します。このアクティビティの詳細については、MapReduce アクティビティに関する記事をご覧ください。

HDInsight Streaming アクティビティ

パイプライン内の HDInsight ストリーミングアクティビティは、Hadoop Streaming プログラムを独自またはオンデマンドのWindows/Linux ベースの HDInsight クラスターで実行します。このアクティビティの詳細については、記事「 HDInsight Streaming アクティビティ」を参照してください。

HDInsight Spark アクティビティ

パイプラインの HDInsight Spark アクティビティでは、独自の HDInsight クラスターで Spark プログラムを実行します。詳細については、Azure Data Factory または Azure Synapse Analytics を使用した Invoke Spark プログラムに関するページを参照してください。

ML Studio (クラシック) アクティビティ

重要

Machine Learning Studio (クラシック) ドキュメントは廃止され、今後更新されない可能性があります。

このサービスを使用すると、公開された ML Studio (クラシック) Web サービスを利用して予測分析を行うパイプラインを簡単に作成できます。パイプライン内で Batch Execution アクティビティを使用すると、Studio (クラシック) Web サービスを呼び出して、データの予測を一括で行うことができます。

時間の経過と共に、スタジオ (クラシック) スコア付け実験の予測モデルには、新しい入力データセットを使用した再トレーニングが必要になります。再トレーニングが完了したら、再トレーニング済みの機械学習モデルでスコア付け Web サービスを更新する必要があります。更新リソースアクティビティを使用して、新しくトレーニングを行ったモデルで Web サービスを更新します。

これらの Studio (クラシック) アクティビティの詳細については、ML Studio (クラシック) アクティビティの使用に関するページを参照してください。

ストアドプロシージャアクティビティ

Data Factory パイプラインの SQL Server ストアドプロシージャアクティビティを使用して、次のいずれかのデータストアでストアドプロシージャを呼び出すことができます。Azure SQL Database、Azure Synapse Analytics、SQL Serverデータベース、またはAzure VM。詳細については、ストアドプロシージャアクティビティに関する記事をご覧ください。

Data Lake Analytics の U-SQL アクティビティ

U-SQL アクティビティData Lake Analytics、Azure Data Lake Analytics クラスターで U-SQL スクリプトを実行します。詳細については、Data Analytics U-SQL アクティビティに関する記事をご覧ください。

Azure Synapse ノートブックのアクティビティ

Synapse パイプラインの Azure Synapse Notebook アクティビティは、Azure Synapse ワークスペースで Synapse ノートブックを実行します。 Azure Synapse ノートブックを実行して、変換データを参照してください。

Databricks Notebook 活動

パイプラインの Azure Databricks Notebook アクティビティは、Azure Databricks ワークスペースで Databricks ノートブックを実行します。 Azure Databricksは、Apache Spark を実行するためのマネージドプラットフォームです。「Databricks Notebook を実行してデータを変換する」を参照してください。

Databricks Jar アクティビティ

パイプラインの Azure Databricks Jar アクティビティは、Azure Databricks クラスターで Spark Jar を実行します。 Azure Databricksは、Apache Spark を実行するためのマネージドプラットフォームです。 Azure Databricks で Jar アクティビティを実行してデータを変換する方法については、Transform データを参照してください。

Databricks Python アクティビティ

パイプラインのAzure Databricks Python アクティビティは、Azure Databricks クラスターでPython ファイルを実行します。 Azure Databricksは、Apache Spark を実行するためのマネージドプラットフォームです。 Azure DatabricksでPythonアクティビティを実行してデータを変換する方法については、Transform data by running a Python activity in Azure Databricks を参照してください。

カスタムアクティビティ

Data Factory でサポートされていない方法でデータを変換する必要がある場合は、独自のデータ処理ロジックを使用するカスタムアクティビティを作成し、パイプラインでそのアクティビティを使用できます。 Azure Batch サービスまたはAzure HDInsight クラスターを使用して実行するようにカスタム .NET アクティビティを構成できます。 Use custom activities (カスタムアクティビティの使用) を参照してください。

カスタムアクティビティを作成して、R がインストールされている HDInsight クラスターで R スクリプトを実行することができます。 Azure Data Factory および Synapse パイプラインを使用した R スクリプトの実行については「Run R Script using Azure Data Factory and Synapse pipelines」を参照してください。

コンピューティング環境

変換アクティビティを定義するときには、コンピューティング環境のリンクされたサービスを作成したうえで、そのサービスを使用します。サポートされているコンピューティング環境は 2 種類あります。

オンデマンド: この場合、コンピューティング環境はサービスで完全に管理されます。データを処理するためのジョブが送信される前にサービスにより自動的に作成され、ジョブの完了時に削除されます。ユーザーは、ジョブの実行、クラスターの管理、ブートストラップアクションなどについて、オンデマンドのコンピューティング環境の詳細設定を構成および制御できます。
独自の環境を使用する: この場合、独自のコンピューティング環境 (HDInsight クラスターなど) をリンクサービスとして登録できます。このコンピューティング環境はユーザーにより管理され、サービスではこの環境を使用してアクティビティを実行します。

サポートされるコンピューティングサービスの詳細については、「コンピューティングのリンクされたサービス」を参照してください。

変換アクティビティの使用例については、次のチュートリアルをご覧ください: チュートリアル: Spark を使用してデータを変換する

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-02-13