適用対象:
Azure Data Factory
Azure Synapse Analytics
ヒント
Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。 データ統合を初めて使用する場合は、Fabric Data Factory から始めます。 既存の ADF ワークロードをFabricにアップグレードして、データ サイエンス、リアルタイム分析、レポートの新機能にアクセスできます。
重要
Azure Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日付までに Azure Machine Learning に移行することをお勧めします。
2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービス プラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) 実験と Web サービスを引き続き使用できます。 詳細については、以下を参照してください:
Machine Learning Studio (クラシック) ドキュメントは廃止され、今後更新されない可能性があります。
概要
この記事では、Azure Data Factory パイプラインと Synapse パイプラインのデータ変換アクティビティについて説明します。このアクティビティを使用して、生データを大規模な予測と分析情報に変換して処理できます。 変換アクティビティは、Azure DatabricksやAzure HDInsightなどのコンピューティング環境で実行されます。 各変換アクティビティの詳細情報に関する記事へのリンクが提供されています。
このサービスは、次のデータ変換アクティビティをサポートしています。これらは、個別にまたは他のアクティビティと連結してパイプラインに追加できます。
データ フローを使用してAzure Data FactoryとAzure Synapse Analyticsでネイティブに変換する
データ フローのマッピング
マッピング データ フローは、Azure Data FactoryとAzure Synapseで視覚的に設計されたデータ変換です。 データ フローを使用すると、データ エンジニアは、コードを記述することなくグラフィカルなデータ変換ロジックを開発できます。 生成されたデータ フローは、スケールアウトされた Spark クラスターを使用するパイプライン内のアクティビティとして実行されます。 データ フロー アクティビティは、サービス内の既存のスケジュール設定、制御、フロー、および監視機能を通して運用化できます。 詳細については、マッピング データ フローに関するページを参照してください。
データ 整理
Azure Data FactoryのPower Queryにより、クラウド規模のデータ ラングリングが可能になり、クラウド規模でコード不要のデータ準備を繰り返し行うことができます。 データ ラングリングは、Power Query Online と統合され、Power Query M 関数を Spark の実行を介してクラウド規模でデータ ラングリングに使用できるようにします。 詳細については、Azure Data Factory 内のデータラングリングを参照してください。
Note
Power Queryは現在、Azure Data Factoryでのみサポートされており、Azure Synapseではサポートされていません。 各サービスでサポートされている特定の機能の一覧については、Azure Data Factory および Azure Synapse Analytics パイプラインの使用可能な機能を参照してください。
外部変換
必要に応じて、変換を手動でコーディングし、外部のコンピューティング環境を自分で管理することもできます。
HDInsight Hive 活動
パイプライン内の HDInsight Hive アクティビティは、独自またはオンデマンドのWindows/Linux ベースの HDInsight クラスターで Hive クエリを実行します。 このアクティビティの詳細については、Hive アクティビティに関する記事をご覧ください。
HDInsight Pig アクティビティ
パイプライン内の HDInsight Pig アクティビティは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Pig クエリを実行します。 このアクティビティの詳細については、Pig アクティビティに関する記事をご覧ください。
HDInsight MapReduce アクティビティ
パイプライン内の HDInsight MapReduce アクティビティは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで MapReduce プログラムを実行します。 このアクティビティの詳細については、MapReduce アクティビティに関する記事をご覧ください。
HDInsight Streaming アクティビティ
パイプライン内の HDInsight ストリーミング アクティビティは、Hadoop Streaming プログラムを独自またはオンデマンドのWindows/Linux ベースの HDInsight クラスターで実行します。 このアクティビティの詳細については、記事「 HDInsight Streaming アクティビティ 」を参照してください。
HDInsight Spark アクティビティ
パイプラインの HDInsight Spark アクティビティでは、独自の HDInsight クラスターで Spark プログラムを実行します。 詳細については、Azure Data Factory または Azure Synapse Analytics を使用した
ML Studio (クラシック) アクティビティ
重要
Azure Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日付までに Azure Machine Learning に移行することをお勧めします。
2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービス プラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) 実験と Web サービスを引き続き使用できます。 詳細については、以下を参照してください:
Machine Learning Studio (クラシック) ドキュメントは廃止され、今後更新されない可能性があります。
このサービスを使用すると、公開された ML Studio (クラシック) Web サービスを利用して予測分析を行うパイプラインを簡単に作成できます。 パイプライン内で Batch Execution アクティビティを使用すると、Studio (クラシック) Web サービスを呼び出して、データの予測を一括で行うことができます。
時間の経過と共に、スタジオ (クラシック) スコア付け実験の予測モデルには、新しい入力データセットを使用した再トレーニングが必要になります。 再トレーニングが完了したら、再トレーニング済みの機械学習モデルでスコア付け Web サービスを更新する必要があります。 更新リソース アクティビティを使用して、新しくトレーニングを行ったモデルで Web サービスを更新します。
これらの Studio (クラシック) アクティビティの詳細については、ML Studio (クラシック) アクティビティの使用に関するページを参照してください。
ストアド プロシージャ アクティビティ
Data Factory パイプラインの SQL Server ストアド プロシージャ アクティビティを使用して、次のいずれかのデータ ストアでストアド プロシージャを呼び出すことができます。Azure SQL Database、Azure Synapse Analytics、SQL Serverデータベース、またはAzure VM。 詳細については、ストアド プロシージャ アクティビティに関する記事をご覧ください。
Data Lake Analytics の U-SQL アクティビティ
U-SQL アクティビティData Lake Analytics、Azure Data Lake Analytics クラスターで U-SQL スクリプトを実行します。 詳細については、Data Analytics U-SQL アクティビティに関する記事をご覧ください。
Azure Synapse ノートブックのアクティビティ
Synapse パイプラインの Azure Synapse Notebook アクティビティは、Azure Synapse ワークスペースで Synapse ノートブックを実行します。 Azure Synapse ノートブックを実行して、変換データを参照してください。
Databricks Notebook 活動
パイプラインの Azure Databricks Notebook アクティビティは、Azure Databricks ワークスペースで Databricks ノートブックを実行します。 Azure Databricksは、Apache Spark を実行するためのマネージド プラットフォームです。 「Databricks Notebook を実行してデータを変換する」を参照してください。
Databricks Jar アクティビティ
パイプラインの Azure Databricks Jar アクティビティは、Azure Databricks クラスターで Spark Jar を実行します。 Azure Databricksは、Apache Spark を実行するためのマネージド プラットフォームです。 Azure Databricks で Jar アクティビティを実行してデータを変換する方法については、Transform データを参照してください。
Databricks Python アクティビティ
パイプラインのAzure Databricks Python アクティビティは、Azure Databricks クラスターでPython ファイルを実行します。 Azure Databricksは、Apache Spark を実行するためのマネージド プラットフォームです。 Azure DatabricksでPythonアクティビティを実行してデータを変換する方法については、Transform data by running a Python activity in Azure Databricks を参照してください。
カスタム アクティビティ
Data Factory でサポートされていない方法でデータを変換する必要がある場合は、独自のデータ処理ロジックを使用するカスタム アクティビティを作成し、パイプラインでそのアクティビティを使用できます。 Azure Batch サービスまたはAzure HDInsight クラスターを使用して実行するようにカスタム .NET アクティビティを構成できます。 Use custom activities (カスタム アクティビティの使用) を参照してください。
カスタム アクティビティを作成して、R がインストールされている HDInsight クラスターで R スクリプトを実行することができます。 Azure Data Factory および Synapse パイプラインを使用した R スクリプトの実行については「Run R Script using Azure Data Factory and Synapse pipelines」を参照してください。
コンピューティング環境
変換アクティビティを定義するときには、コンピューティング環境のリンクされたサービスを作成したうえで、そのサービスを使用します。 サポートされているコンピューティング環境は 2 種類あります。
- オンデマンド: この場合、コンピューティング環境はサービスで完全に管理されます。 データを処理するためのジョブが送信される前にサービスにより自動的に作成され、ジョブの完了時に削除されます。 ユーザーは、ジョブの実行、クラスターの管理、ブートストラップ アクションなどについて、オンデマンドのコンピューティング環境の詳細設定を構成および制御できます。
- 独自の環境を使用する: この場合、独自のコンピューティング環境 (HDInsight クラスターなど) をリンク サービスとして登録できます。 このコンピューティング環境はユーザーにより管理され、サービスではこの環境を使用してアクティビティを実行します。
サポートされるコンピューティング サービスの詳細については、「コンピューティングのリンクされたサービス」を参照してください。
関連するコンテンツ
変換アクティビティの使用例については、次のチュートリアルをご覧ください: チュートリアル: Spark を使用してデータを変換する