適用対象:
Azure Data Factory
Azure Synapse Analytics
ヒント
Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。 データ統合を初めて使用する場合は、Fabric Data Factory から始めます。 既存の ADF ワークロードをFabricにアップグレードして、データ サイエンス、リアルタイム分析、レポートの新機能にアクセスできます。
Data Factory パイプラインの HDInsight Pig アクティビティでは、独自またはオンデマンドの HDInsight クラスターで Pig クエリを実行します。 この記事は、データ変換とサポートされる変換アクティビティの概要を説明する、 データ変換アクティビティ に関する記事に基づいています。
詳細については、Azure Data Factory または Synapse Analytics の概要を参照し、この記事を読む前に Tutorial: transform data を実行します。
UI を使用して HDInsight Pig アクティビティをパイプラインに追加する
HDInsight Pig アクティビティをパイプラインに使用するには、次の手順を実行します。
パイプラインの [アクティビティ] ペイン内で Pig を検索し、Pig アクティビティをパイプライン キャンバスにドラッグします。
まだ選択されていない場合は、キャンバス上の新しい Pig アクティビティを選択してください。
[HDI クラスター] タブを選択して、HDInsight クラスターに対する新しいリンクされたサービスを選択または作成します。このサービスは、MapReduce を実行するのに使用されます。
Script タブを選択して、スクリプトがホストされるAzure Storageの場所にリンクされた新しいスクリプト サービスを選択または作成します。 そこで実行するクラス名と、ストレージの場所内のファイル パスを指定します。 デバッグ構成や、スクリプトに渡される引数とパラメーターなど、詳細を構成することもできます。
構文
{
"name": "Pig Activity",
"description": "description",
"type": "HDInsightPig",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
構文の詳細
| プロパティ | 内容 | 必須 |
|---|---|---|
| 名前 | アクティビティの名前 | はい |
| 説明 | アクティビティの用途を説明するテキストです。 | いいえ |
| 型 | Hive アクティビティの場合、アクティビティの種類は HDinsightPig です | はい |
| linkedServiceName | リンクされたサービスとして登録されている HDInsight クラスターへの参照。 このリンクされたサービスの詳細については、計算のリンクされたサービスに関する記事をご覧ください。 | はい |
| scriptLinkedService | 実行する Pig スクリプトを格納するための Azure Storage リンクされた サービスへの参照。 ここでは、Azure Blob Storage および ADLS Gen2 リンクされたサービスのみがサポートされています。 このリンクされたサービスを指定しない場合は、HDInsight のリンクされたサービスで定義されているAzure Storageリンクされたサービスが使用されます。 | いいえ |
| scriptPath | scriptLinkedService によって参照されるAzure Storageに格納されているスクリプト ファイルへのパスを指定します。 ファイル名は大文字と小文字が区別されます。 | いいえ |
| getDebugInfo | hdInsight クラスター (または scriptLinkedService で指定) によって使用されるAzure Storageにログ ファイルをコピーするタイミングを指定します。 使用できる値は以下の通りです。None、Always、または Failure。 既定値:[なし] : | いいえ |
| 引数 | Hadoop ジョブの引数の配列を指定します。 引数はコマンド ライン引数として各タスクに渡されます。 | いいえ |
| 定義する | Pig スクリプト内で参照するキーと値のペアとしてパラメーターを指定します。 | いいえ |
関連するコンテンツ
別の手段でデータを変換する方法を説明している次の記事を参照してください。