次の方法で共有


Azure Data Factoryまたは Synapse Analytics を使用して Web テーブルからデータをコピーする

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。 データ統合を初めて使用する場合は、Fabric Data Factory から始めます。 既存の ADF ワークロードをFabricにアップグレードして、データ サイエンス、リアルタイム分析、レポートの新機能にアクセスできます。

この記事では、Azure Data Factoryまたは Synapse Analytics パイプラインでコピー アクティビティを使用して、Web テーブル データベースからデータをコピーする方法について説明します。 この記事は、コピー アクティビティの概要を示しているコピー アクティビティの概要に関する記事に基づいています。

この Web テーブル コネクタ、REST コネクタおよび HTTP コネクタの違いは次のとおりです。

  • Web テーブル コネクタでは、HTML Web ページからテーブルの内容を抽出します。
  • REST コネクタでは、具体的には RESTful API からのデータのコピーがサポートされます。
  • HTTP コネクタでは一般的に、HTTP エンドポイントからデータを取得します (たとえば、ファイルをダウンロードします)。

サポートされる機能

この Web テーブル コネクタでは、次の機能がサポートされます。

サポートされる機能 IR
コピー アクティビティ (ソース/-)
検索アクティビティ

(1) Azure統合ランタイム (2) セルフホステッド統合ランタイム

ソースおよびシンクとしてサポートされているデータ ストアの一覧については、サポートされるデータ ストアに関する表を参照してください。

具体的には、この Web テーブル コネクタは、HTML ページからのテーブル コンテンツの抽出をサポートしています。

前提条件

この Web テーブル コネクタを使用するには、セルフホステッド Integration Runtimeを設定する必要があります。 詳細については、セルフホステッド Integration Runtimeに関する記事を参照してください。

作業の開始

パイプラインでコピー アクティビティを実行するには、次のいずれかのツールまたは SDK を使用できます。

UI を使用して Web Table のリンク サービスを作成する

Azure ポータル UI で Web テーブルへのリンクされたサービスを作成するには、次の手順に従います。

  1. Azure Data Factoryまたは Synapse ワークスペースの [管理] タブを参照し、[リンクされたサービス] を選択し、[新規] をクリックします。

  2. Web を検索し、Web Table コネクタを選択します。

    Web Table コネクタを選択します。

  3. サービスの詳細を構成し、接続をテストして、新しいリンク サービスを作成します。

    Web Table のリンク サービスを構成します。

コネクタの構成の詳細

次のセクションでは、Web テーブル コネクタに固有の Data Factory エンティティの定義に使用されるプロパティについて詳しく説明します。

リンクされたサービスのプロパティ

Web テーブルのリンクされたサービスでは、次のプロパティがサポートされます。

プロパティ 内容 必須
type プロパティは、次のように設定する必要があります:Web はい
url Web ソースへの URL はい
認証タイプ 使用可能な値:Anonymous はい
connectVia データ ストアへの接続に使用するIntegration RuntimePrerequisitesで説明されているように、セルフホステッド Integration Runtime が必要です。 はい

例:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

データセットのプロパティ

データセットを定義するために使用できるセクションとプロパティの完全な一覧については、データセットに関する記事をご覧ください。 このセクションでは、Web テーブル データセットでサポートされるプロパティの一覧を示します。

Web テーブルからデータをコピーするには、データセットの type プロパティを WebTable に設定します。 次のプロパティがサポートされています。

プロパティ 内容 必須
データセットの type プロパティは、次のように設定する必要があります:WebTable に設定する必要があります はい
パス テーブルを含むリソースの相対 URL。 いいえ。 パスが指定されていないとき、リンクされたサービス定義に指定されている URL のみだけが使用されます。
インデックス リソースのテーブルのインデックス。 HTML ページのテーブルのインデックスを取得する方法については、「 HTML ページのテーブルのインデックスを取得する 」を参照してください。 はい

例:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Copy アクティビティ のプロパティ

アクティビティの定義に利用できるセクションとプロパティの完全な一覧については、パイプラインに関する記事を参照してください。 このセクションでは、Web テーブル ソースでサポートされるプロパティの一覧を示します。

ソースとしての Web テーブル

Web テーブルからデータをコピーするには、コピー アクティビティでソースの種類を WebSource に設定します。追加のプロパティはサポートされていません。

例:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

HTML ページのテーブルのインデックスを取得する

dataset プロパティで構成する必要があるテーブルのインデックスを取得するには、次のようにツールとしてExcel 2016などを使用できます。

  1. Excel 2016 を起動し、Data タブに切り替えます。

  2. ツール バーの [新しいクエリ] をクリックし、 [その他のソースから] をポイントし、 [Web から] をクリックします。

    Power Query メニュー

  3. [Web から] ダイアログ ボックスで、リンクされたサービスの JSON で使用する URL を入力し (例: https://en.wikipedia.org/wiki/)、データセットに指定するパスを入力し (例: AFI%27s_100_Years...100_Movies)、[OK] をクリックします。

    Web ダイアログから

    この例で使用される URL は https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies です。

  4. [Web コンテンツへのアクセス] ダイアログ ボックスが表示された場合、適切な URL認証を選択し、 [接続] をクリックします。

    [Access Web コンテンツ] ダイアログ ボックス

  5. ツリー ビューのテーブル アイテムをクリックしてテーブルのコンテンツを表示し、一番下にある [編集] をクリックします。

    [ナビゲーター] ダイアログ

  6. クエリ エディター ウィンドウで、ツール バーの 詳細エディター ボタンをクリックします。

    詳細エディター button

  7. [詳細エディター] ダイアログ ボックスの [ソース] の横にある番号がインデックスです。

    詳細エディター - Index

Excel 2013 を使用している場合は、 Web ページへの接続に関する記事を参照してください。 Microsoft Power BI for Desktop を使用している場合、手順は似ています。

Lookup アクティビティのプロパティ

プロパティの詳細については、Lookup アクティビティに関するページを参照してください。

Copy アクティビティでソースおよびシンクとしてサポートされるデータ ストアの一覧については、サポートされるデータ ストアに関するセクションを参照してください。