次の方法で共有


データのコピー ツールを使用し LastModifiedDate に基づいて新しいファイルおよび変更されたファイルを増分コピーする

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。 データ統合を初めて使用する場合は、Fabric Data Factory から始めます。 既存の ADF ワークロードをFabricにアップグレードして、データ サイエンス、リアルタイム分析、レポートの新機能にアクセスできます。

このチュートリアルでは、Azure ポータルを使用してデータ ファクトリを作成します。 次に、データのコピー ツールを使用して、Azure Blob ストレージからAzure Blob ストレージへ新しいファイルと変更されたファイルのみを増分コピーするパイプラインを作成します。 LastModifiedDate を使用して、どのファイルをコピーするかを決定します。

ここでの手順を完了すると、Azure Data Factoryはソース ストア内のすべてのファイルをスキャンし、LastModifiedDate でファイル フィルターを適用し、新しいファイルまたは前回以降に更新されたファイルのみをコピー先ストアにコピーします。 Data Factory によって多数のファイルがスキャンされる場合は、継続時間が長くなると予想されることに注意してください。 コピーされるデータ量を減らしても、ファイルのスキャンには時間がかかります。

Data Factory を初めて使用する場合は、Azure Data Factory の概要を参照してください。

このチュートリアルでは、以下のタスクを完了します。

  • データ ファクトリを作成します。
  • データのコピー ツールを使用してパイプラインを作成します。
  • パイプラインとアクティビティの実行を監視します。

前提条件

  • Azure サブスクリプション: Azure サブスクリプションがない場合は、開始する前に free アカウントを作成します。
  • Azure Storage アカウント: ソース データ ストアとシンク データ ストアに BLOB ストレージを使用します。 Azure Storage アカウントをお持ちでない場合は、「ストレージ アカウントの作成の手順に従ってください。

Blob ストレージに 2 つのコンテナーを作成する

次の手順を実行して、チュートリアル用の Blob ストレージを準備します。

  1. ソースという名前のコンテナーを作成 しますAzure Storage Explorer

  2. 宛先という名前のコンテナーを作成 します

Data Factory の作成

  1. 上部のメニューで、 リソースの作成>Analytics>Data Factory を選択します。

    Data Factory の選択

  2. [ 新しいデータ ファクトリ ] ページの [名前] に「 ADFTutorialDataFactory」と入力します。

    データ ファクトリの名前はグローバルに一意にする必要があります。 このエラー メッセージが表示されることもあります。

    重複する名前の新しいデータ ファクトリ エラー メッセージ。

    データ ファクトリの名前の値に関するエラー メッセージが表示された場合は、別の名前を入力してください。 たとえば、次のように、yournameADFTutorialDataFactory という名前を使用します。 Data Factory アーティファクトの名前付け規則については、 Data Factory の名前付け規則に関するセクションを参照してください。

  3. Subscription で、新しいデータ ファクトリを作成するAzure サブスクリプションを選択します。

  4. [ リソース グループ] で、次のいずれかの手順を実行します。

    • [ 既存のものを使用] を選択し、一覧から既存のリソース グループを選択します。

    • [ 新規作成] を選択し、リソース グループの名前を入力します。

    リソース グループの詳細については、「リソース グループを使用してAzure リソースを管理するを参照してください。

  5. [ バージョン] で [ V2] を選択します。

  6. [ 場所] で、データ ファクトリの場所を選択します。 サポートされている場所のみがこの一覧に表示されます。 データ ファクトリが使用するデータ ストア (Azure StorageやAzure SQL Databaseなど) とコンピューティング (Azure HDInsightなど) は、他の場所やリージョンに配置できます。

  7. [作成]を選択します。

  8. データ ファクトリが作成されるとデータ ファクトリのホーム ページが表示されます。

  9. 別のタブで Azure Data Factory ユーザー インターフェイス (UI) を開くには、Open Azure Data Factory Studio タイルで Open を選択します。

    Azure Data Factoryのホームページで、Azure Data Factory Studioを開くタイルがあります。

データのコピー ツールを使用してパイプラインを作成する

  1. Azure Data Factoryホーム ページで、Ingest タイルを選択して、データのコピー ツールを開きます。

    ADF ホーム ページを示すスクリーンショット。

  2. [ プロパティ ] ページで、次の手順を実行します。

    1. [ タスクの種類] で、[ 組み込みのコピー タスク] を選択します。

    2. [ タスクの周期] または [タスク スケジュール] で、[ タンブリング] ウィンドウを選択します

    3. [ 繰り返し] に「 15 分」と入力します。

    4. [ 次へ] を選択します。

    [データのコピー] の [プロパティ] ページ

  3. [ ソース データ ストア ] ページで、次の手順を実行します。

    1. [+ 新しい接続] を選択して接続を追加します。

    2. ギャラリーから Azure Blob Storage を選択し、Continue

      Select Azure Blog Storage

    3. 新しい接続 (Azure Blob Storage) ページで、Azure サブスクリプションの一覧からAzureサブスクリプションを選択し、ストレージ アカウントを Storage アカウント名 リストから選択します。 接続をテストし、[ 作成] を選択します。

    4. [接続] ブロックで、新しく作成された 接続 を選択します。

    5. [ ファイルまたはフォルダー ] セクションで、[ 参照 ] を選択して ソース フォルダーを選択し、[ OK] を選択します

    6. [ ファイルの読み込み動作] で、[ 増分読み込み: LastModifiedDate] を選択し、[ バイナリ コピー] を選択します。

    7. [ 次へ] を選択します。

    [ソース データ ストア] ページを示すスクリーンショット。

  4. [ 宛先データ ストア ] ページで、次の手順を実行します。

    1. 作成した AzureBlobStorage 接続を選択します。 これは、コピー元データ ストアと同じストレージ アカウントです。

    2. [ フォルダー パス] セクションで、 移動先 フォルダーを参照して選択し、[ OK] を選択します

    3. [ 次へ] を選択します。

    [宛先データ ストア] ページを示すスクリーンショット。

  5. [ 設定] ページの [ タスク名] に 「DeltaCopyFromBlobPipeline」と入力し、[ 次へ] を選択します。 指定したタスク名のパイプラインが Data Factory によって作成されます。

    [設定] ページを示すスクリーンショット。

  6. [ 概要 ] ページで設定を確認し、[ 次へ] を選択します。

    概要ページ

  7. [ デプロイ ] ページで、[ 監視 ] を選択してパイプライン (タスク) を監視します。

    [デプロイ] ページ

  8. 左側の [ 監視 ] タブが自動的に選択されていることに注意してください。 アプリケーションが [モニター ] タブに切り替わる。パイプラインの状態が表示されます。 [ 最新の情報に更新] を選択して一覧を更新します。 [ パイプライン名 ] の下にあるリンクを選択して、アクティビティの実行の詳細を表示するか、パイプラインをもう一度実行します。

    リストを更新し、アクティビティの実行の詳細を表示する

  9. パイプラインにはアクティビティ (コピー アクティビティ) が 1 つしかないため、エントリが 1 つだけ表示されます。 コピー操作の詳細については、[アクティビティの実行] ページで、[アクティビティ] 列の [詳細] リンク (眼鏡アイコン) を選択します。 プロパティの詳細については、「Copy アクティビティの概要を参照してください。

    パイプラインパイプラインのコピー アクティビティ

    BLOB ストレージ アカウントの source コンテナーにはファイルがないので、そのアカウントの destination コンテナーにコピーされたファイルは表示されません。

    ソース コンテナーまたはコピー先コンテナーにファイルがない

  10. 空のテキスト ファイルを作成し、 file1.txt名前を付けます。 このテキスト ファイルを、ストレージ アカウントの source コンテナーにアップロードします。 Azure Storage Explorer

    file1.txt を作成してソース コンテナーにアップロードする

  11. [パイプラインの実行] ビューに戻るには、[アクティビティの実行] ページの階層リンク メニューで [すべてのパイプラインの実行] リンクを選択し、同じパイプラインが再び自動的にトリガーされるまで待ちます。

  12. 2 番目のパイプラインの実行が完了したら、前述と同じ手順に従って、アクティビティの実行の詳細を確認します。

    BLOB ストレージ アカウントの source コンテナーから destination コンテナーに 1 つのファイル (file1.txt) がコピーされたことが表示されます。

    file1.txtはソースコンテナからコピー先コンテナにコピーされました

  13. 別の空のテキスト ファイルを作成し、 file2.txt名前を付けます。 このテキスト ファイルを BLOB ストレージ アカウントの source コンテナーにアップロードします。

  14. 2 つ目のテキスト ファイルに対してステップ 11 と 12 を繰り返します。 このパイプライン実行中に、ストレージ アカウントの source コンテナーから destination コンテナーに新しいファイル (file2.txt) だけがコピーされたことがわかります。

    Azure Storage Explorerを使用してファイルをスキャンすることで、1 つのファイルのみがコピーされたことを確認することもできます。

    Azure Storage Explorer を使用してファイルをスキャン

次のチュートリアルに進み、Azure上の Apache Spark クラスターを使用してデータを変換する方法について説明します。