Partilhar via


Copie incrementalmente novos arquivos com base no nome do arquivo particionado por tempo usando a ferramenta Copiar dados

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

Neste tutorial, utilizas o portal do Azure para criar uma fábrica de dados. Depois, usa a ferramenta Copiar Dados para criar um pipeline que copia incrementalmente novos ficheiros com base em nomes de ficheiros particionados por tempo, do armazenamento Blob do Azure para o armazenamento Blob do Azure.

Nota

Se és novo em Azure Data Factory, vê Introdução ao Azure Data Factory.

Neste tutorial, vai executar os seguintes passos:

  • Criar uma fábrica de dados.
  • Utilizar a ferramenta Copiar Dados para criar um pipeline.
  • Monitorizar o pipeline e as execuções de atividades.

Pré-requisitos

  • Subscrição do Azure: Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.
  • conta de armazenamento Azure: Use armazenamento Blob como a loja de dados de origem e destino. Se não tiver uma conta de armazenamento Azure, veja as instruções em Criar uma conta de armazenamento.

Criar dois contêineres no armazenamento de Blob

Prepare seu armazenamento de Blob para o tutorial executando estas etapas.

  1. Crie um contêiner chamado source. Crie um caminho de pasta como 2021/07/15/06 em seu contêiner. Crie um arquivo de texto vazio e nomeie-o como file1.txt. Carregue o ficheiro1.txt no caminho source/2021/07/15/06 da sua conta de armazenamento. Pode usar várias ferramentas para realizar estas tarefas, como Explorador de Armazenamento do Azure.

    carregar ficheiros

    Nota

    Por favor, ajuste o nome da pasta com a sua hora UTC. Por exemplo, se a hora UTC atual for 6:10 AM em 15 de julho de 2021, você pode criar o caminho da pasta como source/2021/07/15/06/ pela regra de source/{Year}/{Month}/{Day}/{Hour}/.

  2. Crie um contêiner chamado destino. Pode usar várias ferramentas para realizar estas tarefas, como Explorador de Armazenamento do Azure.

Criar uma fábrica de dados

  1. No menu superior, selecione Criar um recurso>Analytics>Data Factory :

    Seleção do Data Factory no

  2. Na página Nova fábrica de dados, em Nome, introduza ADFTutorialDataFactory.

    O nome da fábrica de dados tem de ser globalmente exclusivo. Poderá receber a seguinte mensagem de erro:

    Nova mensagem de erro de fábrica de dados para nome duplicado.

    Se receber uma mensagem de erro relacionada com o valor do nome, introduza um nome diferente para a fábrica de dados. Por exemplo, utilize o nome oseunomeADFTutorialDataFactory. Para ter acesso às regras de nomenclatura para artefactos do Data Factory, veja Regras de nomenclatura do Data Factory.

  3. Selecione a subscrição Azure em que criar a nova fábrica de dados.

  4. Em Grupo de Recursos, efetue um destes passos:

    a) Selecione Utilizar existente e selecione um grupo de recursos existente na lista suspensa.

    b) Selecione Criar novo e introduza o nome de um grupo de recursos.

    Para saber mais sobre grupos de recursos, veja Use grupos de recursos para gerir os seus Azure recursos.

  5. Em Versão, selecione V2 para indicar a versão.

  6. Em Localização, selecione a localização da fábrica de dados. Apenas são apresentadas as localizações suportadas na lista pendente. Os armazenamentos de dados (por exemplo, Armazenamento do Azure e SQL Database) e os computadores (por exemplo, Azure HDInsight) que são usados pela sua fábrica de dados podem estar noutros locais e regiões.

  7. Selecione Criar.

  8. Depois de concluída a criação, é apresentada a home page Fábrica de Dados.

  9. Para iniciar a interface de utilizador (UI) do Azure Data Factory num novo separador, selecione Abrir no bloco Abrir o Azure Data Factory Studio.

    Página inicial do Azure Data Factory, com o bloco Open Azure Data Factory Studio.

Utilizar a ferramenta Copy Data para criar um pipeline

  1. Na página inicial Azure Data Factory, selecione o título Ingest para iniciar a ferramenta Copiar Dados.

    Captura de tela que mostra a página inicial do ADF.

  2. Na página Propriedades, execute os seguintes passos:

    1. Em Tipo de tarefa, escolha Tarefa de cópia interna.

    2. Em Cadência de tarefas ou agenda, selecione Janela de execução periódica.

    3. Em Recorrência, insira 1 hora(s).

    4. Selecione Seguinte.

    Página Propriedades

  3. Na página Arquivo de dados de origem, conclua os seguintes passos:

    a) Selecione + Nova conexão para adicionar uma conexão.

    b) Selecione Armazenamento de Blobs do Azure da galeria e depois selecione Continue.

    c. Na página Nova ligação (Armazenamento de Blobs do Azure), introduza um nome para a ligação. Selecione a sua subscrição Azure e selecione a sua conta de armazenamento na lista Nome da conta de armazenamento. Teste a conexão e selecione Criar.

    Página de arquivo de dados de origem

    d. Na página Armazenamento de dados de origem, selecione a conexão recém-criada na seção Conexão.

    e. Na seção Arquivo ou pasta, procure e selecione o contêiner de origem e, em seguida, selecione OK.

    f. Em Comportamento de carregamento de ficheiros, selecione Carga incremental: nomes de pastas/ficheiros particionados por tempo.

    g. Escreva o caminho da pasta dinâmica como origem/{ano}/{mês}/{dia}/{hora}/e altere o formato conforme mostrado na captura de tela a seguir.

    h. Verifique Cópia binária e selecione Avançar.

    Captura de tela que mostra a configuração da página Armazenamento de dados de origem.

  4. Na página Armazenamento de dados de destino, conclua os seguintes passos:

    1. Selecione AzureBlobStorage, que é a mesma conta de armazenamento que o armazenamento da fonte de dados.

    2. Procure e selecione a pasta de destino e, em seguida, selecione OK.

    3. Escreva o caminho da pasta dinâmica como destino/{ano}/{mês}/{dia}/{hora}/e altere o formato conforme mostrado na captura de tela a seguir.

    4. Selecione Seguinte.

    Captura de tela que mostra a configuração da página Armazenamento de dados de destino.

  5. Na página Configurações, em Nome da tarefa, digite DeltaCopyFromBlobPipeline e selecione Avançar. O UI do Data Factory cria um pipeline com o nome especificado da tarefa.

    Captura de ecrã que mostra a página de configuração de definições.

  6. Na página Resumo, reveja as definições e depois selecione Seguinte.

    Página Resumo

  7. Na Página de implementação, selecione Monitorizar para monitorizar o pipeline (tarefa). Página de implementação

  8. Tenha em atenção que o separador Monitorização à esquerda é selecionado automaticamente. Você precisa aguardar a execução do pipeline quando ele é acionado automaticamente (cerca de uma hora). Quando executado, selecione o link com o nome do pipeline DeltaCopyFromBlobPipeline para visualizar os detalhes da execução da atividade ou reexecutar novamente o pipeline. Selecione Atualizar para atualizar a lista.

    A captura de tela mostra o painel Pipeline runs.

  9. Há apenas uma atividade (atividade de cópia) no pipeline, portanto, verá apenas uma entrada. Ajuste a largura da coluna das colunas Origem e Destino (se necessário) para exibir mais detalhes, você pode ver que o arquivo de origem (file1.txt) foi copiado de source/2021/07/15/06/ para destination/2021/07/15/06/ com o mesmo nome de arquivo.

    A captura de tela mostra os detalhes da execução do pipeline.

    Também pode verificar o mesmo usando Explorador de Armazenamento do Azure (https://storageexplorer.com/) para analisar os ficheiros.

    A captura de tela mostra os detalhes da execução do pipeline para o destino.

  10. Crie outro arquivo de texto vazio com o novo nome como file2.txt. Carregue o arquivo file2.txt no caminho da pasta source/2021/07/15/07 em sua conta de armazenamento. Pode usar várias ferramentas para realizar estas tarefas, como Explorador de Armazenamento do Azure.

    Nota

    Poderá estar ciente de que deverá ser criado um novo caminho de pasta. Por favor, ajuste o nome da pasta com a sua hora UTC. Por exemplo, se a hora UTC atual for 7:30 AM em julho. Dia 15, 2021, você pode criar o caminho da pasta como fonte/2021/07/15/07/ pela regra de {Ano}/{Mês}/{Dia}/{Hora}/.

  11. Para voltar à visualização Execuções de pipeline, selecione Todas as execuções de pipeline e aguarde até que a mesma execução de pipeline seja acionada novamente automaticamente após mais uma hora.

    A captura de tela mostra o link

  12. Selecione a nova ligação DeltaCopyFromBlobPipeline para a segunda execução do pipeline quando estiver disponível e proceda da mesma forma para rever os detalhes. Você verá que o arquivo fonte (file2.txt) foi copiado de source/2021/07/15/07/ para destination/2021/07/15/07/ com o mesmo nome de ficheiro. Também pode verificar o mesmo usando Explorador de Armazenamento do Azure (https://storageexplorer.com/) para analisar os ficheiros no contentor destination.

Avance para o seguinte tutorial para aprender a transformar dados usando um cluster Spark no Azure: