Partilhar via


Ferramenta Copy Data no Azure Data Factory e Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

A ferramenta Copy Data facilita e otimiza o processo de ingestão de dados num data lake, que normalmente é um primeiro passo num cenário de integração de dados de ponta a ponta. Poupa tempo, especialmente quando usa o serviço para ingerir dados de uma fonte de dados pela primeira vez. Alguns dos benefícios de utilizar esta ferramenta são:

  • Ao usar a ferramenta Copy Data, não precisa de compreender definições de serviços ligados, conjuntos de dados, pipelines, atividades e triggers.
  • A ferramenta Flow of Copy Data é intuitiva para carregar dados num data lake. A ferramenta cria automaticamente todos os recursos necessários para copiar dados do armazenamento de dados de origem selecionado para o armazenamento de destino/sumidouro selecionado.
  • A ferramenta Copy Data ajuda-te a validar os dados que estão a ser ingeridos no momento da autoria, o que te ajuda a evitar potenciais erros logo no início.
  • Se precisares de implementar lógica de negócio complexa para carregar dados num data lake, podes ainda editar os recursos criados pela ferramenta Copiar Dados usando a autoria por atividade na interface.

A tabela seguinte fornece orientações sobre quando usar a ferramenta Copiar Dados versus a autoria por atividade na interface:

Ferramenta de Cópia de Dados Autoria por atividade ("atividade Copy")
Quer construir facilmente uma tarefa de carregamento de dados sem aprender sobre entidades (serviços ligados, conjuntos de dados, pipelines, etc.) Queres implementar lógica complexa e flexível para carregar dados no lago.
Você quer carregar rapidamente um grande número de artefactos de dados num Data Lake. Quer encadear a atividade de cópia com as atividades subsequentes para limpeza ou processamento de dados.

Para iniciar a Ferramenta de Copiar Dados, selecione o azulejo Ingerir na página inicial da Data Factory ou da Interface de Utilizador do Synapse Studio.

Depois de lançar a ferramenta de cópia de dados, verá dois tipos de tarefas: uma é tarefa de cópia incorporada e outra é tarefa de cópia orientada por metadados. A tarefa de cópia embutida permite-lhe criar um pipeline em cinco minutos para replicar dados sem necessidade de compreender entidades. A tarefa de cópia orientada por metadados facilita a sua jornada de criação de pipelines parametrizados e tabelas de controlo externas, de modo a conseguir copiar grandes quantidades de objetos (por exemplo, milhares de tabelas) em grande escala. Pode ver mais detalhes em dados de cópia baseados em metadados.

Fluxo intuitivo para carregar dados num data lake

Esta ferramenta permite-lhe mover facilmente dados de uma grande variedade de fontes para destinos em minutos, com um fluxo intuitivo:

  1. Configura as definições para a fonte.

  2. Configura as definições para o destino.

  3. Configure definições avançadas para a operação de cópia, como mapeamento de colunas, definições de desempenho e definições de tolerância a falhas.

  4. Especifique um horário para a tarefa de carregamento de dados.

  5. Consulte o resumo das entidades a criar.

  6. Edita o pipeline para atualizar as definições da atividade de cópia conforme necessário.

    A ferramenta foi concebida desde o início com big data, com suporte para diversos tipos de dados e objetos. Podes usá-lo para mover centenas de pastas, ficheiros ou tabelas. A ferramenta suporta pré-visualização automática de dados, captura de esquemas e mapeamento automático, bem como filtragem de dados.

Ferramenta de Copiar Dados

Pré-visualização automática de dados

Pode pré-visualizar parte dos dados do armazenamento de dados de origem selecionado, o que lhe permite validar os dados que estão a ser copiados. Além disso, se os dados de origem estiverem num ficheiro de texto, a ferramenta Copy Data analisa o ficheiro de texto para detetar automaticamente os delimitadores de linhas e colunas, bem como o esquema.

Definições de ficheiro

Após a deteção, selecione Dados de Pré-visualização:

Definições e pré-visualização de ficheiros detetados

Captura de esquemas e mapeamento automático

O esquema da fonte de dados pode não ser o mesmo que o esquema do destino dos dados em muitos casos. Neste cenário, precisas de mapear colunas do esquema de origem para colunas do esquema de destino.

A ferramenta Copy Data monitoriza e aprende o teu comportamento quando estás a mapear colunas entre as lojas de origem e destino. Depois de escolher uma ou algumas colunas do armazenamento de dados de origem e mapeá-las para o esquema de destino, a ferramenta Copiar Dados começa a analisar o padrão para pares de colunas que escolheu de ambos os lados. Depois, aplica o mesmo padrão ao resto das colunas. Assim, vês que todas as colunas foram mapeadas para o destino da forma que queres, logo após alguns cliques. Se não estiver satisfeito com a escolha de mapeamento de colunas fornecida pela ferramenta Copy Data, pode ignorá-la e continuar a mapear manualmente as colunas. Entretanto, a ferramenta Copy Data aprende e atualiza constantemente o padrão, alcançando finalmente o padrão certo para o mapeamento de colunas que pretende alcançar.

Nota

Ao copiar dados do SQL Server ou Base de Dados SQL do Azure para o Azure Synapse Analytics, se a tabela não existir na loja de destino, a ferramenta Copy Data suporta a criação automática da tabela usando o esquema de origem.

Filtrar dados

Podes filtrar os dados de origem para selecionar apenas os dados que precisam de ser copiados para o armazenamento de dados de destino. A filtragem reduz o volume de dados a copiar para o armazenamento de dados de destino e, assim, aumenta o débito da operação de cópia. A ferramenta Copy Data oferece uma forma flexível de filtrar dados numa base de dados relacional usando a linguagem de consulta SQL, ou ficheiros numa pasta blob do Azure.

Filtrar dados numa base de dados

A captura de ecrã seguinte mostra uma consulta SQL para filtrar os dados.

Filtrar dados numa base de dados

Filtrar dados numa pasta blob do Azure

Podes usar variáveis no caminho da pasta para copiar dados de uma pasta. As variáveis suportadas são: {ano}, {mês}, {dia}, {hora} e {minuto}. Por exemplo: inputfolder/{year}/{month}/{day}.

Suponha que tem pastas de entrada no seguinte formato:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Selecione o botão Explorar para Ficheiro ou pasta, navegue até uma dessas pastas (por exemplo, 2016-03-01-02>>>) e selecione Escolher. Deves ver 2016/03/01/02 na caixa de texto.

Depois, substitua 2016 por {year}, 03 por {month}, 01 por {day} e 02 por {hour}, e pressione a tecla Tab . Quando seleciona Carga incremental: nomes de pastas/ficheiros particionados no tempo na secção Comportamento de Carregamento de Ficheiros e seleciona Agendar ou Tumbling window na página Propriedades, deve ver menus suspensos para selecionar o formato destas quatro variáveis.

Ficheiro ou pasta de filtro

A ferramenta Copiar Dados gera parâmetros com expressões, funções e variáveis do sistema que podem ser usados para representar {ano}, {mês}, {dia}, {hora} e {minuto} ao criar pipeline.

Opções de agendamento

Pode executar a operação de cópia uma vez ou com uma frequência definida (horária, diária, e assim sucessivamente). Estas opções podem ser usadas para os conectores em diferentes ambientes, incluindo on-premises, cloud e desktop local.

Uma operação de cópia única permite o movimento de dados de uma fonte para um destino apenas uma vez. Aplica-se a dados de qualquer tamanho e qualquer formato suportado. A cópia programada permite-lhe copiar dados com a frequência que especificar. Podes usar as definições ricas (como repetir, tempo limite e alertas) para configurar a cópia agendada.

Opções de agendamento

Experimente estes tutoriais que utilizam a ferramenta Copiar Dados: