Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Dica
Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.
A ferramenta Copiar Dados facilita e otimiza o processo de ingerir dados em um data lake, que geralmente é a primeira etapa no cenário de integração completa de dados. Ele poupa tempo, especialmente ao usar o serviço para ingestão de dados de uma fonte de dados pela primeira vez. Estes são alguns dos benefícios de usar essa ferramenta:
- Ao usar a ferramenta Copiar Dados, você não precisa entender as definições de serviço para serviços vinculados, conjuntos de dados, pipelines, atividades e gatilhos.
- O fluxo da ferramenta Copy Data é intuitivo para a carga de dados em um data lake. A ferramenta cria automaticamente todos os recursos necessários para copiar dados do repositório de dados de origem selecionado para o repositório de dados de destino selecionado/coletor.
- A ferramenta Copiar Dados ajuda a validar os dados que estão sendo incluídos no momento da criação, o que ajuda a evitar possíveis erros no início em si.
- Se você precisa implementar a lógica de negócios complexa para carregar dados em um data lake, ainda poderá editar os recursos criados pela ferramenta Copiar Dados usando a criação por atividade na interface de usuário.
A tabela a seguir fornece orientação sobre quando usar a ferramenta de cópia de dados versus a criação de atividades individualmente na interface do usuário.
| Ferramenta Copiar Dados | Criação por atividade (Copiar atividade) |
|---|---|
| Você deseja criar uma tarefa de carregamento de dados sem precisar aprender sobre entidades como serviços vinculados, conjuntos de dados, pipelines, etc. | Você deseja implementar a lógica complexa e flexível para carregar dados em um lake. |
| Você deseja carregar rapidamente um grande número de artefatos de dados em um data lake. | Você deseja conectar a atividade de cópia a atividades subsequentes para purificar ou processar dados. |
Para iniciar a ferramenta Copiar Dados, selecione o bloco Ingest na página inicial da interface do usuário do Data Factory ou do Synapse Studio.
Após iniciar a ferramenta Copiar Dados, você verá dois tipos de tarefas: uma é a tarefa de cópia integrada e a outra é a tarefa de cópia orientada por metadados. A tarefa de cópia integrada leva você a criar um pipeline dentro de cinco minutos para replicar dados sem aprender sobre entidades. A tarefa de cópia controlada por metadados para facilitar sua jornada de criação de pipelines parametrizados e tabela de controle externo para gerenciar a cópia de grandes quantidades de objetos (por exemplo, milhares de tabelas) em escala. Você pode ver mais detalhes em dados de cópia controlada por metadados.
Fluxo intuitivo para carregar dados em um data lake
Essa ferramenta permite mover dados facilmente de uma ampla variedade de fontes para destinos em minutos com um fluxo intuitivo:
Defina as configurações para essa origem.
Defina as configurações para esse destino.
Defina as configurações avançadas para a operação de cópia como mapeamento de coluna, configurações de desempenho e configurações de tolerância a falhas.
Especifique um cronograma para a tarefa de carregamento de dados.
Analise o resumo de entidades a serem criadas.
Edite o pipeline para atualizar as configurações para a atividade de cópia, conforme o necessário.
A ferramenta foi projetada com o Big Data em mente desde o começo, com suporte para diversos tipos de dados e objeto. Você pode usá-lo para mover a centenas de pastas, arquivos ou tabelas. A ferramenta permite a visualização automática de dados, a captura e o mapeamento automático de esquemas, além da filtragem de dados.
Visualização automática de dados
Você pode visualizar parte dos dados do armazenamento de dados de origem selecionado, o que permite que você valide os dados que estão sendo copiados. Além disso, se os dados da fonte estiverem em um arquivo de texto, a ferramenta Copiar Dados analisará o arquivo de texto para detectar automaticamente o esquema e os delimitadores de linha e coluna.
Após a detecção, selecione Dados da versão preliminar:
Captura e mapeamento automático do esquema
O esquema de fonte de dados não pode ser igual ao esquema de destino de dados em muitos casos. Nesse cenário, você precisa mapear as colunas do esquema de origem para colunas do esquema de destino.
A ferramenta Copiar Dados monitora e aprende seu comportamento quando você está mapeando colunas entre repositórios de origem e de destino. Depois de escolher uma ou algumas colunas do repositório de dados de origem e mapeá-las para o esquema de destino, a ferramenta Copiar Dados começa a analisar o padrão para os pares de colunas escolhidas de ambos os lados. Em seguida, ele aplica o mesmo padrão ao restante das colunas. Portanto, você vê que todas as colunas foram mapeadas para o destino da forma desejada com apenas alguns cliques. Se você não estiver satisfeito com a opção de mapeamento de coluna fornecida pela ferramenta Copiar Dados, poderá ignorá-lo e continuar mapeando manualmente as colunas. Enquanto isso, a ferramenta de Copiar Dados aprende e atualiza constantemente o padrão e, por fim, alcança o padrão correto para o mapeamento de coluna que você deseja alcançar.
Observação
Ao copiar dados de SQL Server ou Banco de Dados SQL do Azure para Azure Synapse Analytics, se a tabela não existir no repositório de destino, a ferramenta Copiar Dados dá suporte à criação da tabela automaticamente usando o esquema de origem.
Filtrar dados
É possível filtrar os dados de origem para selecionar apenas os dados que precisam ser copiados no repositório de dados do coletor. A filtragem reduz o volume de dados a ser copiado para o repositório de dados do coletor e, portanto, melhora a produtividade da operação de cópia. A ferramenta Copiar Dados fornece uma maneira flexível de filtrar dados em um banco de dados relacional usando a linguagem de consulta SQL ou arquivos em uma pasta de blob Azure.
Filtrar dados em um banco de dados
A captura de tela a seguir mostra uma consulta SQL para filtrar os dados.
Filtrar dados em uma pasta de blob Azure
Você pode usar variáveis no caminho da pasta para copiar dados de uma pasta. As variáveis com suporte são: {ano} , {mês} , {dia} , {hora} e {minuto} . Por exemplo: pastadeentrada/{ano}/{mês}/{dia}.
Suponha que você tenha pastas de entrada no seguinte formato:
2016/03/01/01
2016/03/01/02
2016/03/01/03
...
Selecione o botão Procurararquivo ou pasta, navegue até uma dessas pastas (por exemplo, 2016-03-01-02>>>) e selecione Escolher. Você verá 2016/03/01/02 na caixa de texto.
Em seguida, substitua 2016 por {ano} , 03 por {mês} , 01 por {dia} , 02 por {hora} e pressione a tecla Tab. Quando você seleciona Carga incremental: nomes de pastas/arquivos particionados por tempo na seção Comportamento de carregamento de arquivo e seleciona Agendamento ou Janela em cascata na página Propriedades, você deve ver listas suspensas para selecionar o formato para essas quatro variáveis:
A ferramenta Copiar Dados gera parâmetros com expressões, funções e variáveis de sistema que podem ser usados para representar {ano}, {mês}, {dia}, {hora} e {minuto} durante a criação do pipeline.
Opções de agendamento
Você pode executar a operação de cópia uma vez ou segundo um agendamento (por hora, por dia e assim por diante). Essas opções podem ser usadas para os conectores em ambientes diferentes, incluindo área de trabalho local e na nuvem.
Uma operação de cópia única permite, uma única vez, a movimentação de dados de uma origem para um destino. Ela se aplica aos dados de qualquer tamanho e em qualquer formato com suporte. A cópia programada permite copiar dados com uma recorrência que você especificar. Você pode usar configurações avançadas (como repetição, tempo limite e alertas) para configurar a cópia agendada.
Conteúdo relacionado
Experimente estes tutoriais que usam a ferramenta de cópia de dados: