Compartilhar via


Use o Azure Data Factory para migrar dados do seu data lake ou data warehouse para o Azure

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Se você quiser migrar seu data lake ou EDW (enterprise data warehouse) para Microsoft Azure, considere usar Azure Data Factory. Azure Data Factory é adequado para os seguintes cenários:

  • Migração de carga de trabalho de Big Data do Amazon Simple Storage Service (Amazon S3) ou de um HDFS (Sistema de Arquivos Distribuído Hadoop) local para o Azure
  • Migração do EDW de Oracle Exadata, Netezza, Teradata ou Amazon Redshift para Azure

Azure Data Factory pode mover petabytes (PB) de dados para migração de data lake e dezenas de terabytes (TB) de dados para migração de data warehouse.

Por que Azure Data Factory pode ser usado para migração de dados

  • Azure Data Factory pode aumentar facilmente a quantidade de poder de processamento para mover dados de maneira sem servidor com alto desempenho, resiliência e escalabilidade. E você paga apenas pelo que usa. Também observe o seguinte:
    • Azure Data Factory não tem limitações no volume de dados ou no número de arquivos.
    • Azure Data Factory pode usar totalmente sua rede e largura de banda de armazenamento para obter o maior volume de taxa de transferência de movimentação de dados em seu ambiente.
    • Azure Data Factory usa um método pago conforme o uso, para que você pague apenas pelo tempo que realmente usa para executar a migração de dados para Azure.
  • Azure Data Factory pode executar uma carga histórica única e cargas incrementais agendadas.
  • Azure Data Factory usa o Azure Integration Runtime (IR) para mover dados entre os endpoints de data lake e warehouse acessíveis publicamente. Ele também pode usar o IR auto-hospedado para mover dados para os pontos de extremidade do data lake e do warehouse dentro da VNet (rede virtual) do Azure ou por trás de um firewall.
  • Azure Data Factory tem segurança de nível empresarial: você pode usar o MSI (Instalador de Windows) ou a Identidade de Serviço para integração serviço a serviço protegido ou usar Azure Key Vault para gerenciamento de credenciais.
  • Azure Data Factory fornece uma experiência de criação sem código e um painel de monitoramento interno avançado. 

Migração de dados online ou offline

Azure Data Factory é uma ferramenta de migração de dados online padrão para transferir dados por uma rede (Internet, ER ou VPN). No caso de migração de dados offline, os usuários enviam fisicamente dispositivos de transferência de dados de sua organização para um Data Center da Azure.

Há três considerações importantes quando você escolhe entre uma abordagem de migração online e offline:

  • Tamanho dos dados a serem migrados
  • Largura de banda da rede
  • Janela de migração

Por exemplo, suponha que você planeje usar Azure Data Factory para concluir a migração de dados dentro de duas semanas (sua janela migration). Observe a linha de corte rosa/azul na tabela a seguir. A célula rosa mais baixa para qualquer coluna especificada mostra o emparelhamento de tamanho de dados/largura de banda de rede cuja janela de migração está mais próxima de duas semanas, mas menor que esse período. (Qualquer combinação de tamanho/largura de banda na célula azul tem uma janela de migração online superior a duas semanas.)

online vs. offline Esta tabela ajuda a determinar se você pode atender à janela de migração pretendida por meio da migração online (Azure Data Factory) com base no tamanho dos dados e na largura de banda de rede disponível. Se a janela de migração online tiver mais de duas semanas, convém usar a migração offline.

Observação

Com o uso da migração online, você pode obter o carregamento de dados históricos e os feeds incrementais de ponta a ponta por meio de uma única ferramenta. Por meio dessa abordagem, os dados podem ser mantidos sincronizados entre o repositório existente e o novo durante toda a janela de migração. Isso significa que você pode recriar a lógica de ETL no repositório novo com dados atualizados.