Guia de decisão do Microsoft Fabric: escolha uma estratégia de movimentação de dados

O Microsoft Fabric oferece várias formas de trazer dados para a plataforma. Este guia dá-lhe uma recomendação clara dos cenários mais comuns e depois fornece comparações detalhadas de funcionalidades quando precisa de aprofundar.

Recomendação rápida: Que opção de movimentação de dados devo usar?

Usa a arquitetura do medalhão como guia:

  • Dados Gold (relatórios e análises sobre dados processados) - Use Espelhamento. Se já tem processamento ETL noutro local e precisa principalmente de trazer dados curados para o Fabric para relatórios, o espelhamento é a escolha mais simples e económica. É gratuito, requer configuração mínima e replica continuamente os seus dados no OneLake.

  • Dados de bronze (ingestão bruta) - Começa com o trabalho de cópia. Quando está a ingerir dados brutos, rapidamente vai precisar de transformações, mapeamento de esquemas, controlo de agendamento e carregamento incremental. O "copy job" oferece estas capacidades de forma nativa, sem a complexidade de criar pipelines.

  • Dados em streaming em tempo real - Use Eventstreams. Para ingestão e processamento de baixa latência e orientados a eventos, o Eventstreams fornece pipelines em tempo real com transformações sem código e encaminhamento para múltiplos destinos.

  • Orquestração complexa - Os pipelines dão-lhe a flexibilidade de orquestração necessária, e as atividades de cópia nos pipelines oferecem parametrização de objetos de dados e ingestão de dados orientada por metadados. Caso contrário, a atividade de transferência de trabalho e a atividade de cópia são consideradas equitativas num pipeline.

Para uma análise completa lado a lado das capacidades e funcionalidades suportadas, consulte a comparação detalhada de funcionalidades.

Captura de tela de uma árvore de decisão de estratégia de movimento de dados, comparando espelhamento, fluxo de eventos, trabalho de cópia e atividade de cópia.

Conceitos-chave

  • O espelhamento oferece uma maneira simples e gratuita de espelhar dados operacionais no Fabric para análise. Ele é otimizado para facilidade de uso com configuração mínima e grava em um único destino somente leitura no OneLake.

  • As atividades de cópia no Pipelines foram criadas para usuários que precisam de fluxos de trabalho de ingestão de dados orquestrados e baseados em pipeline. Você pode personalizá-lo extensivamente e adicionar lógica de transformação, mas você mesmo precisa definir e gerenciar componentes de pipeline, incluindo o acompanhamento do estado da última execução para cópia incremental.

  • O Trabalho de Cópia facilita a ingestão de dados com suporte nativo para vários estilos de entrega, incluindo cópia em massa, cópia incremental e replicação de captura de dados de alteração (CDC), e não é necessário criar pipelines, ao mesmo tempo que oferece acesso a muitas opções avançadas. Ele suporta muitas fontes e destinos e funciona bem quando você deseja mais controle do que o espelhamento, mas menos complexidade do que o gerenciamento de pipelines com a atividade de cópia.

  • Eventstreams: Projetado para ingestão, transformação e processamento de dados de streaming em tempo real. Suporta pipelines de baixa latência, gestão de esquemas e roteamento para destinos como Eventhouse, Lakehouse, Activator e endpoints personalizados que suportam AMQP, Kafka e HTTP.

Comparação detalhada de funcionalidades

As tabelas seguintes comparam as capacidades completas de cada opção de movimentação de dados. Use esta secção quando precisar de avaliar características específicas para o seu cenário.

Espelhamento Trabalho de cópia Atividade de cópia (Pipeline) Fluxos de eventos
Fontes Bancos de dados + integração de terceiros no Open Mirroring Todas as fontes de dados e formatos suportados Todas as fontes de dados e formatos suportados 25+ fontes e todos os formatos
Destinos Formato tabular no Fabric OneLake (somente leitura) Todos os destinos e formatos suportados Todos os destinos e formatos suportados 4+ destinos
Flexibilidade Configuração simples com comportamento fixo Fácil de usar + Opções avançadas Opções avançadas e totalmente personalizáveis Opções simples e personalizáveis
Capacidade Espelhamento Trabalho de cópia Atividade de cópia (Pipeline) Fluxos de eventos
Agendamento personalizado Yes Yes Contínuo
Gestão de tabelas e colunas Yes Yes Sim (esquema, evento e gerenciamento de campo)
Comportamento de cópia: Acrescentar, Atualizar, Substituir Yes Yes Append
Observabilidade avançada + auditoria Yes Yes
Modos de cópia
Replicação contínua baseada em CDC Yes Yes Yes
Cópia em lote ou em massa Yes Yes Sim (replicação inicial do snapshot CDC)
Suporte nativo para cópia incremental (baseada em marca temporal) Yes
Copiar usando consulta definida pelo usuário Yes Yes
Casos de uso
Replicação contínua para análise e emissão de relatórios Yes Yes Yes
ELT/ETL orientado por metadados para armazenamento de dados Yes Yes
Consolidação de dados Yes Yes Yes
Migração de dados / Backup de dados / Compartilhamento de dados Yes Yes Yes
Sem custos Yes
Desempenho previsível Yes Yes Yes

Cenários

Analise esses cenários para ajudá-lo a escolher qual estratégia de movimentação de dados funciona melhor para suas necessidades.

Cenário 1

James é gerente financeiro de uma companhia de seguros. Sua equipe usa o Banco de Dados SQL do Azure para rastrear dados de política, declarações e informações de clientes em várias unidades de negócios. A equipe executiva quer criar painéis em tempo real para monitoramento de desempenho de negócios, mas James não pode permitir que consultas analíticas diminuam a velocidade dos sistemas operacionais que processam milhares de transações diárias.

James já tem processamento ETL implementado, e a sua equipa precisa dos dados processados, de nível ouro, disponíveis no Fabric para relatórios executivos. Ele não quer gerenciar agendamento, configurar cargas incrementais ou se preocupar com a seleção de tabelas - ele precisa de tudo espelhado automaticamente. Como isto é apenas para relatórios, ter os dados em formato somente de leitura no OneLake funciona perfeitamente. A solução também precisa ser econômica, já que está saindo do orçamento do departamento.

James escolhe Mirroring. O espelhamento fornece a replicação contínua baseada em CDC de que ele precisa, manipulando automaticamente todas as tabelas sem qualquer configuração. A configuração simples significa que ele não precisa de conhecimento técnico, e o custo gratuito cabe em seu orçamento. O formato tabular somente de leitura no OneLake dá à sua equipa o acesso analítico de que precisa sem afetar o desempenho operacional.

Cenário 2

Lisa é analista de negócios em uma empresa de logística. Ela precisa integrar dados de expedições brutos de várias bases de dados Snowflake nas tabelas Fabric Lakehouse para a análise da cadeia de abastecimento. Os dados incluem registros históricos da carga inicial e novas remessas que chegam ao longo do dia. Lisa quer executar esse processo em um cronograma personalizado - a cada 4 horas durante o horário comercial.

Como a Lisa está a trazer dados brutos de nível bronze, sabe que vai rapidamente precisar de transformações, mapeamento de esquemas e gestão de agendamentos. Ela precisa de selecionar tabelas específicas de cada instância da Snowflake, mapear colunas com nomes padronizados e usar o comportamento upsert para gerir atualizações dos registos de envio existentes. Ela também quer monitorização avançada para acompanhar a qualidade dos dados e o desempenho do processamento.

A Lisa seleciona Copiar trabalho. O trabalho de cópia fornece o agendamento personalizado de que precisa, suporta todas as fontes de dados incluindo o Snowflake, e oferece capacidades de gestão de tabelas e colunas para a sua configuração multi-região. O suporte nativo para cópia incremental com deteção baseada em marca de água e comportamento upsert permite-lhe lidar com estes requisitos sem construir pipelines.

Cenário 3

David é engenheiro de dados sênior em uma empresa de telecomunicações. Ele está criando um fluxo de trabalho complexo de ingestão de dados que precisa extrair dados de uso do cliente da Oracle usando consultas SQL personalizadas, aplicar transformações de negócios e carregá-los em vários destinos, incluindo o Fabric Warehouse e sistemas externos. O fluxo de trabalho também precisa se coordenar com outras atividades de pipeline, como validação de dados e etapas de notificação.

David precisa de controle total sobre o processo de cópia, incluindo a capacidade de usar consultas definidas pelo usuário para unir tabelas e filtrar dados na origem. Ele precisa de opções de configuração avançadas e totalmente personalizáveis, desempenho previsível para grandes volumes de dados e a capacidade de integrar o processo de cópia em fluxos de trabalho de orquestração de pipeline mais amplos com dependências e tratamento de erros.

David analisa as opções disponíveis e escolhe Atividades de cópia em fluxos de dados. Essa abordagem oferece a configuração avançada e totalmente personalizável de que ele precisa, suporta consultas definidas pelo usuário para extração de dados complexos e fornece a orquestração baseada em pipeline necessária para seu fluxo de trabalho. Os recursos avançados de monitoramento e auditoria o ajudam a rastrear o processo complexo, enquanto a estrutura de pipeline permite coordenar atividades de cópia com outras etapas de processamento de dados.

Cenário 4

Ash é gerente de produto em uma empresa de telecomunicações. Sua equipe precisa monitorar as métricas de suporte ao cliente, como volumes de chamadas, tempos de espera e desempenho do agente, em tempo real, para garantir a conformidade com o SLA e melhorar a satisfação do cliente. Os dados vêm de vários sistemas operacionais, incluindo plataformas de CRM, logs de call center e bancos de dados de atribuição de agentes, e chegam com alta frequência ao longo do dia.

Ash usa Fabric Eventstreams para ingerir e transformar esses dados em movimento. Ela configura conectores de streaming para extrair dados de várias fontes, aplica transformações usando a experiência sem código e roteia os eventos processados para o Eventhouse para análise em tempo real. Ela integra o Data Activator para disparar alertas e fluxos de trabalho automatizados quando os limites de SLA são violados para que ela possa enviar notificações aos supervisores ou ajustar os níveis de pessoal dinamicamente.

O resultado é um painel em tempo real que se atualiza em segundos, dando à equipa da Ash visibilidade sobre métricas de desempenho em tempo real e permitindo decisões rápidas e baseadas em dados. Essa arquitetura de streaming elimina a latência dos pipelines em lote e capacita a empresa a responder instantaneamente às necessidades dos clientes.

Introdução

Agora que você tem uma ideia de qual estratégia de movimentação de dados usar, você pode começar com estes recursos: