Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Microsoft Fabric oferece várias maneiras de trazer dados para a plataforma. Este guia fornece uma recomendação clara para os cenários mais comuns e fornece comparações detalhadas de recursos quando você precisa se aprofundar.
Recomendação rápida: qual opção de movimentação de dados devo usar?
Use a arquitetura de medalhão como guia:
Dados de ouro (relatórios e análises sobre dados processados) – Utilize Espelhamento. Se você já tiver o processamento de ETL em outro lugar e precisar principalmente trazer dados selecionados para o Fabric para relatórios, o Espelhamento é a opção mais simples e econômica. Ele é gratuito, requer configuração mínima e replica continuamente seus dados no OneLake.
Dados bronze (ingestão bruta) – Comece com tarefa de cópia. Ao ingerir dados brutos, você precisará rapidamente de transformações, mapeamento de esquema, controle de agendamento e carregamento incremental. A tarefa de cópia oferece esses recursos nativamente, sem a complexidade de construir pipelines.
Dados de streaming em tempo real – Use Eventstreams. Para ingestão e processamento controlados por eventos de baixa latência, o Eventstreams fornece pipelines em tempo real com transformações sem código e roteamento para vários destinos.
Orquestração complexa – os pipelines fornecerão a flexibilidade de orquestração necessária e as atividades de cópia em pipelines oferecem parametrização de objeto de dados e ingestão de dados controlada por metadados. Caso contrário, a atividade de trabalho de cópia e a atividade de cópia são equitativas em um pipeline.
Para obter uma divisão completa lado a lado de capacidades e recursos suportados, consulte a comparação detalhada de recursos.
Conceitos principais
O espelhamento oferece uma maneira simples e gratuita de espelhar dados operacionais no Fabric para análise. Ele é otimizado para facilitar o uso com configuração mínima e grava em um único destino somente leitura no OneLake.
As atividades de cópia no Pipelines são criadas para usuários que precisam de fluxos de trabalho de ingestão de dados orquestrados e baseados em pipeline. Você pode personalizá-lo extensivamente e adicionar lógica de transformação, mas você precisa definir e gerenciar componentes de pipeline por conta própria, incluindo o acompanhamento do estado da última execução para cópia incremental.
Trabalho de Cópia facilita a ingestão de dados com suporte nativo para vários estilos de entrega, incluindo cópia em massa, cópia incremental e replicação CDC (captura de dados de mudanças), e você não precisa criar pipelines, enquanto ainda oferece acesso a várias opções avançadas. Ele dá suporte a muitas fontes e destinos e funciona bem quando você quer mais controle do que a função de espelhamento, mas menos complexidade do que o gerenciamento de pipelines com a atividade de cópia.
Fluxos de eventos: projetado para ingestão, transformação e processamento em tempo real de dados de streaming. Dá suporte a pipelines de baixa latência, gerenciamento de esquema e roteamento para destinos como Eventhouse, Lakehouse, Activator e pontos de extremidade personalizados que suportam AMQP, Kafka e HTTP.
Comparação detalhada de funcionalidades
As tabelas a seguir comparam os recursos completos de cada opção de movimentação de dados. Use esta seção quando precisar avaliar recursos específicos para seu cenário.
| Espelhamento | Trabalho de cópia | Atividade de Cópia (Pipeline) | Fluxos de eventos | |
|---|---|---|---|---|
| Fontes | Bancos de dados + integração de terceiros ao Open Mirroring | Todos os formatos e fontes de dados com suporte | Todos os formatos e fontes de dados com suporte | Mais de 25 fontes e todos os formatos |
| Destinos | Formato de tabela no Fabric OneLake (somente leitura) | Todos os destinos e formatos com suporte | Todos os destinos e formatos com suporte | Mais de 4 destinos |
| Flexibilidade | Configuração simples com comportamento fixo | Opções fáceis de usar + avançadas | Opções avançadas e totalmente personalizáveis | Opções simples e personalizáveis |
| Capacidade | Espelhamento | Trabalho de cópia | Atividade de Cópia (Pipeline) | Fluxos de eventos |
|---|---|---|---|---|
| Agendamento personalizado | Yes | Yes | Contínuo | |
| Gerenciamento de tabelas e colunas | Yes | Yes | Sim (esquema, gerenciamento de eventos e campos) | |
| Comportamento de cópia: Acrescentar, Upsert, Substituir | Yes | Yes | Append | |
| Observabilidade avançada + auditoria | Yes | Yes | ||
| Modos de cópia | ||||
| Replicação contínua baseada em CDC | Yes | Yes | Yes | |
| Cópia em lote ou em massa | Yes | Yes | Sim (replicação de instantâneo inicial cdc) | |
| Suporte nativo para cópia incremental (baseada em marca d'água) | Yes | |||
| Copiar usando a consulta definida pelo usuário | Yes | Yes | ||
| Casos de uso | ||||
| Replicação contínua para análise e relatórios | Yes | Yes | Yes | |
| ELT/ETL controlado por metadados para armazenamento de dados | Yes | Yes | ||
| Consolidação de dados | Yes | Yes | Yes | |
| Migração de dados/backup de dados/compartilhamento de dados | Yes | Yes | Yes | |
| Sem custo | Yes | |||
| Desempenho previsível | Yes | Yes | Yes |
Cenários
Examine esses cenários para ajudá-lo a escolher qual estratégia de movimentação de dados funciona melhor para suas necessidades.
Cenário 1
James é gerente financeiro de uma companhia de seguros. Sua equipe usa o Banco de Dados SQL do Azure para acompanhar dados de política, declarações e informações do cliente em várias unidades de negócios. A equipe executiva deseja criar painéis em tempo real para monitoramento de desempenho de negócios, mas James não pode permitir que consultas de análise reduzam a velocidade dos sistemas operacionais que processam milhares de transações diárias.
James já tem o processamento ETL em vigor, e sua equipe precisa dos dados processados de nível ouro disponíveis no Fabric para relatórios executivos. Ele não quer gerenciar o agendamento, configurar cargas incrementais ou se preocupar com a seleção de tabelas - ele precisa que tudo seja espelhado automaticamente. Como isso serve apenas para relatórios, ter os dados em um formato somente leitura no OneLake funciona perfeitamente. A solução também precisa ser econômica, pois está saindo do orçamento do departamento.
James escolhe Espelhamento. O espelhamento fornece a replicação contínua baseada em CDC de que ele precisa, manipulando automaticamente todas as tabelas sem nenhuma configuração. A configuração simples significa que ele não precisa de conhecimento técnico, e o custo gratuito se encaixa em seu orçamento. O formato tabular somente leitura no OneLake fornece à sua equipe o acesso de análise necessário sem afetar o desempenho operacional.
Cenário 2
Lisa é analista de negócios em uma empresa de logística. Ela precisa carregar dados brutos de remessa de vários bancos de dados Snowflake em tabelas do Fabric Lakehouse para análise de cadeia de suprimentos. Os dados incluem registros históricos para a carga inicial e novas remessas que chegam ao longo do dia. Lisa quer executar esse processo em uma agenda personalizada a cada 4 horas durante o horário comercial.
Como Lisa está trazendo dados brutos do nível bronze, ela sabe que rapidamente precisará de transformações, mapeamento de esquema e controle de agendamento. Ela precisa selecionar tabelas específicas de cada instância do Snowflake, mapear colunas para nomes padronizados e usar o comportamento upsert para lidar com atualizações de registros de remessa existentes. Ela também quer monitoramento avançado para acompanhar a qualidade dos dados e o desempenho de processamento.
Lisa seleciona Copiar trabalho. A tarefa de cópia fornece o agendamento customizado de que ela precisa, suporta todas as fontes de dados, incluindo Snowflake, e oferece capacidades de gerenciamento de tabelas e colunas para sua configuração de várias regiões. O suporte nativo para cópia incremental com detecção baseada em marca d'água e comportamento upsert permite que ela possa lidar com esses requisitos sem criar pipelines.
Cenário 3
David é engenheiro de dados sênior em uma empresa de telecomunicações. Ele está criando um fluxo de trabalho complexo de ingestão de dados que precisa extrair dados de uso do cliente da Oracle usando consultas SQL personalizadas, aplicar transformações de negócios e carregá-los em vários destinos, incluindo o Fabric Warehouse e sistemas externos. O fluxo de trabalho também precisa ser coordenado com outras atividades de pipeline, como etapas de validação de dados e notificação.
David precisa de controle total sobre o processo de cópia, incluindo a capacidade de usar consultas definidas pelo usuário para unir tabelas e filtrar dados na origem. Ele precisa de opções de configuração avançadas e totalmente personalizáveis, desempenho previsível para grandes volumes de dados e a capacidade de integrar o processo de cópia em fluxos de trabalho de orquestração de pipeline mais amplos com dependências e tratamento de erros.
David analisa as opções disponíveis e escolhe Copiar Atividades em Pipelines. Essa abordagem lhe dá a configuração avançada e totalmente personalizável de que ele precisa, dá suporte a consultas definidas pelo usuário para extração de dados complexas e fornece a orquestração baseada em pipeline necessária para seu fluxo de trabalho. As funcionalidades avançadas de monitoramento e auditoria o ajudam a acompanhar o processo complexo, enquanto a estrutura de pipeline permite que ele coordene as atividades de cópia com outras etapas de processamento de dados.
Cenário 4
Ash é gerente de produto em uma empresa de telecomunicações. Sua equipe precisa monitorar as métricas de suporte ao cliente, como volumes de chamadas, tempos de espera e desempenho do agente, em tempo real para garantir a conformidade do SLA e melhorar a satisfação do cliente. Os dados são provenientes de vários sistemas operacionais, incluindo plataformas CRM, logs de call center e bancos de dados de atribuição de agente, e chegam em alta frequência ao longo do dia.
Ash usa Fabric Eventstreams para ingerir e transformar esses dados em movimento. Ela configura conectores de streaming para extrair dados de várias fontes, aplica transformações usando a experiência sem código e roteia os eventos processados para o Eventhouse para análise em tempo real. Ela integra o Data Activator para disparar alertas e fluxos de trabalho automatizados quando os limites de SLA são violados para que ela possa enviar notificações aos supervisores ou ajustar os níveis de pessoal dinamicamente.
O resultado é um painel em tempo real que é atualizado em segundos, dando à equipe da Ash visibilidade das métricas de desempenho ao vivo e habilitando decisões rápidas e controladas por dados. Essa arquitetura de streaming elimina a latência do processamento em lotes e capacita as empresas a responderem instantaneamente às necessidades dos clientes.
Introdução
Agora que você tem uma ideia de qual estratégia de movimentação de dados usar, você pode começar a usar esses recursos: