Criar uma arquitetura moderna de plataforma de dados para SMBs usando o Microsoft Fabric e o Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Fábrica de dados do Azure
Microsoft Purview

ideias da Solução

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essas diretrizes para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para criar uma solução bem arquiteta que esteja alinhada com os requisitos específicos da carga de trabalho.

Este artigo descreve como as pequenas e médias empresas (SMBs) podem criar uma arquitetura moderna de plataforma de dados combinando investimentos existentes no Azure Databricks com uma plataforma de dados SaaS (software como serviço) totalmente gerenciada, como o Microsoft Fabric. As plataformas de dados SaaS são soluções de análise de dados de ponta a ponta que se integram a ferramentas como Azure Machine Learning, Ferramentas de Fundação, Power Platform, Microsoft Dynamics 365 e outras tecnologias de Microsoft.

Arquitetura simplificada

Diagrama que mostra uma arquitetura de plataforma de dados moderna simplificada para SMBs.

Baixe um arquivo do Visio dessa arquitetura.

A interoperabilidade entre o Azure Databricks e o Fabric fornece uma solução robusta que minimiza a fragmentação de dados e, ao mesmo tempo, aprimora as funcionalidades analíticas.

O Fabric fornece um data lake aberto e controlado, chamado OneLake, como o armazenamento de SaaS subjacente. OneLake e Azure Databricks usam o formato Delta Parquet. Para acessar seus dados do Azure Databricks no OneLake, você pode espelhar o Unity Catalog do Azure Databricks no Fabric para integrar dados sem replicação ou movimentação de dados. Com essa integração, você pode aumentar seus sistemas de análise de Azure Databricks com IA generativa em cima do OneLake.

Você também pode usar o modo Direct Lake em Power BI em seus dados de Azure Databricks no OneLake. O modo Direct Lake simplifica a camada de serviço e melhora o desempenho do relatório. O OneLake dá suporte a APIs para o Azure Data Lake Storage e armazena todos os dados tabulares no formato Delta Parquet.

Como resultado, os notebooks do Azure Databricks podem usar endpoints do OneLake para acessar dados armazenados. A experiência é a mesma que acessar os dados por meio de um armazém do Fabric. Com essa integração, você pode usar Fabric ou Azure Databricks sem remodelar seus dados.

Arquitetura

Diagrama que mostra uma arquitetura de plataforma de dados moderna completa para SMBs.

Diagrama que mostra uma arquitetura de plataforma de dados moderna para SMBs. Na etapa 1, a seção de carregamento e ingestão inclui Hubs de Eventos do Azure, Hub IoT do Azure, Microsoft Dataverse e Azure Data Factory. Uma seta aponta do Data Factory para Data Lake Storage, que serve como a camada de armazenamento e contém dados armazenados no formato Delta Lake. No Data Lake Storage, o Delta Lake organiza os dados nas camadas bronze, prata e ouro do modelo medalhão, que o Azure Databricks processa. Dados estruturados e não estruturados são movidos para o data lake existente. Na etapa 2, uma seta com o rótulo "Microsoft Fabric Link" aponta do Dataverse para a seção processar e manipular. Uma seta rotulada do Azure Link do Synapse aponta do Dataverse para o Data Lake Storage. Na etapa 3, uma seta aponta dos dados de streaming para Event Hubs. As etapas 4 e 5 mostram o caminho frio e quente, respectivamente. Eles se separaram da arquitetura Lambda. O caminho frio aponta para a seção de armazenamento. O fluxo principal refere-se à seção de processamento e manipulação, que inclui o Fabric Real-Time Intelligence, o eventstream e o eventhouse. Esta seção também abrange a seção Colaborar e consumir e inclui o painel do Fabric e o Ativador. Na etapa 6, o OneLake e o Copilot compartilham uma seção com o agente de dados do Fabric e as análises do Fabric. Abrange as seções de processo, manipulação, colaboração e consumo. Uma seta de dois lados rotulada como Mirrored Azure Databricks Unity Catalog conecta Azure Databricks e a seção OneLake e Copilot. Na etapa 7, uma seta de dois lados conecta Azure Databricks e Data Lake Storage. Na seção colaborar e consumir, uma seta aponta da Ciência de Dados e do aprendizado de máquina para a seção consumir e servir. A seção consumir e servir inclui Power Apps, Microsoft Dynamics CRM, Power BI, aplicativos Azure Functions, Aplicativos Lógicos e aplicativos Web. Na parte inferior, a seção "Descobrir e governar" inclui Microsoft Purview e Unity Catalog. Abaixo dessa seção, a seção Plataforma inclui Microsoft Entra ID, Gerenciamento de Custos da Microsoft, Azure Key Vault, Azure Monitor, Microsoft Defender para Nuvem, Azure DevOps e GitHub.

Baixe um arquivo do Visio dessa arquitetura.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama anterior:

  1. Use pipelines existentes do Azure Data Factory para ingerir dados estruturados e não estruturados de sistemas de origem e carregá-los no data lake existente.

  2. Você pode usar fontes de dados do Microsoft Dynamics 365 para criar painéis de BI centralizados com base em conjuntos de dados aprimorados usando o Azure Link do Synapse ou o Microsoft Fabric Link. Traga os dados fundidos e processados de volta para o Microsoft Dynamics 365 e o Power BI para análise adicional.

  3. Os dados de streaming podem ser ingeridos por meio de Hubs de Eventos do Azure ou Hub IoT do Azure, dependendo dos protocolos que enviam essas mensagens.

  4. Na camada fria, você pode usar o Azure Databricks para levar os dados de streaming para o data lake centralizado para análises adicionais, armazenamento e geração de relatórios. Esses dados podem então ser unificados com outras fontes de dados para análise em lote.

  5. No caminho quente, você pode analisar dados em tempo real e criar painéis em tempo real por meio do Microsoft Fabric Real-Time Intelligence.

  6. Você pode usar os notebooks existentes do Azure Databricks para executar limpeza de dados, unificação e análises. Considere usar a arquitetura de medalhão, como:

    • Bronze, que armazena dados brutos.
    • Prata, que contém dados limpos e filtrados.
    • Ouro, que armazena dados agregados que são úteis para análise de negócios.
  7. Para dados dourados ou um data warehouse, continue usando Azure Databricks SQL ou crie um espelhamento do catálogo do Azure Databricks Unity em Fabric. Para habilitar relatórios e análises em um Fabric lakehouse, crie um modelo semântico explicitamente e crie painéis Power BI usando Direct Lake ou DirectQuery para alto desempenho. Para obter mais informações, consulte Semantic models in Fabric.

As ferramentas a seguir são usadas para governança, colaboração, segurança, desempenho e monitoramento de custos.

  • Descubra e governe:

    • O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.

    • O Unity Catalog fornece controle de acesso centralizado, auditoria, linhagem e descoberta de dados nos workspaces do Azure Databricks.

  • Recursos da plataforma:

    • Microsoft Entra ID fornece SSO (logon único) para usuários Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com a ID do Microsoft Entra para:

      • Criar novos usuários.
      • Atribuir um nível de acesso a cada usuário.
      • Remova os usuários e negue-os ao acesso.
    • O Gerenciamento de Custos da Microsoft fornece serviços de governança financeira para cargas de trabalho do Azure.

    • O Azure Key Vault gerencia segredos, chaves e certificados.

    • O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Esse serviço maximiza o desempenho e a confiabilidade identificando proativamente os problemas.

    • Microsoft Defender para Nuvem fornece gerenciamento da postura de segurança e proteção contra ameaças para recursos do Azure e cargas de trabalho.

    • Azure DevOps fornece integração contínua e implantação contínua (CI/CD) e outros recursos de controle de versão integrados.

    • GitHub fornece controle de versão e recursos de desenvolvimento colaborativo para gerenciar pipelines de código e implantação.

Componentes

  • Data Lake Storage é um serviço de armazenamento de dados escalonável projetado para dados estruturados e não estruturados. Nessa arquitetura, o Data Lake Storage serve como a infraestrutura subjacente para o Delta Lake. É a camada de armazenamento principal para dados brutos e processados, que permite a ingestão, armazenamento e recuperação de dados eficientes para cargas de trabalho de análise e machine learning.

  • O Data Factory é um serviço de integração de dados baseado em nuvem que orquestra e automatiza a movimentação e a transformação de dados. Nessa arquitetura, o Data Factory cria, agenda e orquestra pipelines de dados que movem e transformam dados em vários armazenamentos de dados e serviços.

  • Os Hubs de Eventos são um serviço de ingestão de dados em tempo real que pode processar milhões de eventos por segundo de qualquer fonte. Nessa arquitetura, os Hubs de Eventos capturam e transmitem grandes volumes de dados de várias fontes para habilitar a análise em tempo real e o processamento controlado por eventos.

  • Hub IoT é um serviço gerenciado que melhora a segurança e a comunicação confiável entre dispositivos IoT (Internet das Coisas) e a nuvem. Nessa arquitetura, o Hub IoT facilita a ingestão, o processamento e a análise de dados de telemetria de dispositivos IoT para fornecer insights em tempo real e habilitar o monitoramento remoto.

  • Microsoft Dataverse é uma plataforma de dados escalonável que as organizações podem usar para ajudar a armazenar e gerenciar com segurança os dados que os aplicativos empresariais usam. Nessa arquitetura, ela serve como uma fonte de dados que alimenta o pipeline de análise por meio do Azure Link do Synapse ou do Microsoft Fabric Link.

    • O Link do Azure Synapse é um recurso de integração de dados que conecta aplicativos Dynamics aos serviços Azure Synapse Analytics ou Data Lake Storage. Nessa arquitetura, ele copia dados quase em tempo real do Dataverse para Data Lake Storage.

    • O Microsoft Fabric Link é um recurso de integração de dados que conecta aplicativos dynamics ao Fabric. Nessa arquitetura, ele replica dados do Dataverse para Fabric quase em tempo real.

  • O Azure Databricks é uma plataforma de análise baseada no Apache Spark para processamento de Big Data, machine learning e engenharia de dados. Nessa arquitetura, ela executa a limpeza de dados, a transformação e a análise usando camadas de arquitetura de medalhão.

    • O Delta Lake é uma camada de armazenamento de código aberto que oferece transações ACID (atomicidade, consistência, isolamento e durabilidade) para o Spark e cargas de trabalho de big data. Nessa arquitetura, o Delta Lake aprimora a confiabilidade e o desempenho dos dados dentro do data lake.

    • O SQL do Azure Databricks é um serviço de análise baseado em SQL que permite que os usuários executem consultas SQL em dados armazenados no Azure Databricks. Nessa arquitetura, o SQL do Azure Databricks fornece uma interface SQL poderosa para consultar e analisar dados, o que permite análise interativa.

    • A IA e o machine learning abrangem uma variedade de tecnologias e serviços que permitem o desenvolvimento, a implantação e o gerenciamento de modelos de machine learning. Nessa arquitetura, os serviços de IA e Machine Learning criam, treinam e implantam modelos preditivos. Essa funcionalidade permite a tomada de decisões controlada por dados.

    • Unity Catalog é uma solução de governança de dados que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em Azure Databricks workspaces. Nessa arquitetura, o Catálogo do Unity ajuda a garantir a governança e a segurança de dados fornecendo controles de acesso refinados, auditoria e acompanhamento de linhagem de dados.

  • A arquitetura do lakehouse Medallion é um padrão de arquitetura de dados que organiza os dados em camadas de bronze, prata e ouro para processamento e análise eficientes de dados. Nessa arquitetura, ele estrutura fluxos de trabalho de processamento de dados usando o Data Lake Storage, o Delta Lake e o Azure Databricks para dar suporte a análises escalonáveis.

  • O Fabric é uma plataforma de dados abrangente que integra vários serviços de dados e ferramentas para fornecer uma experiência perfeita de gerenciamento e análise de dados. Nessa arquitetura, o Fabric conecta e integra dados de várias fontes, o que permite análises e insights de dados abrangentes em toda a organização.

    • Real-Time Intelligence é um recurso de processamento de dados que permite que as organizações ingeram, processem e analisem dados em tempo real. Real-Time Intelligence processa dados de streaming de várias fontes. Nessa arquitetura, ela fornece insights em tempo real e habilita ações automatizadas com base em padrões de dados.

    • Os atalhos do OneLake criam um vínculo direto entre o OneLake e outras fontes de dados. Nessa arquitetura, eles simplificam o acesso e o gerenciamento de dados e fornecem uma exibição unificada dos dados em toda a organização.

    • Fabric Copilot é um assistente de IA integrado em cargas de trabalho Fabric. Ele usa llms (modelos de linguagem grandes) para ajudar os usuários a interagir com os dados usando linguagem natural. Ele simplifica tarefas como gerar SQL, DAX e transformações e cria relatórios ou dashboards. Copilot dá suporte ao contexto de conversação, cria visualizações e ajuda a criar pipelines de análise. Ele ajuda as organizações a acelerar os insights de dados e otimizar os fluxos de trabalho sem exigir conhecimentos profundos de codificação.

    • Um agente de dados do Fabric é um serviço inteligente baseado em LLM no Fabric que as organizações usam para consultar e analisar dados em múltiplas fontes, incluindo lakehouses, warehouses, modelos semânticos, bancos de dados KQL e bancos de dados espelhados, por meio de uma única interface. Ele dá suporte a consultas complexas de várias etapas, aplica lógica personalizada por meio de consultas de exemplo e instruções de agente ou fonte de dados e publica no Microsoft 365 Copilot ou no Teams. Ele fornece aos usuários empresariais acesso seguro e controlado aos dados corporativos em linguagem natural.

  • Power BI é um serviço de análise de negócios que fornece visualizações interativas e recursos de BI (business intelligence). Nessa arquitetura, Power BI visualiza dados de Fabric e Azure Databricks usando o modo Direct Lake para melhorar o desempenho.

  • Microsoft Purview é um serviço unificado de governança de dados que ajuda as organizações a gerenciar e governar seus dados em várias fontes. Nessa arquitetura, ele cataloga dados, rastreia a linhagem e impõe a conformidade em todo o conjunto de dados. Você pode integrar o Catálogo do Unity ao Purview para acessar metadados do Catálogo do Unity do Purview.

  • o Microsoft Entra ID é uma solução de gerenciamento de acesso e identidade baseada em nuvem que ajuda a garantir entradas seguras e acesso a recursos como Microsoft 365, Azure e outros aplicativos SaaS. Nessa arquitetura, a ID do Microsoft Entra fornece gerenciamento seguro de identidade e acesso para recursos do Azure. Esse recurso permite entradas seguras, gerencia identidades de usuário e ajuda a garantir o acesso autorizado a dados e recursos.

  • Cost Management é um conjunto de ferramentas de FinOps que as organizações podem usar para analisar, monitorar e otimizar os custos da Microsoft Cloud. Nessa arquitetura, essas ferramentas fornecem governança financeira sobre os recursos do Azure.

  • key vault é um serviço de nuvem que armazena e gerencia segredos, como chaves de API, senhas, certificados e chaves criptográficas. Nessa arquitetura, o Azure Databricks pode recuperar segredos do Key Vault para autenticar e acessar o Data Lake Storage, o que garante uma integração segura.

  • Azure Monitor é um serviço de monitoramento que fornece observabilidade abrangente para aplicativos, infraestrutura e redes. O Azure Monitor permite que os usuários coletem, analisem e atuem em dados de telemetria de seus ambientes locais e do Azure. Nessa arquitetura, o Azure Monitor garante o desempenho e a confiabilidade identificando proativamente os problemas.

  • Defender para Nuvem é uma plataforma de proteção de aplicativo nativa de nuvem que fornece gerenciamento de postura de segurança e proteção contra ameaças em ambientes Azure, híbridos e multinuvem. Nessa arquitetura, Defender para Nuvem protege as plataformas de dados e cargas de trabalho identificando vulnerabilidades, detectando ameaças e fornecendo recomendações de segurança entre Azure recursos.

  • Azure DevOps é um conjunto de ferramentas de desenvolvimento que dão suporte a uma cultura colaborativa e processos simplificados. Essas ferramentas permitem que desenvolvedores, gerentes de projetos e colaboradores desenvolvam software com mais eficiência. O Azure DevOps fornece recursos integrados, como Azure Boards, Azure Repos, Azure Pipelines, Planos de Teste do Azure e Artefatos do Azure. Você pode acessar esses recursos por meio de um navegador da Web ou de um cliente de ambiente de desenvolvimento integrado. Nessa arquitetura, o Azure DevOps dá suporte à implantação automatizada e ao controle de versão para pipelines de dados e notebooks.

  • o GitHub é um serviço de hospedagem de repositório Git baseado em nuvem que simplifica o controle de versão e a colaboração para desenvolvedores. Indivíduos e equipes podem armazenar e gerenciar seu código, acompanhar alterações e colaborar em projetos. Nessa arquitetura, GitHub integra-se ao Azure DevOps para impor a automação e a conformidade em fluxos de trabalho de desenvolvimento e pipelines de implantação para Data Factory, Azure Databricks e Fabric.

Alternativas

Alternativas de serviço dentro dessa arquitetura

  • Ingestão em lote

  • Ingestão do Microsoft Dynamics 365

  • Ingestão de dados de streaming

    • A decisão entre IoT do Azure e Hubs de Eventos depende da origem dos dados de streaming, se você precisa de clonagem e comunicação bidirecional com os dispositivos de relatório e os protocolos necessários. Para obter mais informações, consulte Comparar Hub IoT e Hubs de Eventos.
  • Lakehouse

    • Uma Fabric lakehouse é uma plataforma de arquitetura de dados unificada para gerenciar e analisar dados estruturados e não estruturados em um formato aberto que usa principalmente arquivos Delta Parquet. Ele dá suporte a dois tipos de armazenamento. Esses tipos de armazenamento são tabelas gerenciadas como CSV, Parquet ou Delta e arquivos não gerenciados. As tabelas gerenciadas são reconhecidas automaticamente. Arquivos não gerenciados exigem a criação explícita da tabela. A plataforma permite transformações de dados por meio de endpoints Spark ou SQL e integra-se a outros componentes do Fabric. Essa integração permite o compartilhamento de dados sem duplicação. Esse conceito se alinha à arquitetura de medalhão comum usada em cargas de trabalho analíticas. Para obter mais informações, consulte Lakehouse in Fabric.
  • Análise em tempo real

    • Azure Databricks

      • Se você tiver uma solução de Azure Databricks existente, convém continuar a usar o streaming estruturado do Spark para análise em tempo real. Para obter mais informações, consulte Streaming no Azure Databricks.
    • Tecido

      • Se você usou anteriormente outros serviços de Azure para análise em tempo real ou não tiver nenhuma solução de análise em tempo real existente, consulte A inteligência em tempo real versus soluções de streaming Azure.

      • O streaming estruturado do Fabric usa o streaming estruturado do Spark para processar e ingerir fluxos de dados em tempo real como tabelas às quais novos dados são acrescentados continuamente. O streaming estruturado dá suporte a várias fontes de arquivo, como CSV, JSON, ORC, Parquet e serviços de mensagens, como Kafka e Hubs de Eventos. Essa abordagem garante o processamento de fluxo escalonável e tolerante a falhas, o que otimiza ambientes de produção de alta taxa de transferência. Para obter mais informações, consulte Os dados são transmitidos para uma lakehouse com o Spark.

  • Engenharia de dados

  • Data warehouse ou camada de ouro

    • Você pode usar o Fabric ou o Azure Databricks para criar um warehouse baseado em SQL ou uma camada de ouro. Para obter um guia de decisão sobre como escolher uma solução de armazenamento de camada de ouro ou data warehouse em Fabric, consulte Conseque um armazenamento de dados. Para obter mais informações sobre tipos de sql warehouse no Azure Databricks, consulte tipos de sql warehouse.
  • Ciência de Dados

    • Use o Fabric ou o Azure Databricks para recursos de ciência de dados. Para obter mais informações sobre a oferta de Ciência de Dados Fabric, consulte Data Science no Fabric. Para obter mais informações sobre a oferta de Azure Databricks, consulte AI e machine learning no Azure Databricks.

    • A Ciência de Dados do Fabric difere do Machine Learning. O Machine Learning fornece uma solução abrangente para gerenciar fluxos de trabalho e implantar modelos de machine learning. A Ciência de Dados do Fabric é adaptada a um cenário de análise e relatório.

  • Power BI

    • Azure Databricks integrado ao Power BI habilita o processamento e a visualização de dados. Para obter mais informações, consulte Conectar o Power BI ao Azure Databricks.

    • Ao espelhar o Unity Catalog do Azure Databricks no Fabric, você pode acessar dados que o Unity Catalog do Azure Databricks gerencia diretamente na carga de trabalho do Fabric. Para obter mais informações, consulte Mirror Azure Databricks Unity Catalog. Você pode consultar esses dados Power BI no modo Direct Lake sem copiar os dados para o serviço do Power BI.

Detalhes do cenário

Os SMBs que têm um ambiente Azure Databricks existente e, opcionalmente, uma arquitetura lakehouse, podem se beneficiar desse padrão. Atualmente, eles usam uma ferramenta de ETL do Azure, como o Data Factory, e disponibilizam relatórios no Power BI. No entanto, eles também podem ter várias fontes de dados que usam diferentes formatos de dados proprietários no mesmo data lake, o que leva à duplicação de dados e a preocupações de bloqueio do fornecedor. Essa situação pode complicar o gerenciamento de dados e aumentar a dependência de fornecedores específicos. Eles também podem exigir relatórios atualizados e quase em tempo real para a tomada de decisões e querer adotar ferramentas de IA em todo o seu ambiente.

O Fabric é uma fundação SaaS aberta, unificada e governada que você pode usar para:

  • Centralize dados no OneLake para armazenar, gerenciar e analisar dados em um único local sem preocupações de bloqueio do fornecedor.

  • Inove mais rapidamente com as integrações aos aplicativos do Microsoft 365.

  • Obtenha insights rápidos com os benefícios de Power BI modo Direct Lake.

  • Aproveite Copilot em todas as experiências Fabric.

  • Acelere a análise desenvolvendo modelos de IA em uma única base.

  • Mantenha os dados no lugar sem movimentação, o que reduz o tempo necessário para que os cientistas de dados forneçam valor.

Colaboradores

A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.

Autores principais:

  • Naren Jogendran | Arquiteto de Soluções na Nuvem
  • Bonita Rui | Arquiteto de Soluções na Nuvem

Para ver perfis de LinkedIn não públicos, entre em LinkedIn.

Próximas etapas