Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Ideias de soluções
Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe com os requisitos específicos da sua carga de trabalho.
Este artigo descreve como as pequenas e médias empresas (PMEs) podem criar uma arquitetura de plataforma de dados moderna combinando investimentos existentes no Azure Databricks com uma plataforma de dados de software como serviço (SaaS) totalmente gerenciada, como o Microsoft Fabric. As plataformas de dados SaaS são soluções de análise de dados de ponta a ponta que se integram com ferramentas como Azure Machine Learning, Foundry Tools, Power Platform, Microsoft Dynamics 365 e outras tecnologias Microsoft.
Arquitetura simplificada
Baixe um arquivo Visio dessa arquitetura.
A interoperabilidade entre o Azure Databricks e o Fabric fornece uma solução robusta que minimiza a fragmentação de dados enquanto aprimora os recursos analíticos.
O Fabric fornece um data lake aberto e controlado, chamado OneLake, como o armazenamento SaaS subjacente. OneLake e Azure Databricks usam ambos o formato Delta Parquet. Para aceder aos seus dados do Azure Databricks a partir do OneLake, pode espelhar o Azure Databricks Unity Catalog no Fabric para integrar dados sem replicação nem movimento de dados. Com esta integração, pode complementar os seus sistemas de análise do Azure Databricks com IA generativa por cima do OneLake.
Também pode usar o modo Direct Lake no Power BI nos seus dados do Azure Databricks no OneLake. O modo Direct Lake simplifica a camada de serviço e melhora o desempenho do relatório. O OneLake dá suporte a APIs para o Armazenamento do Azure Data Lake e armazena todos os dados tabulares no formato Delta Parquet.
Portanto, os notebooks do Azure Databricks podem usar os pontos de extremidade OneLake para aceder aos dados armazenados. A experiência é a mesma que acessar os dados por meio de um armazém do Fabric. Com esta integração, pode usar o Fabric ou o Azure Databricks sem reformular os seus dados.
Arquitetura
Baixe um arquivo Visio dessa arquitetura.
Fluxo de dados
O seguinte fluxo de dados corresponde ao diagrama anterior:
Use os pipelines existentes do Azure Data Factory para ingerir dados estruturados e não estruturados dos sistemas de origem e colocá-los no data lake existente.
Pode usar fontes de dados do Microsoft Dynamics 365 para criar painéis de BI centralizados com base em conjuntos de dados enriquecidos, utilizando o Azure Synapse Link ou o Microsoft Fabric Link. Traga os dados fundidos e processados de volta para o Microsoft Dynamics 365 e o Power BI para análise adicional.
Os dados em streaming podem ser ingeridos através do Hubs de Eventos do Azure ou do Hub IoT do Azure, dependendo dos protocolos que enviam estas mensagens.
Na via fria, pode utilizar o Azure Databricks para encaminhar os dados em fluxo para o data lake centralizado para análise adicional, armazenamento e relatórios. Esses dados podem ser unificados com outras fontes de dados para análise em lote.
No caminho quente, pode analisar dados em tempo real e criar painéis de controlo em tempo real através do Microsoft Fabric Real-Time Intelligence.
Pode usar os notebooks existentes do Azure Databricks para realizar limpeza, unificação e análises de dados. Considere o uso de uma arquitetura em medalhão, como:
- Bronze, que contém dados brutos.
- Prata, que contém dados limpos e filtrados.
- Gold, que armazena dados agregados que são úteis para análise de negócios.
Para dados dourados ou um data warehouse, continue a usar o Azure Databricks SQL ou crie um espelhamento do Azure Databricks Unity Catalog no Fabric. Para permitir relatórios e análises numa casa de lago Fabric, crie explicitamente um modelo semântico e construa dashboards Power BI usando Direct Lake ou DirectQuery para alto desempenho. Para mais informações, veja Modelos semânticos em Fabric.
As seguintes ferramentas são utilizadas para governação, colaboração, segurança, desempenho e monitorização de custos.
Descubra e governe:
O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.
O Unity Catalog fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados nos espaços de trabalho do Azure Databricks.
Recursos da plataforma:
O Microsoft Entra ID fornece login único (SSO) para utilizadores do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com o Microsoft Entra ID para:
- Crie novos usuários.
- Atribua a cada usuário um nível de acesso.
- Remova os utilizadores e negue-lhes o acesso.
O Microsoft Cost Management fornece serviços de governança financeira para cargas de trabalho do Azure.
O Azure Key Vault gerencia segredos, chaves e certificados.
O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Este serviço maximiza o desempenho e a confiabilidade através da identificação proativa de problemas.
O Microsoft Defender para a Cloud fornece gestão de postura de segurança e proteção contra ameaças para recursos e cargas de trabalho do Azure.
O Azure DevOps oferece integração contínua e implementação contínua (CI/CD) e outras funcionalidades integradas de controlo de versões.
O GitHub fornece controlo de versões e capacidades de desenvolvimento colaborativo para gerir código e pipelines de implementação.
Componentes
Data Lake Storage é um serviço de armazenamento de dados escalável projetado para dados estruturados e não estruturados. Nessa arquitetura, o Data Lake Storage serve como a infraestrutura subjacente para o Delta Lake. É a principal camada de armazenamento para dados brutos e processados, o que permite a ingestão, o armazenamento e a recuperação eficientes de dados para cargas de trabalho de análise e aprendizado de máquina.
A Data Factory é um serviço de integração de dados baseado na cloud que orquestra e automatiza a movimentação e transformação de dados. Nesta arquitetura, a Data Factory cria, agenda e orquestra pipelines de dados que movem e transformam dados através de vários armazenamentos e serviços de dados.
O Event Hubs é um serviço de ingestão de dados em tempo real que pode processar milhões de eventos por segundo a partir de qualquer fonte. Nessa arquitetura, os Hubs de Eventos capturam e transmitem grandes volumes de dados de várias fontes para permitir análises em tempo real e processamento orientado a eventos.
Hub IoT é um serviço gerido que melhora a segurança e a comunicação fiável entre dispositivos da Internet das Coisas (IoT) e a cloud. Nessa arquitetura, o Hub IoT facilita a ingestão, o processamento e a análise de dados de telemetria de dispositivos IoT para fornecer insights em tempo real e permitir o monitoramento remoto.
Microsoft Dataverse é uma plataforma de dados escalável que as organizações podem usar para ajudar a armazenar e gerir de forma segura os dados que as aplicações empresariais utilizam. Nessa arquitetura, ele serve como uma fonte de dados que alimenta o pipeline de análise por meio do Azure Synapse Link ou do Microsoft Fabric Link.
O Azure Synapse Link é um recurso de integração de dados que conecta aplicativos Dynamics com o Azure Synapse Analytics ou o Data Lake Storage. Nesta arquitetura, copia dados quase em tempo real do Dataverse para o Data Lake Storage.
O Microsoft Fabric Link é um recurso de integração de dados que conecta aplicativos Dynamics ao Fabric. Nesta arquitetura, replica dados do Dataverse para o Fabric quase em tempo real.
O Azure Databricks é uma plataforma de análise baseada no Apache Spark para processamento de big data, aprendizagem automática e engenharia de dados. Nessa arquitetura, ele executa limpeza, transformação e análise de dados usando camadas de arquitetura medalhão.
Delta Lake é uma camada de armazenamento de código aberto que fornece transações ACID (atomicidade, consistência, isolamento e durabilidade) ao Spark e às cargas de trabalho de big data. Nessa arquitetura, o Delta Lake melhora a confiabilidade e o desempenho dos dados dentro do data lake.
O Azure Databricks SQL é um serviço de análise baseado em SQL que permite aos usuários executar consultas SQL em dados armazenados no Azure Databricks. Nessa arquitetura, o Azure Databricks SQL fornece uma interface SQL poderosa para consultar e analisar dados, o que permite análises interativas.
A IA e o aprendizado de máquina abrangem uma gama de tecnologias e serviços que permitem o desenvolvimento, a implantação e o gerenciamento de modelos de aprendizado de máquina. Nessa arquitetura, os serviços de IA e Machine Learning criam, treinam e implantam modelos preditivos. Esse recurso permite a tomada de decisões baseada em dados.
Unity Catalog é uma solução de governação de dados que fornece controlo centralizado de acessos, auditoria, linhagem e capacidades de descoberta de dados em Azure Databricks espaços de trabalho. Nessa arquitetura, o Unity Catalog ajuda a garantir a governança e a segurança dos dados, fornecendo controles de acesso refinados, auditoria e rastreamento de linhagem de dados.
Medallion lakehouse architecture é um padrão de arquitetura de dados que organiza os dados em camadas de bronze, prata e ouro para processamento e análise de dados eficientes. Nessa arquitetura, ele estrutura fluxos de trabalho de processamento de dados usando o Data Lake Storage, o Delta Lake e o Azure Databricks para dar suporte a análises escaláveis.
O Fabric é uma plataforma de dados abrangente que integra vários serviços e ferramentas de dados para fornecer uma experiência perfeita de gerenciamento e análise de dados. Nessa arquitetura, o Fabric conecta e integra dados de várias fontes, o que permite análises de dados abrangentes e insights em toda a organização.
Real-Time Intelligence é um recurso de processamento de dados que permite às organizações ingerir, processar e analisar dados em tempo real. Real-Time Intelligence processa dados de streaming de várias fontes. Nessa arquitetura, ele fornece insights em tempo real e permite ações automatizadas com base em padrões de dados.
Os atalhos do OneLake criam uma ligação direta entre o OneLake e outras fontes de dados. Nessa arquitetura, eles simplificam o acesso e o gerenciamento de dados e fornecem uma visão unificada dos dados em toda a organização.
Fabric Copilot é um assistente baseado em IA integrado em todas as cargas de trabalho do Fabric. Utiliza grandes modelos de linguagem (LLMs) para ajudar os utilizadores a interagir com dados através da linguagem natural. Simplifica tarefas como gerar SQL, DAX e transformações, e cria relatórios ou dashboards. O Copilot suporta contexto conversacional, cria visualizações e ajuda a construir pipelines de análise. Ajuda as organizações a acelerar insights de dados e otimizar fluxos de trabalho sem exigir conhecimentos profundos de programação.
Um agente de dados Fabric é um serviço inteligente baseado em LLM em Fabric que as organizações utilizam para consultar e analisar dados em múltiplas fontes, incluindo lakehouses, armazéns, modelos semânticos, bases de dados KQL e bases de dados espelhadas, através de uma única interface. Suporta consultas complexas em múltiplos passos, aplica lógica personalizada através de consultas de exemplo e instruções de agentes ou fontes de dados, e publica no Microsoft 365 Copilot ou Teams. Proporciona aos utilizadores empresariais acesso seguro e regulado a dados empresariais em linguagem natural.
Power BI é um serviço de análise de negócios que oferece visualizações interativas e capacidades de inteligência de negócio (BI). Nesta arquitetura, o Power BI visualiza dados do Fabric e do Azure Databricks utilizando o modo Direct Lake para melhorar o desempenho.
Microsoft Purview é um serviço unificado de governança de dados que ajuda as organizações a gerenciar e governar seus dados em várias fontes. Nessa arquitetura, ele cataloga dados, rastreia linhagens e impõe conformidade em todo o conjunto de dados. Você pode integrar o Unity Catalog ao Purview para acessar os metadados do Unity Catalog a partir do Purview.
Microsoft Entra ID é uma solução de gerenciamento de identidade e acesso baseada em nuvem que ajuda a garantir entradas seguras e acesso a recursos como Microsoft 365, Azure e outros aplicativos SaaS. Nessa arquitetura, o Microsoft Entra ID fornece gerenciamento seguro de identidade e acesso para recursos do Azure. Esse recurso permite entradas seguras, gerencia identidades de usuários e ajuda a garantir acesso autorizado a dados e recursos.
Gestão de Custos é um conjunto de ferramentas FinOps que as organizações podem usar para analisar, monitorizar e otimizar custos Microsoft Cloud. Nessa arquitetura, essas ferramentas fornecem governança financeira sobre os recursos do Azure.
Key Vault é um serviço de nuvem que armazena e gerencia segredos, como chaves de API, senhas, certificados e chaves criptográficas. Nessa arquitetura, o Azure Databricks pode recuperar segredos do Cofre da Chave para autenticar e acessar o Armazenamento Data Lake, o que garante uma integração segura.
O Azure Monitor é um serviço de monitoramento que fornece observabilidade de pilha completa para aplicativos, infraestrutura e redes. O Azure Monitor permite que os usuários coletem, analisem e atuem em dados de telemetria de seus ambientes do Azure e locais. Nessa arquitetura, o Azure Monitor garante desempenho e confiabilidade identificando problemas proativamente.
Defender para a Cloud é uma plataforma de proteção de aplicações cloud-native que fornece gestão de postura de segurança e proteção contra ameaças em ambientes Azure, híbridos e multicloud. Nesta arquitetura, o Defender para a Cloud protege plataformas de dados e cargas de trabalho identificando vulnerabilidades, detetando ameaças e fornecendo recomendações de segurança em todos os recursos do Azure.
de DevOps do Azure é um conjunto de ferramentas de desenvolvimento que dão suporte a uma cultura colaborativa e processos simplificados. Essas ferramentas permitem que desenvolvedores, gerentes de projeto e colaboradores desenvolvam software de forma mais eficiente. O Azure DevOps fornece recursos integrados, como Azure Boards, Repositórios do Azure, Azure Pipelines, Planos de Teste do Azure e Artefactos do Azure. Você pode acessar esses recursos por meio de um navegador da Web ou de um cliente de ambiente de desenvolvimento integrado. Nessa arquitetura, o Azure DevOps dá suporte à implantação automatizada e ao controle de versão para pipelines de dados e notebooks.
GitHub é um serviço de hospedagem de repositório Git baseado em nuvem que simplifica o controle de versão e a colaboração para desenvolvedores. Indivíduos e equipes podem armazenar e gerenciar seus códigos, controlar alterações e colaborar em projetos. Nesta arquitetura, o GitHub integra-se com o Azure DevOps para impor automação e conformidade nos fluxos de trabalho de desenvolvimento e pipelines de implementação para Data Factory, Azure Databricks e Fabric.
Alternativas
Para criar um ambiente independente do Fabric, consulte Greenfield lakehouse on Fabric.
Para migrar um ambiente de análise SQL local para Fabric, consulte Modern data warehouses for SMBs.
Alternativas de serviço dentro desta arquitetura
Ingestão em lote
- Opcionalmente, utilize pipelines de dados no Fabric para integração de dados em vez dos pipelines do Data Factory. A escolha depende de vários fatores. Para mais informações, consulte Diferenças entre Azure Data Factory e Fabric Data Factory.
Ingestão do Microsoft Dynamics 365
Se usares o Data Lake Storage como armazenamento do data lake e quiseres ingerir dados do Dataverse, usa Azure Synapse Link para Dataverse com Data Lake Storage. Para aplicações do Dynamics 365 Finance and Operations, consulte Escolher dados de finanças e operações no Azure Synapse Link para Dataverse.
Se usares um Fabric lakehouse como armazenamento do teu data lake, vê Liga o teu ambiente Dataverse ao Fabric.
Ingestão de dados em streaming
- A decisão entre Azure IoT e Event Hubs depende da fonte dos dados em streaming, se precisa de clonagem e comunicação bidirecional com os dispositivos de reporte, e dos protocolos necessários. Para obter mais informações, consulte Comparar o Hub IoT e os Hubs de Eventos.
Casa do Lago
- Uma Fabric lakehouse é uma plataforma unificada de arquitetura de dados para gerir e analisar dados estruturados e não estruturados num formato aberto que utiliza principalmente ficheiros Delta Parquet. Ele suporta dois tipos de armazenamento. Esses tipos de armazenamento são tabelas gerenciadas como CSV, Parquet ou Delta e arquivos não gerenciados. As tabelas gerenciadas são reconhecidas automaticamente. Arquivos não gerenciados exigem a criação explícita de tabelas. A plataforma permite transformações de dados através de endpoints Spark ou SQL e integra-se com outros componentes do Fabric. Esta integração permite a partilha de dados sem duplicação. Este conceito está alinhado com a arquitetura de medalha, que é comumente empregada em cargas de trabalho analíticas. Para obter mais informações, consulte Lakehouse in Fabric.
Análise em tempo real
Azure Databricks
- Se já tem uma solução Azure Databricks, pode querer continuar a usar streaming estruturado Spark para análises em tempo real. Para mais informações, consulte Streaming no Azure Databricks.
Tecido
Se anteriormente utilizou outros serviços de Azure para análises em tempo real ou não tem uma solução de análise em tempo real existente, veja Real-time Intelligence versus Azure soluções de streaming.
O streaming estruturado do Fabric utiliza o streaming estruturado do Spark para processar e assimilar fluxos de dados em direto sob a forma de tabelas às quais são acrescentados dados continuamente. O streaming estruturado suporta várias fontes de arquivos, como CSV, JSON, ORC, Parquet, e serviços de mensagens como Kafka e Hubs de Eventos. Essa abordagem garante um processamento de fluxo escalável e tolerante a falhas, o que otimiza ambientes de produção de alto rendimento. Para mais informações, consulte Transmissão de dados para um lakehouse com o Spark.
Engenharia de dados
- Use Fabric ou Azure Databricks para escrever cadernos Spark. Para mais informações, consulte Utilizar os blocos de notas do Fabric. Para saber como os notebooks do Fabric se comparam ao que o Azure Synapse Spark oferece, consulte Comparar Engenharia de Dados do Fabric e Azure Synapse Spark. Para mais informações sobre Azure Databricks cadernos, consulte Introdução aos cadernos Azure Databricks.
Data warehouse ou camada de ouro
- Você pode usar o Fabric ou o Azure Databricks para criar um depósito baseado em SQL ou uma camada ouro. Para obter um guia de decisão sobre como escolher um armazém de dados ou uma solução de armazenamento da camada gold no Fabric, consulte Escolher um armazenamento de dados. Para obter mais informações sobre tipos de SQL warehouse no Azure Databricks, consulte SQL warehouse types.
Ciência de dados
Use o Fabric ou o Azure Databricks para recursos de ciência de dados. Para mais informações sobre a oferta Fabric Data Science, consulte Data Science em Fabric. Para mais informações sobre a oferta Azure Databricks, consulte AI e aprendizagem automática sobre Azure Databricks.
O Fabric Data Science difere do Machine Learning. O Machine Learning fornece uma solução abrangente para gerenciar fluxos de trabalho e implantar modelos de aprendizado de máquina. O Fabric Data Science é adaptado a um cenário de análise e emissão de relatórios.
Power BI
O Azure Databricks integrado com o Power BI permite o processamento e visualização de dados. Para obter mais informações, consulte conectar o Power BI ao Azure Databricks.
Ao espelhar o Azure Databricks Unity Catalog no Fabric, pode aceder a dados que o Azure Databricks Unity Catalog gere diretamente a partir da carga de trabalho do Fabric. Para mais informações, consulte Mirror Azure Databricks Unity Catalog. Pode consultar estes dados de Power BI em modo Direct Lake sem copiar os dados para o serviço Power BI.
Detalhes do cenário
As PME que têm um ambiente Azure Databricks existente e, opcionalmente, uma arquitetura lakehouse, podem beneficiar deste padrão. Atualmente, utilizam uma ferramenta ETL do Azure, como o Azure Data Factory, e disponibilizam relatórios no Power BI. No entanto, podem também ter múltiplas fontes de dados que utilizam formatos proprietários diferentes no mesmo lago de dados, o que leva a duplicação de dados e preocupações com o bloqueio do fornecedor. Essa situação pode complicar o gerenciamento de dados e aumentar a dependência de fornecedores específicos. Também podem necessitar de relatórios atualizados e quase em tempo real para a tomada de decisões e querer adotar ferramentas de IA em todo o seu ambiente.
O Fabric é uma base SaaS aberta, unificada e governada que você pode usar para:
Centralize os dados no OneLake para armazenar, gerir e analisar os dados num único local, sem preocupações com a dependência de fornecedor.
Inove mais rapidamente com integrações a aplicações Microsoft 365.
Obtenha insights rápidos com os benefícios do modo Power BI Direct Lake.
Beneficie do Copilot em todas as experiências Fabric.
Acelere a análise desenvolvendo modelos de IA em uma única base.
Mantenha os dados no lugar sem movimento, o que reduz o tempo que os cientistas de dados precisam para fornecer valor.
Contribuidores
A Microsoft mantém este artigo. Os seguintes colaboradores escreveram este artigo.
Principais autores:
- Naren Jogendran | Arquiteto de Soluções Cloud
- Bonita Rui | Arquiteto de Soluções em Nuvem
Para ver perfis não públicos do LinkedIn, faça login no LinkedIn.
Próximos passos
- Caminhos de aprendizagem para engenheiros de dados
- Fabric - Comece com Microsoft Learn
- Fabric - módulos do Microsoft Learn
- Criar uma conta de armazenamento para o Data Lake Storage
- Event Hubs quickstart - Crie um hub de eventos usando o portal Azure
- O que é a arquitetura Medallion Lakehouse?
- O que é uma casa de lago em Fabric?