Explorar o processamento de dados analíticos

5 minutos

O processamento de dados analíticos normalmente usa sistemas somente leitura (ou read-mostly) que armazenam grandes volumes de dados históricos ou métricas de negócios. A análise pode ser baseada em um instantâneo dos dados em um determinado momento ou em uma série de instantâneos.

Os detalhes específicos de um sistema de processamento analítico podem variar entre as soluções, mas uma arquitetura comum de análise de escala empresarial tem esta aparência:

Diagrama mostrando uma arquitetura de banco de dados analítico com os elementos numerados descritos abaixo.

Os dados operacionais são extraídos, transformados e carregados (ETL) em um data lake para análise ou extraídos e carregados primeiro com transformações aplicadas posteriormente, um padrão chamado ELT que é comum em casas de lago modernas.
Os dados são carregados em um esquema de tabelas – normalmente em um data lakehouse com abstrações tabulares em arquivos no data lake ou em um data warehouse com um mecanismo SQL totalmente relacional.
Os dados no data warehouse podem ser agregados e carregados em um modelo de OLAP (processamento analítico online) – hoje mais comumente chamado de modelo semântico (e historicamente um cubo). Valores numéricos agregados (medidas) de tabelas de fatos são calculados para interseções de dimensões da tabelas de dimensões. Por exemplo, a receita de vendas pode ser totalizada por data, cliente e produto. Power BI modelos semânticos são o exemplo mais comum que você encontrará.
Os dados no data lake, no data warehouse e no modelo analítico podem ser consultados para produzir relatórios, visualizações e painéis.

Lagos de dados são comuns em cenários de análise de dados em grande escala, nos quais um grande volume de dados baseados em arquivos precisa ser coletado e analisado.

Data warehouses são uma maneira estabelecida de armazenar dados em um esquema relacional otimizado para operações de leitura – principalmente consultas para dar suporte a relatórios e visualização de dados.

O Data Lakehouses é uma inovação mais recente que combina o armazenamento flexível e escalonável de um data lake com a semântica de consulta relacional de um data warehouse. O esquema de tabela pode exigir alguma desnormalização de dados em uma fonte de dados OLTP (apresentando algumas duplicações para fazer com que as consultas sejam executadas mais rapidamente).

Um modelo OLAP (ou modelo semântico) é um tipo agregado de armazenamento de dados otimizado para cargas de trabalho analíticas. As agregações de dados estão entre dimensões em diferentes níveis, permitindo que você faça drill up/down para exibir agregações em vários níveis hierárquicos; por exemplo, para localizar o total de vendas por região, por cidade ou por um endereço individual. Como os dados são pré-configurados, as consultas para retornar os resumos que ele contém podem ser executadas rapidamente.

Tipos diferentes de usuários podem executar trabalhos de análise de dados em diferentes estágios da arquitetura geral. Por exemplo:

Os cientistas de dados podem trabalhar diretamente com arquivos de dados em um data lake para explorar e modelar os dados.
Os Analistas de Dados podem consultar tabelas diretamente no data warehouse para produzir relatórios e visualizações complexos.
Os usuários empresariais podem consumir dados pré-configurados em um modelo analítico na forma de relatórios ou dashboards.

Plataformas de análise modernas

Azure fornece vários serviços gerenciados que abrangem o pipeline de análise completa, desde a ingestão de dados brutos até relatórios interativos. Duas plataformas "all-in-one" reúnem a maioria desses recursos em um único workspace. Microsoft Fabric e Azure Databricks são essas duas plataformas; um terceiro serviço, Microsoft Purview, se concentra na governança de dados em todas as suas fontes. Você ainda não precisa estar familiarizado com nenhum desses serviços – as descrições a seguir fornecem uma noção de alto nível do que cada um faz.

Microsoft Fabric é uma plataforma de análise saaS (software como serviço) unificada que reúne recursos de armazenamento, engenharia de dados, data warehouse e relatório em um único workspace. Azure Databricks é uma plataforma de análise de nuvem criada para engenharia de dados em larga escala e ciência de dados, usando Delta Lake— Parquet, além de um log de transações que permite o controle de versão e transações ACID— como seu formato de armazenamento padrão. Microsoft Purview fornece segurança de dados unificada, governança e conformidade, ajudando você a descobrir, classificar, proteger e gerenciar dados em todas as suas fontes de dados.

Diagrama mostrando plataformas de análise modernas Microsoft Fabric, Azure Databricks e Microsoft Purview.

Organização de dados com a arquitetura de medalhão

Um padrão comum para organizar dados em um lakehouse é a arquitetura de medalhão, que usa três camadas:

Bronze: dados brutos ingeridos dos sistemas de origem, como são, sem qualquer transformação, preservando os registros originais para reprocessamento.
Prata: dados limpos e em conformidade, com duplicatas removidas e tipos de dados padronizados.
Ouro: dados agregados e prontos para negócios modelados para casos específicos de uso de relatórios e análises.

Diagrama mostrando uma arquitetura de medalhão.

As equipes usam esse padrão porque ele cria limites claros de qualidade em cada camada e você sempre pode reprocessar dados dos registros Bronze originais se os requisitos forem alterados.

Tanto o Fabric quanto o Databricks incluem experiências Copilot que permitem explorar dados usando linguagem natural.

Comentários

Esta página foi útil?