Compreender armazéns de dados
Um data warehouse é um repositório centralizado e estruturado projetado para consultas analíticas e relatórios. Ao contrário dos bancos de dados operacionais que lidam com transações comerciais diárias, um data warehouse consolida dados de várias fontes em um formato otimizado para análise.
A criação de uma data warehouse moderna normalmente envolve:
- Ingestão de dados – movendo dados de sistemas de origem para o warehouse.
- Data storage – armazenando os dados em um formato otimizado para análise.
- Processamento de dados – transformando os dados em um formato pronto para consumo por ferramentas analíticas.
- Análise e entrega de dados – Analisando os dados para obter insights e entregá-los para a empresa.
Criar um data warehouse
Os data warehouses contêm tabelas organizadas em um esquema otimizado para modelagem multidimensional. Nessa abordagem, você agrupa dados numéricos relacionados a eventos por atributos diferentes. Por exemplo, é possível analisar o valor total pago por ordens de vendas ocorridas em uma data específica ou em uma determinada loja.
Tabelas em um data warehouse
Você organiza tabelas de data warehouse para suportar a análise eficiente de grandes quantidades de dados. Essa organização, conhecida como modelagem dimensional, envolve estruturar tabelas em tabelas de fatos e tabelas de dimensão.
As tabelas de fatos contêm os dados numéricos que você deseja analisar. Essas tabelas geralmente têm um grande número de linhas e são a principal fonte de dados para análise. Por exemplo, uma tabela de fatos pode conter o valor total pago por ordens de vendas que ocorreram em uma data específica ou em uma loja específica.
As tabelas de dimensão contêm informações descritivas sobre os dados nas tabelas de fatos. As tabelas de dimensão normalmente têm algumas linhas e fornecem contexto para os dados nas tabelas de fatos. Por exemplo, uma tabela de dimensões pode conter informações sobre os clientes que fizeram ordens de vendas.
Além das colunas de atributos, uma tabela de dimensões contém uma coluna de chave exclusiva que identifica exclusivamente cada linha na tabela. Na verdade, é comum que uma tabela de dimensões inclua duas colunas de chave:
- Uma chave substituta é um identificador exclusivo para cada linha na tabela de dimensões. Geralmente, é um valor inteiro que o sistema de gerenciamento de banco de dados gera automaticamente quando você insere uma nova linha.
- Uma chave alternativa geralmente é uma chave natural ou comercial que identifica uma instância específica de uma entidade no sistema de origem transacional , como um código do produto ou uma ID do cliente.
Você precisa de chaves alternativas e substitutas em uma data warehouse, pois elas servem a diferentes finalidades. As chaves substitutas são específicas para o data warehouse e ajudam a manter a consistência e a precisão. Chaves alternativas são específicas para o sistema de origem e ajudam a manter a rastreabilidade entre o data warehouse e o sistema de origem.
Tipos especiais de tabelas de dimensões
Tipos especiais de dimensões fornecem contexto adicional e permitem uma análise de dados mais abrangente.
As dimensões de tempo fornecem informações sobre o período em que ocorreu um evento. Essa tabela permite que analistas de dados agreguem dados em intervalos temporais. Por exemplo, uma dimensão de tempo pode incluir colunas para o ano, trimestre, mês e dia de um pedido de vendas.
As dimensões de alteração lenta acompanham as alterações nos atributos de dimensão ao longo do tempo, como alterações no endereço de um cliente ou no preço de um produto. Elas são significativas em uma data warehouse porque permitem que você analise e entenda as alterações nos dados ao longo do tempo. Dimensões lentamente mutáveis garantem que os dados permaneçam atualizados e precisos, o que é importante para tomar boas decisões de negócios.
projetos de esquemas de data warehouse
Na maioria dos bancos de dados transacionais usados em aplicativos de negócios, os dados são normalizados para reduzir a duplicação. Em um data warehouse no entanto, os dados de dimensão são desnormalizados* para reduzir o número de junções necessárias para consultar os dados.
Geralmente, um data warehouse usa um esquema star, no qual uma tabela de fatos se relaciona diretamente com as tabelas de dimensão, conforme mostrado neste exemplo:
Você pode usar atributos de dimensão para agrupar números de tabela de fatos em diferentes níveis. Por exemplo, é possível encontrar a receita total de vendas para toda uma região ou somente para um cliente. Você pode armazenar as informações para cada nível na mesma tabela de dimensão.
Dica
Veja o que é um esquema de estrela? Para obter mais informações sobre como criar esquemas de estrela para o Fabric.
Se houver muitos níveis ou atributos compartilhados por coisas diferentes, talvez faça sentido usar um esquema floco de neve . Aqui está um exemplo:
Nesse caso, a tabela DimProduct se divide (normaliza) em tabelas de dimensão separadas para categorias de produtos e fornecedores.
- Cada linha na tabela DimProduct contém valores-chave para as linhas correspondentes nas tabelas DimCategory e DimSupplier.
Uma tabela DimGeography contém informações sobre onde os clientes e lojas estão localizados.
- Cada linha nas tabelas DimCustomer e DimStore contém um valor de chave para a linha correspondente na tabela DimGeography .