Conceitos de Mineração de Dados

Aplica-se a: SQL Server 2019 e anteriores Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte Compatibilidade com versões anteriores do Analysis Services.

A mineração de dados é o processo de descobrir informação acionável a partir de grandes conjuntos de dados. A mineração de dados utiliza análise matemática para derivar padrões e tendências existentes nos dados. Normalmente, estes padrões não podem ser descobertos pela exploração tradicional de dados porque as relações são demasiado complexas ou porque há dados a mais.

Estes padrões e tendências podem ser recolhidos e definidos como um modelo de mineração de dados. Os modelos de mineração podem ser aplicados a cenários específicos, tais como:

  • Previsão: Estimar vendas, prever cargas de servidores ou tempos de inatividade

  • Risco e probabilidade: Escolher os melhores clientes para envios direcionados, determinar o provável ponto de equilíbrio para cenários de risco, atribuir probabilidades a diagnósticos ou outros resultados

  • Recomendações: Determinar quais os produtos que provavelmente serão vendidos em conjunto, gerar recomendações

  • Encontrar sequências: Analisar as seleções dos clientes num carrinho de compras, prevendo os próximos eventos prováveis

  • Agrupamento: Separar clientes ou eventos em agrupamentos de itens relacionados, analisar e prever afinidades

Construir um modelo de mineração faz parte de um processo maior que inclui desde fazer perguntas sobre os dados e criar um modelo para responder a essas questões, até implementar o modelo num ambiente de trabalho. Este processo pode ser definido utilizando os seguintes seis passos básicos:

  1. Definição do Problema

  2. Preparação de Dados

  3. Explorando Dados

  4. Modelos de Construção

  5. Explorar e Validar Modelos

  6. Implementação e Atualização de Modelos

O diagrama seguinte descreve as relações entre cada etapa do processo e as tecnologias no Microsoft SQL Server que pode usar para completar cada etapa.

Etapas-chave no processo de mineração de dados

O processo ilustrado no diagrama é cíclico, o que significa que criar um modelo de mineração de dados é um processo dinâmico e iterativo. Depois de explorar os dados, pode descobrir que são insuficientes para criar os modelos de mineração adequados e, por isso, terá de procurar mais dados. Alternativamente, pode construir vários modelos e depois perceber que os modelos não respondem adequadamente ao problema que definiu, e que, por isso, deve redefinir o problema. Pode ser necessário atualizar os modelos depois de implementados porque mais dados ficaram disponíveis. Cada etapa do processo pode precisar de ser repetida várias vezes para criar um bom modelo.

O Microsoft SQL Server Data Mining oferece um ambiente integrado para criar e trabalhar com modelos de mineração de dados. Este ambiente inclui o SQL Server Development Studio, que contém algoritmos de mineração de dados e ferramentas de consulta que facilitam a construção de uma solução abrangente para uma variedade de projetos, e o SQL Server Management Studio, que contém ferramentas para navegar em modelos e gerir objetos de mineração de dados. Para mais informações, consulte Criação de Modelos Multidimensionais Usando Ferramentas de Dados SQL Server (SSDT).

Para um exemplo de como as ferramentas SQL Server podem ser aplicadas a um cenário empresarial, consulte o Tutorial Básico de Mineração de Dados.

Definição do Problema

O primeiro passo no processo de mineração de dados, como destacado no diagrama seguinte, é definir claramente o problema e considerar formas como os dados podem ser utilizados para fornecer uma resposta ao problema.

Mineração de dados: o primeiro passo é definir o problema

Esta etapa inclui a análise dos requisitos de negócio, a definição do âmbito do problema, a definição das métricas pelas quais o modelo será avaliado e a definição de objetivos específicos para o projeto de mineração de dados. Estas tarefas traduzem-se em perguntas como as seguintes:

  • Do que andas à procura? Que tipos de relações estás a tentar encontrar?

  • O problema que está a tentar resolver reflete as políticas ou processos do negócio?

  • Quer fazer previsões a partir do modelo de mineração de dados ou apenas procurar padrões e associações interessantes?

  • Que resultado ou atributo queres tentar prever?

  • Que tipo de dados tem e que tipo de informação está em cada coluna? Se houver várias tabelas, como é que as tabelas estão relacionadas? Precisa de realizar alguma limpeza, agregação ou processamento para tornar os dados utilizáveis?

  • Como é que os dados são distribuídos? Os dados são sazonais? Os dados representam com precisão os processos do negócio?

Para responder a estas questões, poderá ser necessário realizar um estudo de disponibilidade de dados, para investigar as necessidades dos utilizadores empresariais relativamente aos dados disponíveis. Se os dados não suportarem as necessidades dos utilizadores, poderá ter de redefinir o projeto.

Também deve considerar as formas como os resultados do modelo podem ser incorporados em indicadores-chave de desempenho (KPI) usados para medir o progresso do negócio.

Preparação de Dados

O segundo passo no processo de mineração de dados, como destacado no diagrama seguinte, é consolidar e limpar os dados identificados na etapa Definir o Problema .

Mineração de dados segundo passo: preparação de dados

Os dados podem ser dispersos por toda a empresa e armazenados em diferentes formatos, ou podem conter inconsistências como entradas incorretas ou em falta. Por exemplo, os dados podem mostrar que um cliente comprou um produto antes de este ser lançado no mercado, ou que o cliente faz compras regularmente numa loja situada a 2.000 milhas da sua casa.

A limpeza de dados não se resume apenas a remover dados errados ou a interpolar valores em falta, mas também a encontrar correlações ocultas nos dados, identificar as fontes de dados mais precisas e determinar quais as colunas mais apropriadas para análise de dados. Por exemplo, deve usar a data de envio ou a data da encomenda? O melhor influenciador de vendas é a quantidade, o preço total ou um preço com desconto? Dados incompletos, dados errados e entradas que parecem separadas mas que na verdade estão fortemente correlacionadas podem influenciar os resultados do modelo de formas inesperadas.

Por isso, antes de começar a construir modelos de mineração, deve identificar estes problemas e determinar como os irá corrigir. Para mineração de dados, normalmente trabalha com um conjunto de dados muito grande e não se pode analisar cada transação quanto à qualidade dos dados; por isso, pode ser necessário utilizar algum tipo de ferramenta de perfilagem de dados e de limpeza e filtragem automatizada de dados, como as fornecidas nos Integration Services, Microsoft SQL Server 2012 Master Data Services ou SQL Server Data Quality Services, para explorar os dados e encontrar as inconsistências. Para obter mais informações, veja estes recursos:

É importante notar que os dados que utiliza para mineração de dados não precisam de ser armazenados num cubo de Processamento Analítico Online (OLAP), nem sequer numa base de dados relacional, embora possa usar ambos como fontes de dados. Pode realizar mineração de dados usando qualquer fonte de dados que tenha sido definida como uma fonte de dados do SQL Server Analysis Services. Estes podem incluir ficheiros de texto, livros Excel ou dados de outros fornecedores externos. Para mais informações, consulte Fontes de Dados Suportadas (SSAS - Multidimensional).

Explorando Dados

O terceiro passo no processo de mineração de dados, como destacado no diagrama seguinte, é explorar os dados preparados.

Mineração de dados terceiro passo: exploração de dados

Deve compreender os dados para tomar decisões adequadas ao criar os modelos de mineração. As técnicas de exploração incluem o cálculo dos valores mínimos e máximos, o cálculo da média e dos desvios padrão, e a análise da distribuição dos dados. Por exemplo, pode determinar, ao rever os valores máximo, mínimo e médio, que os dados não representam os seus clientes ou processos de negócio, e que, por isso, deve obter dados mais equilibrados ou rever as suposições que fundamentam as suas expectativas. Desvios padrão e outros valores de distribuição podem fornecer informações úteis sobre a estabilidade e precisão dos resultados. Um grande desvio padrão pode indicar que adicionar mais dados pode ajudar a melhorar o modelo. Dados que se desviam fortemente de uma distribuição padrão podem estar enviesados, ou representar uma imagem precisa de um problema da vida real, mas dificultar o ajuste de um modelo aos dados.

Ao explorar os dados à luz da sua própria compreensão do problema empresarial, pode decidir se o conjunto de dados contém dados falhos e, assim, pode elaborar uma estratégia para resolver os problemas ou obter uma compreensão mais profunda dos comportamentos típicos do seu negócio.

Pode usar ferramentas como os Serviços de Dados Mestres para analisar as fontes de dados disponíveis e determinar a sua disponibilidade para mineração de dados. Pode usar ferramentas como o SQL Server Data Quality Services, ou o Data Profiler nos Serviços de Integração, para analisar a distribuição dos seus dados e corrigir problemas como dados incorretos ou em falta.

Depois de definir as suas fontes, combina-as numa vista de Fonte de Dados usando o Data Source View Designer nas Ferramentas de Dados do SQL Server. Para mais informações, consulte Vistas de Fonte de Dados em Modelos Multidimensionais. Este designer também inclui várias ferramentas que pode usar para explorar os dados e verificar se funcionam para criar um modelo. Para mais informações, consulte Explorar Dados numa Vista de Fonte de Dados (Serviços de Análise).

Note que, ao criar um modelo, o SQL Server Analysis Services cria automaticamente resumos estatísticos dos dados contidos no modelo, que pode consultar para usar em relatórios ou análises adicionais. Para mais informações, consulte Consultas de Mineração de Dados.

Modelos de Construção

O quarto passo no processo de mineração de dados, como destacado no diagrama seguinte, é construir o modelo ou modelos de mineração. Irá usar o conhecimento adquirido na etapa Explorar Dados para ajudar a definir e criar os modelos.

Mineração de dados quarto passo: construção de modelos de mineração

Defines as colunas de dados que queres usar criando uma estrutura de mineração. A estrutura de mineração está ligada à fonte dos dados, mas na verdade não contém dados até que os processe. Quando processa a estrutura de mineração, o SQL Server Analysis Services gera agregados e outras informações estatísticas que podem ser usadas para análise. Esta informação pode ser usada por qualquer modelo de mineração baseado na estrutura. Para mais informações sobre como as estruturas de mineração estão relacionadas com modelos de mineração, consulte Arquitetura Lógica (Serviços de Análise - Mineração de Dados).

Antes de a estrutura e o modelo serem processados, um modelo de mineração de dados também é apenas um contentor que especifica as colunas usadas para entrada, o atributo que está a prever e os parâmetros que indicam ao algoritmo como processar os dados. O processamento de um modelo é frequentemente chamado de treino. Treino refere-se ao processo de aplicar um algoritmo matemático específico aos dados na estrutura para extrair padrões. Os padrões que encontra no processo de treino dependem da seleção dos dados de treino, do algoritmo que escolheu e de como o configurou. O SQL Server 2017 contém muitos algoritmos diferentes, cada um adequado a um tipo distinto de tarefa, e cada um criando um modelo distinto. Para uma lista dos algoritmos fornecidos no SQL Server 2017, veja Algoritmos de Mineração de Dados (Serviços de Análise - Mineração de Dados).

Também pode usar parâmetros para ajustar cada algoritmo, e pode aplicar filtros aos dados de treino para usar apenas um subconjunto dos dados, criando resultados diferentes. Depois de passar os dados pelo modelo, o objeto do modelo de mineração contém resumos e padrões que podem ser consultados ou usados para previsão.

Pode definir um novo modelo usando o Assistente de Mineração de Dados no SQL Server Data Tools, ou utilizando a linguagem de Extensões de Mineração de Dados (DMX). Para mais informações sobre como usar o Data Mining Wizard, consulte Data Mining Wizard (Serviços de Análise - Data Mining). Para mais informações sobre como usar DMX, consulte Referência às Extensões de Mineração de Dados (DMX).

É importante lembrar que, sempre que os dados mudam, deve atualizar tanto a estrutura de mineração como o modelo de mineração. Quando atualiza uma estrutura de mineração ao reprocessá-la, o SQL Server Analysis Services recupera dados da fonte, incluindo quaisquer dados novos se a fonte for atualizada dinamicamente, e repovoa a estrutura de mineração. Se tiver modelos baseados na estrutura, pode optar por atualizar os modelos baseados na estrutura, o que significa que são retreinados com os novos dados, ou pode deixar os modelos como estão. Para mais informações, consulte Requisitos e Considerações de Processamento (Mineração de Dados).

Explorar e Validar Modelos

O quinto passo no processo de mineração de dados, como destacado no diagrama seguinte, é explorar os modelos de mineração que construiu e testar a sua eficácia.

Mineração de dados quinta etapa: validação de modelos de mineração

Antes de implementar um modelo num ambiente de produção, vai querer testar o desempenho do modelo. Além disso, quando constróis um modelo, normalmente crias múltiplos modelos com diferentes configurações e testas todos os modelos para ver qual produz os melhores resultados para o teu problema e para os teus dados.

O SQL Server Analysis Services fornece ferramentas que o ajudam a separar os seus dados em conjuntos de dados de treino e teste, para que possa avaliar com precisão o desempenho de todos os modelos nos mesmos dados. Utiliza-se o conjunto de dados de treino para construir o modelo e o conjunto de dados de testes para testar a precisão do modelo, criando consultas de previsão. Esta partição pode ser feita automaticamente durante a construção do modelo de mineração. Para mais informações, consulte Testes e Validação (Mineração de Dados).

Pode explorar as tendências e padrões que os algoritmos descobrem usando os visualizadores no Data Mining Designer em SQL Server Data Tools. Para mais informações, consulte Visualizadores de Modelos de Mineração de Dados. Também pode testar quão bem os modelos criam previsões usando ferramentas do designer, como o gráfico de elevação e a matriz de classificação. Para verificar se o modelo é específico para os seus dados, ou pode ser usado para fazer inferências sobre a população geral, pode usar a técnica estatística chamada cross-validation para criar automaticamente subconjuntos dos dados e testar o modelo contra cada subconjunto. Para mais informações, consulte Testes e Validação (Mineração de Dados).

Se nenhum dos modelos que criou na etapa Building Models funcionar bem, poderá ter de regressar a uma etapa anterior do processo e redefinir o problema ou reinvestigar os dados no conjunto de dados original.

Implementação e Atualização de Modelos

O último passo no processo de mineração de dados, como destacado no diagrama seguinte, é implementar os modelos que tiveram melhor desempenho num ambiente de produção.

Sexta etapa da mineração de dados: implementação de modelos de mineração

Depois de existirem os modelos de mineração num ambiente de produção, podes realizar muitas tarefas, dependendo das tuas necessidades. Seguem-se algumas das tarefas que pode realizar:

  • Use os modelos para criar previsões, que depois pode usar para tomar decisões empresariais. O SQL Server fornece a linguagem DMX que pode usar para criar consultas de previsão, e o Prediction Query Builder para ajudar a construir as consultas. Para mais informações, consulte Referência às Extensões de Mineração de Dados (DMX).

  • Crie consultas de conteúdo para recuperar estatísticas, regras ou fórmulas do modelo. Para mais informações, consulte Consultas de Mineração de Dados.

  • Incorpore funcionalidades de mineração de dados diretamente numa aplicação. Pode incluir Objetos de Gestão de Análise (AMO), que contém um conjunto de objetos que a sua aplicação pode usar para criar, alterar, processar e eliminar estruturas e modelos de mineração. Em alternativa, pode enviar mensagens XML para Análise (XMLA) diretamente para uma instância do SQL Server Analysis Services. Para mais informações, consulte Desenvolvimento (Serviços de Análise - Mineração de Dados).

  • Use os Serviços de Integração para criar um pacote em que um modelo de mineração é usado para separar inteligentemente os dados recebidos em múltiplas tabelas. Por exemplo, se uma base de dados for continuamente atualizada com potenciais clientes, pode usar um modelo de mineração juntamente com os Serviços de Integração para dividir os dados recebidos em clientes que provavelmente vão comprar um produto e clientes que provavelmente não o comprarão. Para mais informações, consulte Usos Típicos dos Serviços de Integração.

  • Crie um relatório que permita aos utilizadores consultar diretamente um modelo de mineração existente. Para mais informações, consulte Serviços de Relatórios nas Ferramentas de Dados SQL Server (SSDT).

  • Atualize os modelos após revisão e análise. Qualquer atualização exige que reprocesse os modelos. Para mais informações, consulte Processamento de Objetos de Mineração de Dados.

  • Atualizar os modelos dinamicamente, à medida que mais dados chegam à organização, e fazer alterações constantes para melhorar a eficácia da solução deve fazer parte da estratégia de implementação. Para mais informações, consulte Gestão de Soluções e Objetos de Mineração de Dados

Ver também

Soluções de Mineração de Dados
Ferramentas de Mineração de Dados