Algoritmo de Naive Bayes da Microsoft

Aplica-se a: SQL Server 2019 e anteriores Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte Compatibilidade com versões anteriores do Analysis Services.

O algoritmo de Naive Bayes da Microsoft é um algoritmo de classificação baseado nos teoremas de Bayes, podendo ser utilizado tanto para modelação exploratória como preditiva. A palavra ingénuo no nome Naïve Bayes deriva do facto de o algoritmo usar técnicas bayesianas mas não ter em conta dependências que possam existir.

Este algoritmo é menos computacionalmente intenso do que outros algoritmos da Microsoft e, por isso, é útil para gerar rapidamente modelos de mineração e descobrir relações entre colunas de entrada e colunas previsíveis. Pode usar este algoritmo para fazer a exploração inicial dos dados e, mais tarde, aplicar os resultados para criar modelos adicionais de mineração com outros algoritmos que sejam mais computacionalmente intensos e mais precisos.

Example

Como estratégia promocional contínua, o departamento de marketing da empresa Adventure Works Cycle decidiu direcionar potenciais clientes enviando panfletos por correio. Para reduzir custos, querem enviar panfletos apenas aos clientes que provavelmente responderão. A empresa armazena informações numa base de dados sobre demografia e respostas a uma correspondência anterior. Querem usar estes dados para ver como demografias como a idade e a localização podem ajudar a prever a resposta a uma promoção, comparando potenciais clientes com clientes que têm características semelhantes e que já compraram à empresa no passado. Especificamente, querem ver as diferenças entre os clientes que compraram uma bicicleta e os que não compraram.

Ao utilizar o algoritmo Microsoft Naive Bayes, o departamento de marketing pode prever rapidamente um resultado para um determinado perfil de cliente e, assim, determinar quais os clientes mais propensos a responder aos panfletos. Ao utilizar o Microsoft Naive Bayes Viewer nas Ferramentas de Dados SQL Server, também podem investigar visualmente especificamente quais as colunas de entrada que contribuem para respostas positivas aos panfletos.

Como Funciona o Algoritmo

O algoritmo Naive Bayes da Microsoft calcula a probabilidade de cada estado de cada coluna de entrada, dado cada estado possível da coluna previsível.

Para perceber como isto funciona, use o Microsoft Naive Bayes Viewer nas Ferramentas de Dados SQL Server (como mostrado no gráfico seguinte) para explorar visualmente como o algoritmo distribui os estados.

Distribuição Naive Bayes dos estados

Aqui, o Microsoft Naive Bayes Viewer lista cada coluna de entrada no conjunto de dados e mostra como os estados de cada coluna são distribuídos, dado cada estado da coluna previsível.

Usaria esta vista do modelo para identificar as colunas de entrada que são importantes para diferenciar os estados da coluna previsível.

Por exemplo, na linha para Distância de Deslocação mostrada aqui, a distribuição dos valores de entrada é visivelmente diferente para compradores vs. não compradores. Isto diz que a entrada, Distância de Deslocamento = 0-1 milhas, é um preditor potencial.

O visualizador também fornece valores para as distribuições, por isso pode ver que, para clientes que fazem uma a duas milhas de deslocação para o trabalho, a probabilidade de comprarem uma bicicleta é 0,387, e a probabilidade de não comprarem bicicleta é 0,287. Neste exemplo, o algoritmo utiliza a informação numérica, derivada das características do cliente (como a distância de deslocação), para prever se um cliente irá comprar uma bicicleta.

Para mais informações sobre o uso do Microsoft Naive Bayes Viewer, consulte Navegar por um Modelo Usando o Microsoft Naive Bayes Viewer.

Dados Necessários para Modelos Naive Bayes

Quando prepara dados para usar no treino de um modelo Naive Bayes, deve compreender os requisitos do algoritmo, incluindo a quantidade de dados necessária e como esses dados são utilizados.

Os requisitos para um modelo Naive Bayes são os seguintes:

Uma única coluna de chave Cada modelo deve conter uma coluna numérica ou de texto que identifique de forma única cada registo. Chaves compostas não são permitidas.
Colunas de entrada Num modelo Naive Bayes, todas as colunas devem ser discretas, ou os valores devem ter sido agrupados. Para informações sobre como discretizar colunas (bin), veja Métodos de Discretização (Mineração de Dados).
As variáveis devem ser independentes. Para um modelo de Naive Bayes, é também importante garantir que os atributos de entrada são independentes entre si. Isto é particularmente importante quando se utiliza o modelo para previsão. Se usar duas colunas de dados que já estão intimamente relacionadas, o efeito seria multiplicar a influência dessas colunas, o que pode obscurecer outros fatores que influenciam o resultado.

Por outro lado, a capacidade do algoritmo de identificar correlações entre variáveis é útil quando se explora um modelo ou conjunto de dados, para identificar relações entre entradas.
Pelo menos uma coluna previsível O atributo previsível deve conter valores discretos ou discretizados.

Os valores da coluna previsível podem ser tratados como entradas. Esta prática pode ser útil quando está a explorar um novo conjunto de dados, para encontrar relações entre as colunas.

Visualização do Modelo

Para explorar o modelo, pode usar o Microsoft Naive Bayes Viewer. O visualizador mostra-lhe como os atributos de entrada se relacionam com o atributo previsível. O visualizador também fornece um perfil detalhado de cada cluster, uma lista dos atributos que distinguem cada cluster dos outros e as características de todo o conjunto de dados de treino. Para mais informações, consulte Navegar por um Modelo Usando o Microsoft Naive Bayes Viewer.

Se quiser saber mais detalhes, pode explorar o modelo no Microsoft Generic Content Tree Viewer (Data Mining). Para mais informações sobre o tipo de informação armazenada no modelo, consulte Mining Model Content for Naive Bayes Models (Analysis Services - Data Mining).

Fazer Previsões

Depois de o modelo ter sido treinado, os resultados são armazenados como um conjunto de padrões, que pode explorar ou usar para fazer previsões.

Pode criar consultas para devolver previsões sobre como os novos dados se relacionam com o atributo previsível, ou pode recuperar estatísticas que descrevam as correlações encontradas pelo modelo.

Para informações sobre como criar consultas contra um modelo de mineração de dados, consulte Consultas de Mineração de Dados. Para exemplos de como usar consultas com um modelo Naive Bayes, veja Exemplos de Consultas do Modelo Naive Bayes.

Observações

Suporta a utilização da Predictive Model Markup Language (PMML) para criar modelos de mineração.
Suporta perfuração.
Não suporta a criação de dimensões de mineração de dados.
Suporta a utilização de modelos de mineração OLAP.

Ver também

Algoritmos de Mineração de Dados (Serviços de Análise - Mineração de Dados)
Seleção de Funcionalidades (Mineração de Dados)
Exemplos de Consultas do Modelo Naive Bayes
Mineração de Conteúdo de Modelos para Modelos Naive Bayes (Serviços de Análise - Mineração de Dados)
Referência Técnica do Algoritmo Naive Bayes da Microsoft

Comentários

Esta página foi útil?

Last updated on 2026-02-03