Personalizar modelos e estrutura de mineração

Aplica-se a: SQL Server 2019 e versões anteriores do Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte a compatibilidade com versões anteriores do Analysis Services.

Depois de selecionar um algoritmo que atenda às suas necessidades comerciais, você poderá personalizar o modelo de mineração das seguintes maneiras para potencialmente melhorar os resultados.

  • Use diferentes colunas de dados no modelo ou altere o uso, o tipo de conteúdo ou o método de discretização para as colunas.

  • Crie filtros no modelo de mineração para restringir os dados usados no treinamento do modelo.

  • Altere o algoritmo usado para analisar dados.

  • Defina parâmetros de algoritmo para controlar limites, divisões de árvore e outras condições importantes.

Este tópico descreve essas opções.

Alterando dados usados pelo modelo

As decisões tomadas sobre quais colunas de dados usar no modelo e como usar e processar esses dados afetam muito os resultados da análise. Os tópicos a seguir fornecem informações para ajudá-lo a entender essas opções.

Usando a seleção de características

A maioria dos algoritmos de mineração de dados no SQL Server Analysis Services usa um processo chamado seleção de recursos para selecionar apenas os atributos mais úteis para adição a um modelo. Reduzir o número de colunas e atributos pode melhorar o desempenho e a qualidade do modelo. Os métodos de seleção de recursos disponíveis diferem dependendo do algoritmo escolhido.

Seleção de Atributos (Mineração de Dados).

Alterando o uso

Você pode alterar quais colunas estão incluídas em um modelo de mineração e como cada coluna é usada. Se você não obtiver os resultados esperados, deverá exemplor as colunas usadas como entrada e se perguntar se as colunas são uma boa opção e se há algo que você possa fazer para melhorar o tratamento dos dados, incluindo:

  • Identificando variáveis categóricas que rotularam erroneamente como números.

  • Adicionar categorias para reduzir o número de atributos e facilitar a identificação de correlações.

  • Alterando a maneira como os números são agrupados ou discretizados.

  • Remover colunas que têm muitos valores exclusivos ou colunas que são realmente dados de referência e não são úteis para análise, como endereços ou nomes de meio.

Você não precisa remover fisicamente colunas da estrutura de mineração; você pode apenas sinalizar a coluna como Ignorar. A coluna é removida do modelo de mineração, mas ainda pode ser usada por outros modelos de mineração na estrutura, ou referenciada em uma consulta de detalhamento.

Criando aliases para colunas de modelo

Quando o SQL Server Analysis Services cria o modelo de mineração, ele usa os mesmos nomes de coluna que estão na estrutura de mineração. Você pode adicionar um alias a qualquer coluna no modelo de mineração. Isso pode tornar mais fácil entender o conteúdo ou o uso da coluna ou tornar o nome mais curto para conveniência na criação de consultas. Os aliases também são úteis quando você deseja criar uma cópia de uma coluna e nomeá-la como algo descritivo.

Crie um alias editando a propriedade Name da coluna do modelo de mineração. O SQL Server Analysis Services continua a usar o nome original como a ID da coluna e o novo valor que você digita para Nome se torna o alias da coluna e aparece na grade entre parênteses ao lado do uso da coluna.

aliases em colunas de modelo de mineração

O gráfico mostra modelos relacionados que têm várias cópias de uma coluna de estrutura de mineração, todas relacionadas à Renda. Cada cópia da coluna de estruturas foi discretizada de uma maneira diferente. Os modelos no diagrama usam uma coluna diferente da estrutura de mineração; no entanto, para conveniência na comparação das colunas entre os modelos, a coluna em cada modelo foi renomeada para [Renda].

Adicionando filtros

Você pode adicionar um filtro a um modelo de mineração. Um filtro é um conjunto de condições WHERE que restringem os dados nos casos de modelo a algum subconjunto. O filtro é usado ao treinar o modelo e, opcionalmente, pode ser usado quando você testa o modelo ou cria gráficos de precisão.

Ao adicionar filtros, você pode reutilizar estruturas de mineração, mas criar modelos com base em subconjuntos muito diferentes dos dados. Ou você pode simplesmente usar filtros para eliminar determinadas linhas e melhorar a qualidade da análise.

Para obter mais informações, consulte Filtros para Modelos de Mineração (Analysis Services – Mineração de Dados).

Alterando o algoritmo

Embora novos modelos adicionados a uma estrutura de mineração compartilhem o mesmo conjunto de dados, você pode obter resultados diferentes usando um algoritmo diferente (se os dados derem suporte a ele) ou alterando os parâmetros para o algoritmo. Você também pode definir flags de modelagem.

A escolha do algoritmo determina que tipo de resultados você obterá. Para obter informações gerais sobre como um algoritmo específico funciona ou os cenários de negócios em que você se beneficiaria do uso de um algoritmo específico, consulte Algoritmos de Mineração de Dados (Analysis Services – Mineração de Dados).

Consulte o tópico de referência técnica para cada algoritmo para obter uma descrição dos requisitos e restrições, bem como informações detalhadas sobre as personalizações compatíveis com cada algoritmo.

Personalizando parâmetros de algoritmo

Cada algoritmo dá suporte a parâmetros que você pode usar para personalizar o comportamento do algoritmo e ajustar os resultados do modelo. Para obter uma descrição de como usar cada parâmetro, consulte os seguintes tópicos:

O tópico para cada tipo de algoritmo também lista as funções de previsão que podem ser usadas com modelos baseados nesse algoritmo.

Nome da propriedade Aplica-se a
AUTO_DETECTAR_PERIODICIDADE Referência técnica do algoritmo de série temporal da Microsoft
CLUSTER_COUNT Referência técnica do algoritmo de clustering da Microsoft

Referência técnica do algoritmo de clustering de sequência da Microsoft
CLUSTER_SEED Referência técnica do algoritmo de clustering da Microsoft
CLUSTERING_METHOD Referência técnica do algoritmo de clustering da Microsoft
PENALIZAÇÃO_DE_COMPLEXIDADE Referência técnica do algoritmo Árvores de Decisão da Microsoft

Referência técnica do algoritmo de série temporal da Microsoft
FORCE_REGRESSOR Referência técnica do algoritmo Árvores de Decisão da Microsoft

Referência técnica do algoritmo de regressão linear da Microsoft

Sinalizadores de modelagem (mineração de dados)
MÉTODO_DE_PREVISÃO Referência técnica do algoritmo de série temporal da Microsoft
HIDDEN_NODE_RATIO Referência técnica do algoritmo de rede neural da Microsoft
HISTORIC_MODEL_COUNT Referência técnica do algoritmo de série temporal da Microsoft
HISTORICAL_MODEL_GAP Referência técnica do algoritmo de série temporal da Microsoft
PORCENTAGEM_DE_RESERVA Referência técnica do algoritmo de regressão logística da Microsoft

Referência técnica do algoritmo de rede neural da Microsoft

Observação: esse parâmetro é diferente do valor de porcentagem de retenção que se aplica a uma estrutura de mineração.
HOLDOUT_SEED Referência técnica do algoritmo de regressão logística da Microsoft

Referência técnica do algoritmo de rede neural da Microsoft

Observação: esse parâmetro é diferente do valor de semente de espera que se aplica a uma estrutura de mineração.
SENSIBILIDADE_INSTABILIDADE Referência técnica do algoritmo de série temporal da Microsoft
MAXIMUM_INPUT_ATTRIBUTES Referência técnica do algoritmo de clustering da Microsoft

Referência técnica do algoritmo Árvores de Decisão da Microsoft

Referência técnica do algoritmo de regressão linear da Microsoft

Referência técnica do algoritmo Microsoft Naive Bayes

Referência técnica do algoritmo de rede neural da Microsoft

Referência técnica do algoritmo de regressão logística da Microsoft
CONTAGEM_MAXIMA_CONJUNTO_ITENS Referência técnica do algoritmo de associação da Microsoft
MAXIMUM_ITEMSET_SIZE Referência técnica do algoritmo de associação da Microsoft
ATRIBUTOS_MÁXIMOS_DE_SAÍDA Referência técnica do algoritmo Árvores de Decisão da Microsoft

Referência técnica do algoritmo de regressão linear da Microsoft

Referência técnica do algoritmo de regressão logística da Microsoft

Referência técnica do algoritmo Microsoft Naive Bayes

Referência técnica do algoritmo de rede neural da Microsoft
ESTADOS_SEQUÊNCIA_MÁXIMA Referência técnica do algoritmo de clustering de sequência da Microsoft
MAXIMUM_SERIES_VALUE Referência técnica do algoritmo de série temporal da Microsoft
ESTADOS_MÁXIMOS Referência técnica do algoritmo de clustering da Microsoft

Referência técnica do algoritmo de rede neural da Microsoft

Referência técnica do algoritmo de clustering de sequência da Microsoft
SUPORTE_MÁXIMO Referência técnica do algoritmo de associação da Microsoft
IMPORTÂNCIA_MÍNIMA Referência técnica do algoritmo de associação da Microsoft
MINIMUM_ITEMSET_SIZE Referência técnica do algoritmo de associação da Microsoft
MINIMUM_DEPENDENCY_PROBABILITY Referência técnica do algoritmo Microsoft Naive Bayes
MINIMA_PROBABILIDADE Referência técnica do algoritmo de associação da Microsoft
VALOR_MINIMO_DA_SERIE Referência técnica do algoritmo de série temporal da Microsoft
SUPORTE_MÍNIMO Referência técnica do algoritmo de associação da Microsoft

Referência técnica do algoritmo de clustering da Microsoft

Referência técnica do algoritmo Árvores de Decisão da Microsoft

Referência técnica do algoritmo de clustering de sequência da Microsoft

Referência técnica do algoritmo de série temporal da Microsoft
SUBSTITUIÇÃO_DE_VALOR_AUSENTE Referência técnica do algoritmo de série temporal da Microsoft
MODELLING_CARDINALITY Referência técnica do algoritmo de clustering da Microsoft
INDICAÇÃO_DE_PERIODICIDADE Referência técnica do algoritmo de série temporal da Microsoft
SUAVIZAÇÃO_DE_PREVISÃO Referência técnica do algoritmo de série temporal da Microsoft
TAMANHO_DA_AMOSTRA Referência técnica do algoritmo de clustering da Microsoft

Referência técnica do algoritmo de regressão logística da Microsoft

Referência técnica do algoritmo de rede neural da Microsoft
SCORE_METHOD Referência técnica do algoritmo Árvores de Decisão da Microsoft
MÉTODO_DE_DIVISÃO Referência técnica do algoritmo Árvores de Decisão da Microsoft
TOLERÂNCIA_DE_PARADA Referência técnica do algoritmo de clustering da Microsoft

Consulte Também

Algoritmos de mineração de dados (Analysis Services – Mineração de dados)
Arquitetura física (Analysis Services – Mineração de dados)