Validação cruzada (Serviços de Análise - Mineração de Dados)

Aplica-se a: SQL Server 2019 e anteriores Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte Compatibilidade com versões anteriores do Analysis Services.

A validação cruzada é uma ferramenta padrão em análise e é uma funcionalidade importante para ajudar a desenvolver e afinar modelos de mineração de dados. Utiliza-se a validação cruzada depois de criar uma estrutura de mineração e modelos de mineração relacionados para determinar a validade do modelo. A validação cruzada tem as seguintes aplicações:

Validar a robustez de um determinado modelo de mineração.
Avaliar múltiplos modelos a partir de uma única afirmação.
Construir múltiplos modelos e depois identificar o melhor com base em estatísticas.

Esta secção descreve como utilizar as funcionalidades de validação cruzada fornecidas para mineração de dados e como interpretar os resultados da validação cruzada para um único modelo ou para múltiplos modelos baseados num único conjunto de dados.

Visão Geral do Processo de Validação Cruzada

A validação cruzada consiste em duas fases: treino e geração de resultados. Estas fases incluem os seguintes passos:

Selecionas uma estrutura de mineração alvo.
Especificas os modelos que queres testar. Este passo é opcional; Também podes testar apenas a estrutura de mineração.
Especificas os parâmetros para testar os modelos treinados.
- O atributo previsível, valor previsto e limiar de precisão.
- O número de dobras em que se deve particionar a estrutura ou os dados do modelo.
O SQL Server Analysis Services cria e treina tantos modelos quantos folds existem.
O SQL Server Analysis Services devolve um conjunto de métricas de precisão para cada fold em cada modelo, ou para o conjunto de dados como um todo.

Configuração da Validação Cruzada

Pode personalizar a forma como a validação cruzada funciona para controlar o número de partições, os modelos testados e o nível de precisão para previsões. Se usar os procedimentos armazenados de validação cruzada, também pode especificar o conjunto de dados utilizado para validar os modelos. Esta riqueza de opções significa que pode facilmente produzir muitos conjuntos de resultados diferentes que depois devem ser comparados e analisados.

Esta secção fornece informações para ajudar a configurar a validação cruzada de forma adequada.

Definição do Número de Partições

Quando especificas o número de partições, determinas quantos modelos temporários serão criados. Para cada partição, uma secção transversal dos dados é assinalada para uso como conjunto de teste, e um novo modelo é criado treinando com os dados restantes que não estão na partição. Este processo repete-se até que o SQL Server Analysis Services crie e teste o número especificado de modelos. Os dados que especificou como disponíveis para validação cruzada são distribuídos de forma uniforme entre todas as partições.

O exemplo no diagrama ilustra a utilização dos dados neste caso se os três folds forem especificados.

Como a validação cruzada segmenta dados

No cenário do diagrama, a estrutura de mineração contém um conjunto de dados de retenção que é usado para testes, mas o conjunto de dados de teste não foi incluído para validação cruzada. Como resultado, todos os dados do conjunto de dados de treino, 70 por cento dos dados na estrutura de mineração, são usados para validação cruzada. O relatório de validação cruzada mostra o número total de casos usados em cada partição.

Também pode especificar a quantidade de dados utilizada durante a validação cruzada, especificando o número total de casos a utilizar. Os casos estão distribuídos uniformemente por todas as partições.

Para mineração de estruturas armazenadas numa instância do SQL Server SQL Server Analysis Services, o valor máximo que pode definir para o número de partições é 256, ou o número de casos, o que for menor. Se estiveres a usar uma estrutura de mineração de sessões, o número máximo de folds é 10.

Observação

À medida que se aumenta o número de dobras, o tempo necessário para realizar a validação cruzada aumenta em conformidade, porque um modelo deve ser gerado e testado para cada dobra. Pode ter problemas de desempenho se o número de dobras for muito elevado.

Definição do Limiar de Precisão

O limiar de estado permite-te definir a barra de precisão para previsões. Para cada caso, o modelo calcula a probabilidade de previsão, ou seja, a probabilidade de que o estado previsto esteja correto. Se a probabilidade de previsão exceder a barra de precisão, a previsão é contada como correta; se não, a previsão é considerada incorreta. Controla este valor definindo o Limiar de Estado para um número entre 0,0 e 1,0, onde números mais próximos de 1 indicam um forte nível de confiança nas previsões, e números mais próximos de 0 indicam que a previsão é menos provável de ser verdadeira. O valor padrão para o limiar de estado é NULL, o que significa que o estado previsto com maior probabilidade é considerado o valor-alvo.

Deves estar ciente de que a definição do limiar de estado afeta as medidas de precisão do modelo. Por exemplo, assuma que tem três modelos que quer testar. Todos se baseiam na mesma estrutura de mineração de dados e todos preveem a coluna [Comprador de Bicicleta]. Além disso, deves prever um valor único de 1, ou seja, "sim, vou comprar." Os três modelos apresentam previsões com probabilidades de previsão de 0,05, 0,15 e 0,8. Se definir o limiar de estado para 0,10, duas das previsões são contadas como corretas. Se definir o limiar de estado para 0,5, apenas um modelo é contado como tendo retornado uma previsão correta. Se usares o valor padrão, nulo, a previsão mais provável é considerada correta. Neste caso, as três previsões seriam contadas como corretas.

Observação

Pode definir um valor de 0,0 para o limiar, mas o valor não tem significado, porque todas as previsões serão contadas como corretas, mesmo aquelas com probabilidade zero. Tenha cuidado para não definir acidentalmente o State Threshold em 0,0.

Escolher Modelos e Colunas a Validar

Quando utiliza o separador Validação Cruzada no Data Mining Designer, deve primeiro selecionar a coluna previsível de uma lista. Normalmente, uma estrutura de mineração pode suportar muitos modelos de mineração, nem todos os quais utilizam a mesma coluna previsível. Quando executa validação cruzada, apenas os modelos que usam a mesma coluna previsível podem ser incluídos no relatório.

Para escolher um atributo previsível, clique em Atributo Alvo e selecione a coluna da lista. Se o atributo alvo for uma coluna aninhada, ou uma coluna numa tabela aninhada, deve escrever o nome da coluna aninhada usando o formato <Nome> da Tabela Aninhada(chave).<Coluna> Aninhada. Se a única coluna usada da tabela aninhada for a coluna chave, pode usar <Nome> da Tabela Aninhada (chave).

Depois de selecionar o atributo previsível, o SQL Server Analysis Services testa automaticamente todos os modelos que usam o mesmo atributo previsível. Se o atributo-alvo contiver valores discretos, depois de selecionares a coluna previsível, podes opcionalmente escrever um estado alvo, caso haja um valor específico que queiras prever.

A seleção do estado-alvo afeta as medidas que são devolvidas. Se especificar um atributo-alvo — ou seja, um nome de coluna — e não escolher um valor específico que queira que o modelo preveja, por defeito o modelo será avaliado com base na sua previsão do estado mais provável.

Quando se usa validação cruzada com modelos de agrupamento, não existe uma coluna previsível; em vez disso, seleciona #Cluster da lista na caixa de Atributo Alvo. Depois de selecionar esta opção, outras opções que não são relevantes para modelos de clustering, como o Estado Alvo, são desativadas. O SQL Server Analysis Services irá então testar todos os modelos de clustering associados à estrutura de mineração.

Ferramentas para Validação Cruzada

Pode usar validação cruzada do Data Mining Designer, ou realizar validação cruzada executando procedimentos armazenados.

Se usar as ferramentas Data Mining Designer para realizar validação cruzada, pode configurar os parâmetros de treino e resultados de precisão numa única caixa de diálogo. Isto facilita a configuração e a visualização dos resultados. Pode medir a precisão de todos os modelos de mineração relacionados com uma única estrutura de mineração e depois visualizar imediatamente os resultados num relatório HTML. No entanto, os procedimentos armazenados oferecem algumas vantagens, como personalizações adicionais e a possibilidade de scriptar o processo.

Validação Cruzada no Designer de Mineração de Dados

Pode realizar validação cruzada usando o separador Cross-Validation da vista Mining Accuracy Chart no SQL Server Management Studio ou no SQL Server Development Studio.

Para ver um exemplo de como criar um relatório de validação cruzada usando a interface de utilizador, consulte Criar um Relatório de Validação Cruzada.

Procedimentos Armazenados para Validação Cruzada

Para utilizadores avançados, a validação cruzada também está disponível sob a forma de procedimentos armazenados totalmente parametrizados. Pode executar os procedimentos armazenados ligando-se a uma instância a partir do SQL Server Management Studio ou de qualquer aplicação de código gerido.

Os procedimentos armazenados são agrupados por tipo de modelo de mineração. Um conjunto de procedimentos armazenados funciona apenas com modelos de clustering. O outro conjunto de procedimentos armazenados funciona com outros modelos de mineração.

Para cada tipo de modelo de mineração, clusterizado ou não clusterizado, os procedimentos armazenados realizam validação cruzada em duas fases separadas.

Particionar dados e gerar métricas para partições

Na primeira fase, chama um procedimento armazenado do sistema que cria tantas partições quanto especificar dentro do conjunto de dados e devolve resultados de precisão para cada partição. Para cada métrica, os Serviços de Análise calculam então a média e o desvio padrão para as partições.

Gerar métricas para todo o conjunto de dados

Na segunda fase, executas um conjunto diferente de procedimentos armazenados. Estes procedimentos armazenados não particionam o conjunto de dados, mas geram resultados de precisão para o conjunto de dados especificado como um todo. Se já particionou e processou uma estrutura de mineração, pode chamar este segundo conjunto de procedimentos armazenados para obter apenas os resultados.

Definição dos Dados de Teste

Quando executa os procedimentos armazenados de validação cruzada que calculam a precisão (SystemGetAccuracyResults ou SystemGetClusterAccuracyResults), pode especificar a fonte dos dados usados para testes durante a validação cruzada. Esta opção não está disponível na interface do utilizador.

Pode especificar como fonte de dados de teste qualquer uma das seguintes opções:

Use apenas os dados de treinamento.
Inclua um conjunto de dados de teste existente.
Use apenas o conjunto de dados de teste.
Aplique filtros existentes a cada modelo.
Qualquer combinação do conjunto de treino, conjunto de testes e filtros de modelo.

Para especificar uma fonte de dados de teste, fornece um valor inteiro para o parâmetro DataSet do procedimento armazenado. Para uma lista dos valores dos argumentos, consulte a secção Observações do tópico de referência de procedimento armazenado relevante.

Se realizar validação cruzada usando o relatório de Validação Cruzada no Data Mining Designer, não pode alterar o conjunto de dados utilizado. Por padrão, são usados os casos de treino para cada modelo. Se um filtro estiver associado a um modelo, o filtro é aplicado.

Resultados da Validação Cruzada

Se usar o Data Mining Designer, estes resultados são exibidos num visualizador Web semelhante a uma grelha. Se usar os procedimentos armazenados de validação cruzada, estes mesmos resultados são devolvidos como tabela.

O relatório contém dois tipos de medidas: agregados que indicam a variabilidade do conjunto de dados quando dividido em dobras, e medidas de precisão específicas do modelo para cada dobra. Os seguintes tópicos fornecem mais informações sobre estas métricas:

Fórmulas de Validação Cruzada

Lista todas as medidas por tipo de teste. Descreve, em geral, como as medidas podem ser interpretadas.

Medidas no Relatório de Validação Cruzada

Descreve as fórmulas para calcular cada medida e lista o tipo de atributo ao qual cada medida pode ser aplicada.

Restrições à Validação Cruzada

Se realizar a validação cruzada usando o relatório de validação cruzada no SQL Server Development Studio, existem algumas limitações nos modelos que pode testar e nos parâmetros que pode definir.

Por defeito, todos os modelos associados à estrutura de mineração selecionada são validados cruzadamente. Não podes especificar o modelo ou uma lista de modelos.
A validação cruzada não é suportada para modelos baseados no algoritmo Microsoft Time Series ou no algoritmo Microsoft Sequence Clustering.
O relatório não pode ser criado se a sua estrutura de mineração não contiver modelos que possam ser testados por validação cruzada.
Se a estrutura de mineração contiver modelos de agrupamento e não-agrupamento e não escolher a opção #Cluster , os resultados de ambos os tipos de modelos são exibidos no mesmo relatório, mesmo que as definições de atributo, estado e limiar possam não ser adequadas para os modelos de agrupamento.
Alguns valores de parâmetros são restritos. Por exemplo, um aviso é exibido se o número de dobras for superior a 10, porque gerar tantos modelos pode fazer com que o relatório seja apresentado lentamente.

Se estiver a testar vários modelos de mineração, e os modelos tiverem filtros, cada modelo é filtrado separadamente. Não pode adicionar um filtro a um modelo nem alterar o filtro para um modelo durante a validação cruzada.

Como a validação cruzada por padrão testa todos os modelos de mineração associados a uma estrutura, poderá obter resultados inconsistentes se alguns modelos tiverem um filtro e outros não. Para garantir que compara apenas os modelos que têm o mesmo filtro, deve usar os procedimentos armazenados e especificar uma lista de modelos de mineração. Ou, usar apenas o conjunto de testes de estrutura de mineração sem filtros para garantir que um conjunto consistente de dados é usado para todos os modelos.

Se realizar a validação cruzada usando os procedimentos armazenados, tem a opção adicional de escolher a fonte dos dados de teste. Se realizar validação cruzada usando o Data Mining Designer, deve usar o conjunto de dados de teste associado ao modelo ou estrutura, se existirem. Geralmente, se quiser especificar definições avançadas, deve usar os procedimentos armazenados de validação cruzada.

A validação cruzada não pode ser usada com séries temporais ou modelos de agrupamento de sequências. Especificamente, nenhum modelo que contenha uma coluna KEY TIME ou uma coluna KEY SEQUENCE pode ser incluído na validação cruzada.

Consulte os seguintes tópicos para mais informações sobre validação cruzada, ou informações sobre métodos relacionados para testar modelos de mineração, como gráficos de precisão.

Tópicos	Links
Descreve como definir parâmetros de validação cruzada no SQL Server Development Studio.	Aba de Validação Cruzada (Gráfico de Precisão de Mineração - Vista)
Descreve as métricas fornecidas pela validação cruzada	Fórmulas de Validação Cruzada
Explica o formato do relatório de validação cruzada e define as medidas estatísticas fornecidas para cada tipo de modelo.	Medidas no Relatório de Validação Cruzada
Lista os procedimentos armazenados para calcular estatísticas de validação cruzada.	Procedimentos Armazenados de Mineração de Dados (Serviços de Análise - Mineração de Dados)

Descreve como criar um conjunto de dados de teste para estruturas de mineração e modelos relacionados.	Conjuntos de Dados de Treino e Testes
Veja exemplos de outros tipos de gráficos de precisão.	Matriz de Classificação (Serviços de Análise - Mineração de Dados) Gráfico de elevação (Analysis Services - Mineração de dados) Gráfico de lucro (Analysis Services - Mineração de dados) Gráfico de dispersão (Analysis Services - Mineração de dados)
Descreve os passos para criar vários gráficos de precisão.	Tarefas de teste e validação e instruções (Data Mining)

Ver também

Testes e Validação (Data Mining)

Comentários

Esta página foi útil?

Last updated on 2026-02-03