Política e configurações de aprendizado

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado em 1º de outubro de 2026. Recomendamos migrar para o software livre microsoft/learning-loop.

As configurações de aprendizado determinam os hiperparâmetros do treinamento de modelos. Dois modelos do mesmo conjunto de dados que são treinados em diferentes configurações de aprendizado acabarão diferentes.

A política e as configurações de aprendizado são definidas em seu recurso Personalizer no portal do Azure.

Importar e exportar as políticas de aprendizado

Você pode importar e exportar arquivos de política de aprendizagem do portal Azure. Use esse método para salvar as políticas existentes, testá-las, substituí-las e arquivá-las como artefatos no controle do código-fonte para referência e auditoria futuras.

Saiba como importar e exportar uma política de aprendizado no portal Azure para o recurso Personalizer.

Entender as configurações da política de aprendizado

As configurações da política de aprendizado não devem ser alteradas. Somente mude as configurações se você entender como elas afetam o Personalizador. Sem esse conhecimento, você pode causar problemas, inclusive invalidar modelos do Personalizador.

O Personalizador usa o vowpalwabbit para treinar e pontuar os eventos. Confira a documentação do vowpalwabbit sobre como editar as configurações de aprendizado usando o vowpalwabbit. Depois de ter os argumentos de linha de comando corretos, salve o comando em um arquivo com o seguinte formato (substitua o valor da propriedade arguments pelo comando desejado) e carregue o arquivo para importar as configurações de aprendizado no painel Model e Configurações de Aprendizagem no portal Azure para o recurso personalizador.

O arquivo .json a seguir é um exemplo de uma política de aprendizado.

{
  "name": "new learning settings",
  "arguments": " --cb_explore_adf --epsilon 0.2 --power_t 0 -l 0.001 --cb_type mtr -q ::"
}

Comparar políticas de aprendizado

É possível comparar como seria o desempenho de diferentes políticas de aprendizado em relação a dados passados nos logs do Personalizador, realizando avaliações offline.

Carregue as suas próprias políticas de aprendizado para compará-las com a política de aprendizado atual.

Otimizar as políticas de aprendizado

O Personalizador pode criar uma política de aprendizado otimizada em uma avaliação offline. Uma política de aprendizado otimizada que tenha melhores recompensas em uma avaliação offline vai gerar melhores resultados quando usada online no Personalizador.

Depois de otimizar uma política de aprendizado, você pode aplicá-la diretamente no Personalizador para que ela substitua imediatamente a política atual. Também é possível salvar a política otimizada para oferecer uma avaliação adicional e, posteriormente, decidir se você deseja descartá-la, salvá-la ou aplicá-la.

Próximas etapas