Avaliar modelos e aplicativos de IA generativos usando Microsoft Foundry (clássico)

Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry

Para avaliar minuciosamente o desempenho de seus modelos e aplicativos de IA generativos em um conjunto de dados substancial, inicie um processo de avaliação. Durante essa avaliação, o modelo ou aplicativo é testado com o conjunto de dados especificado e seu desempenho é medido usando métricas matemáticas e métricas assistidas por IA. Essa execução de avaliação fornece insights abrangentes sobre as funcionalidades e limitações do aplicativo.

Use a funcionalidade de avaliação no portal do Microsoft Foundry, uma plataforma que oferece ferramentas e recursos para avaliar o desempenho e a segurança de modelos de IA generativos. No portal do Foundry, registre, exiba e analise métricas de avaliação detalhadas.

Este artigo explica como criar uma execução de avaliação em relação a um modelo, agente ou conjunto de dados de teste usando métricas de avaliação internas da interface do usuário do Foundry. Para maior flexibilidade, você pode estabelecer um fluxo de avaliação personalizado e empregar o recurso de avaliação personalizada . Use o recurso de avaliação personalizada para realizar uma execução em lote sem avaliação.

Pré-requisitos

Um conjunto de dados de teste em um destes formatos: CSV ou JSONL (Linhas JSON).
Uma conexão Azure OpenAI com uma implantação de um desses modelos: um modelo GPT-3.5, um modelo GPT-4 ou um modelo Davinci. Isso é necessário apenas para avaliações de qualidade assistidas por IA.

Criar uma avaliação com métricas de avaliação internas

Uma execução de avaliação permite gerar saídas de métrica para cada linha de dados em seu conjunto de dados de teste. Selecione uma ou mais métricas de avaliação para avaliar a saída sob diferentes aspectos. Crie uma execução de avaliação nas páginas do catálogo de avaliação ou modelos no portal do Foundry. O assistente de criação de avaliação orienta você na configuração de uma execução de avaliação.

Na página de avaliação

No painel esquerdo, selecione Avaliação>Criar uma nova avaliação.

Na página do catálogo de modelos

No painel esquerdo, selecione Catálogo de modelos.
Vá para o modelo.
Selecione a guia Parâmetros de Comparação .
Selecione Experimentar com seus próprios dados. Essa seleção abre o painel de avaliação do modelo, no qual você pode criar uma execução de avaliação em relação ao modelo selecionado.

Alvo de avaliação

Ao iniciar uma avaliação na página Avaliar , escolha o destino de avaliação. Especificar o destino de avaliação apropriado adapta a avaliação à natureza específica do aplicativo, garantindo métricas precisas e relevantes. Damos suporte a dois tipos de alvos de avaliação.

Modelo: Essa opção avalia a saída gerada pelo modelo selecionado e o prompt definido pelo usuário.
Conjunto de dados: as saídas geradas pelo modelo já estão em um conjunto de dados de teste.

Configurar dados de teste

No assistente de criação de avaliação, selecione entre pré-existentes conjuntos de dados ou carregue um novo conjunto de dados a ser avaliado. O conjunto de dados de teste precisa ter as saídas geradas pelo modelo a serem usadas para avaliação. Uma visualização dos dados de teste é mostrada no painel direito.

Escolha o conjunto de dados existente: você pode selecionar o conjunto de dados de teste na coleção de conjuntos de dados estabelecida.
Adicionar novo conjunto de dados: carregar arquivos do armazenamento local. Há suporte apenas para formatos de arquivo CSV e JSONL. Uma visualização dos dados de teste é exibida no painel direito.

Configurar critérios de teste

Damos suporte a três tipos de métricas coletados por Microsoft para facilitar uma avaliação abrangente do seu aplicativo:

Qualidade da IA (auxiliada por IA): essas métricas avaliam a qualidade geral e a coerência do conteúdo gerado. Você precisa de uma implantação de modelo como juiz para executar essas métricas.
NLP (qualidade de IA): essas métricas de NLP (processamento de linguagem natural) são baseadas em matemática e também avaliam a qualidade geral do conteúdo gerado. Frequentemente, eles exigem dados reais, mas não necessitam de um modelo implantado como referência.
Métricas de risco e segurança: essas métricas se concentram em identificar possíveis riscos de conteúdo e garantir a segurança do conteúdo gerado.

Você também pode criar métricas personalizadas e selecioná-las como avaliadores durante a etapa de critérios de teste.

À medida que você adiciona seus critérios de teste, métricas diferentes serão usadas como parte da avaliação. Você pode consultar a tabela para obter a lista completa de métricas para as quais oferecemos suporte em cada cenário. Para obter informações mais detalhadas sobre definições de métrica e como elas são calculadas, consulte avaliadores internos.

Qualidade da IA (ia assistida)	Qualidade da IA (NLP)	Métricas de risco e segurança
Fundamentação, relevância, coerência, fluência, similaridade GPT	Pontuação de F1, pontuação ROUGE, pontuação BLEU, pontuação GLEU, pontuação de METEOR	Conteúdo relacionado à automutilação, conteúdo odioso e injusto, conteúdo violento, conteúdo sexual, material protegido, ataque indireto

Ao executar a avaliação de qualidade assistida por IA, você deve especificar um modelo GPT para o processo de cálculo/classificação.

As métricas de NLP (Qualidade da IA) são medidas baseadas matematicamente que avaliam o desempenho do aplicativo. Geralmente, eles exigem dados de verdade básica para cálculo. ROUGE é uma família de métricas. Você pode selecionar o tipo ROUGE para calcular as pontuações. Vários tipos de métricas ROUGE oferecem maneiras de avaliar a qualidade da geração de texto. ROUGE-N mede a sobreposição de n-gramas entre o candidato e os textos de referência.

Para métricas de risco e segurança, não é necessário fornecer uma implementação. O portal do Foundry provisiona um modelo GPT-4 que pode gerar pontuações de severidade de risco de conteúdo e raciocínio para permitir que você avalie seu aplicativo quanto a danos de conteúdo.

Nota

As métricas de segurança e risco assistidos por IA são hospedadas por avaliações de segurança do Foundry e estão disponíveis apenas nas seguintes regiões: Leste dos EUA 2, França Central, Sul do Reino Unido, Suécia Central.

Cuidado

Os usuários que anteriormente gerenciavam suas implantações de modelo e executavam avaliações usando oai.azure.com e, em seguida, integrados à plataforma de desenvolvedor do Microsoft Foundry, têm essas limitações quando usam ai.azure.com:

Esses usuários não podem exibir suas avaliações que foram criadas por meio da API Azure OpenAI. Para exibir essas avaliações, elas precisam voltar para oai.azure.com.
Esses usuários não podem usar a API openai Azure para executar avaliações no Foundry. Em vez disso, eles devem continuar a usar oai.azure.com para essa tarefa. No entanto, eles podem usar os avaliadores Azure OpenAI que estão disponíveis diretamente na Foundry (ai.azure.com) na opção para a criação da avaliação do conjunto de dados. Não há suporte para a opção de avaliação de modelo ajustada se a implantação for uma migração de Azure OpenAI para Foundry.

Para o cenário de upload de conjunto de dados e uso de seu próprio armazenamento, há alguns requisitos de configuração.

A autenticação da conta deve ser Microsoft Entra ID.
O armazenamento deve ser adicionado à conta. Adicioná-lo ao projeto causa erros de serviço.
Os usuários devem adicionar seu projeto à conta de armazenamento por meio do controle de acesso no portal Azure.

Para saber mais sobre como criar avaliações com alunos de avaliação do OpenAI no hub Azure OpenAI, consulte Como usar Azure OpenAI na avaliação de modelos do Foundry.

Mapeamento de dados

Mapeamento de dados para avaliação: para cada métrica adicionada, você deve especificar quais colunas de dados em seu conjunto de dados correspondem às entradas necessárias na avaliação. Diferentes métricas de avaliação exigem tipos distintos de entradas de dados para cálculos precisos.

Durante a avaliação, a resposta do modelo é avaliada em relação a entradas-chave, como:

Consulta: necessária para todas as métricas.
Contexto: opcional.
Verdade básica: opcional, necessária para métricas de NLP (qualidade de IA).

Esses mapeamentos garantem um alinhamento preciso entre seus dados e os critérios de avaliação.

Examinar e enviar

Depois de concluir as configurações necessárias, forneça um nome opcional para sua avaliação. Examine as configurações e selecione Enviar para iniciar a execução da avaliação.

Avaliação do modelo

Para criar uma nova avaliação para sua implantação de modelo selecionada, você pode usar um modelo GPT para gerar perguntas de exemplo ou selecionar na coleção de conjuntos de dados estabelecida.

Configurar dados de teste para um modelo

Configure o conjunto de dados de teste usado para avaliação. Esse conjunto de dados é enviado ao modelo para gerar respostas para avaliação. Você tem duas opções para configurar seus dados de teste:

Gerar perguntas de exemplo
Usar um conjunto de dados existente (ou carregar um novo conjunto de dados)

Gerar perguntas de exemplo

Se você não tiver um conjunto de dados prontamente disponível e quiser executar uma avaliação com um pequeno exemplo, selecione a implantação de modelo que deseja avaliar com base em um tópico escolhido. Modelos Azure OpenAI e outros modelos abertos compatíveis com a implantação de API sem servidor, como modelos da família Meta Llama e Phi-3, são suportados.

O tópico adapta o conteúdo gerado à sua área de interesse. Consultas e respostas são geradas em tempo real e você pode regenere-las conforme necessário.

Use seu conjunto de dados

Você também pode selecionar na coleção de conjuntos de dados estabelecida ou carregar um novo conjunto de dados.

Selecionar métricas de avaliação

Para configurar os critérios de teste, selecione Avançar. À medida que você seleciona seus critérios, as métricas são adicionadas e você precisa mapear as colunas do conjunto de dados para os campos necessários para avaliação. Esses mapeamentos garantem um alinhamento preciso entre seus dados e os critérios de avaliação.

Depois de selecionar os critérios de teste desejados, você pode examinar a avaliação, opcionalmente alterar o nome da avaliação e selecionar Enviar. Vá para a página de avaliação para ver os resultados.

Nota

O conjunto de dados gerado é salvo no armazenamento de blobs do projeto após a criação da execução de avaliação.

Exibir e gerenciar os avaliadores na biblioteca do avaliador

Consulte os detalhes e o status de seus avaliadores em um só lugar na biblioteca do avaliador. Exiba e gerencie avaliadores curados pela Microsoft.

A biblioteca do avaliador também habilita o gerenciamento de versão. Você pode comparar diferentes versões do seu trabalho, restaurar versões anteriores, se necessário, e colaborar com outras pessoas com mais facilidade.

Para usar a biblioteca do avaliador no portal do Foundry, vá para a página Avaliação do projeto e selecione a guia Biblioteca do Avaliador .

Selecione o nome do avaliador para ver mais detalhes, incluindo o nome, a descrição, os parâmetros e todos os arquivos associados. Aqui estão alguns exemplos de avaliadores coletados por Microsoft:

Para avaliadores de desempenho e qualidade curados pela Microsoft, veja o prompt de anotação na página de detalhes. Adapte esses prompts ao seu caso de uso. Altere os parâmetros ou critérios com base em seus dados e objetivos no SDK de Avaliação de IA do Azure. Por exemplo, você pode selecionar Groundedness-Evaluator e verificar o arquivo Prompty que demonstra como calculamos a métrica.
Para avaliadores de risco e segurança curados pela Microsoft, consulte a definição das métricas. Por exemplo, selecione Self-Harm-Related-Content-Evaluator para saber o que significa e entender como Microsoft determina os níveis de gravidade.

Saiba mais sobre como avaliar seus aplicativos de IA generativos:

Comentários

Esta página foi útil?

Last updated on 2026-02-28