Confira os resultados da avaliação no portal do Microsoft Foundry (clássico)

Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry

Neste artigo, você aprenderá a:

  • Localize e abra as execuções de avaliação.
  • Exibir métricas de agregação e de nível de exemplo.
  • Comparar resultados entre execuções.
  • Interpretar categorias de métrica e cálculos.
  • Solucionar problemas de métricas ausentes ou parciais.

Pré-requisitos

Veja os resultados da avaliação

Depois de enviar uma avaliação, localize a execução na página Avaliação. Filtre ou ajuste as colunas para se concentrar nas execuções de seu interesse. Revise as métricas de alto nível rapidamente antes de analisar mais profundamente.

Dica

Você pode visualizar uma execução de avaliação em qualquer versão do promptflow-evals SDK ou nas versões azure-ai-evaluation 1.0.0b1, 1.0.0b2, 1.0.0b3. Habilite a alternância Mostrar todas as execuções para localizar a execução.

Selecione Saiba mais sobre as métricas para definições e fórmulas.

Captura de tela que mostra detalhes das métricas de avaliação.

Selecione uma execução para abrir detalhes (conjunto de dados, tipo de tarefa, prompt, parâmetros) mais métricas por amostra. O painel de métricas visualiza a taxa de aprovação ou a pontuação agregada por métrica.

Cuidado

Os usuários que anteriormente gerenciavam suas implantações de modelo e executavam avaliações usando oai.azure.com e, em seguida, integrados à plataforma de desenvolvedor do Microsoft Foundry, têm essas limitações quando usam ai.azure.com:

  • Esses usuários não podem exibir suas avaliações que foram criadas por meio da API Azure OpenAI. Para exibir essas avaliações, elas precisam voltar para oai.azure.com.
  • Esses usuários não podem usar a API openai Azure para executar avaliações no Foundry. Em vez disso, eles devem continuar a usar oai.azure.com para essa tarefa. No entanto, eles podem usar os avaliadores Azure OpenAI que estão disponíveis diretamente na Foundry (ai.azure.com) na opção para a criação da avaliação do conjunto de dados. Não há suporte para a opção de avaliação de modelo ajustada se a implantação for uma migração de Azure OpenAI para Foundry.

Para o cenário de upload de conjunto de dados e de traga seu próprio armazenamento, existem alguns requisitos de configuração:

  • A autenticação da conta deve ser Microsoft Entra ID.
  • O armazenamento deve ser adicionado à conta. Adicioná-lo ao projeto causa erros de serviço.
  • Os usuários devem adicionar seu projeto à conta de armazenamento por meio do controle de acesso no portal Azure.

Para saber mais sobre como criar avaliações com alunos de avaliação do OpenAI no hub Azure OpenAI, consulte Como usar Azure OpenAI na avaliação de modelos do Foundry.

Painel de métricas

Na seção Painel de métricas , as exibições de agregação são divididas por métricas que incluem qualidade de IA (Assistida por IA),Risco e segurança (versão prévia),NLP (Qualidade de IA) e Personalizado (quando aplicável). Os resultados são medidos como porcentagens de aprovação/falha com base nos critérios selecionados quando a avaliação foi criada. Para obter informações mais detalhadas sobre definições de métrica e como elas são calculadas, consulte avaliadores internos.

  • Para métricas de qualidade de IA (AI Assisted), os resultados são agregados pela média de todas as pontuações por métrica. Se você usar o Groundedness Pro, a saída será binária e a pontuação agregada será a taxa de aprovação: (#trues / #instances) × 100. Captura de tela que mostra a guia do painel de métricas de qualidade da IA (Assistida por IA).
  • Para métricas de risco e segurança (versão prévia), os resultados são agregados por taxa de defeitos.
    • Conteúdo prejudicial: porcentagem de casos que excedem o limite de gravidade (padrão Medium).
    • Para material protegido e ataque indireto, a taxa de defeito é calculada como o percentual de instâncias em que a saída está true usando a fórmula (Defect Rate = (#trues / #instances) × 100). Captura de tela que mostra a guia painel de métricas de risco e segurança.
  • Para métricas de NLP (qualidade de IA ), os resultados são agregados pela média de pontuações por métrica. Captura de tela que mostra a guia de painel de qualidade de IA (NLP).

Tabela de resultados de métricas detalhadas

Use a tabela no painel para inspecionar cada exemplo de dados. Classifique por uma métrica para exibir amostras de pior desempenho e identificar lacunas sistemáticas (resultados incorretos, falhas de segurança, latência). Use a pesquisa para agrupar tópicos relacionados de falha. Aplique a personalização de coluna para se concentrar nas principais métricas.

Ações típicas:

  • Filtrar pontuações baixas para detectar padrões recorrentes.
  • Ajuste os prompts ou aperfeiçoe quando as lacunas sistêmicas aparecerem.
  • Exportar para análise offline.

Aqui estão alguns exemplos dos resultados das métricas para o cenário de resposta a perguntas:

Captura de tela que mostra os resultados das métricas para o cenário de resposta a perguntas.

Algumas avaliações têm subavaliadores, que permitem exibir o JSON dos resultados das subvalorizações. Para exibir os resultados, selecione Exibir em JSON.

Captura de tela que mostra os resultados detalhados das métricas com JSON selecionado.

Visualize o JSON na Visualização JSON:

Captura de tela que mostra a visualização JSON.

Aqui estão alguns exemplos dos resultados das métricas para o cenário de conversa. Para examinar os resultados durante uma conversa de vários turnos, selecione Exibir resultados de avaliação por turno na coluna Conversa .

Captura de tela que mostra os resultados das métricas para o cenário de conversa.

Ao selecionar Exibir resultados da avaliação por turno, você verá a seguinte tela:

Captura de tela que mostra os resultados da avaliação por turno.

Para obter uma avaliação de segurança em um cenário multi modal (texto e imagens), você pode entender melhor o resultado da avaliação examinando as imagens da entrada e da saída na tabela de resultados de métricas detalhadas. Como atualmente há suporte para avaliação multimoda somente para cenários de conversa, você pode selecionar Exibir resultados de avaliação por turno para examinar a entrada e a saída para cada turno.

Captura de tela que mostra a caixa de diálogo de imagens na coluna de conversas.

Selecione a imagem para expandi-la e exibi-la. Por padrão, todas as imagens são desfocadas para protegê-lo de conteúdo potencialmente prejudicial. Para visualizar a imagem com clareza, ative a opção Verificar imagem desfocada.

Captura de tela de uma imagem desfocada com um botão de opção

Os resultados da avaliação podem ter significados diferentes para públicos diferentes. Por exemplo, avaliações de segurança podem gerar um rótulo para baixa gravidade de conteúdo violento que pode não se alinhar com a definição de um revisor humano de quão grave é esse conteúdo violento específico. A nota de aprovação definida durante a criação da avaliação determina se é atribuída uma aprovação ou reprovação. Há uma coluna de comentários humanos em que você pode selecionar um ícone de polegares para cima ou para baixo enquanto revisa os resultados da avaliação. Você pode usar essa coluna para registrar em log quais instâncias foram aprovadas ou sinalizadas como incorretas por um revisor humano.

Captura de tela que mostra os resultados das métricas de risco e segurança com comentários humanos.

Para entender cada métrica de risco de conteúdo, exiba as definições de métrica na seção Relatório ou examine o teste na seção Painel de Métricas .

Em caso de problemas com a execução, também é possível usar os logs para depurar a execução de avaliação. Aqui estão alguns exemplos de registros de log que você pode usar para depurar sua execução de avaliação:

Captura de tela que mostra os logs que você pode usar para depurar sua execução de avaliação.

Se você estiver avaliando um fluxo de prompt, poderá selecionar o botão Visualizar no fluxo para ir à página do fluxo avaliado e atualizar seu fluxo. Por exemplo, você pode adicionar instruções extras de meta prompt ou alterar alguns parâmetros e reavaliar.

Comparar os resultados da avaliação

Para comparar duas ou mais execuções, selecione as execuções desejadas e inicie o processo. Selecione o botão Comparar ou o botão Alternar para modo de exibição do painel para uma exibição detalhada do painel. Analise e contraste o desempenho e os resultados de várias execuções para tomar decisões informadas e melhorias direcionadas.

Captura de tela que mostra a opção de comparar avaliações.

No modo de exibição do painel, você tem acesso a dois componentes valiosos: o gráfico de comparação de distribuição de métricas e a tabela de comparação. Você pode usar essas ferramentas para executar uma análise lado a lado das execuções de avaliação selecionadas. Você pode comparar vários aspectos de cada exemplo de dados com facilidade e precisão.

Nota

Por padrão, as execuções de avaliação mais antigas têm linhas correspondentes entre colunas. No entanto, as avaliações recém-executadas precisam ser configuradas intencionalmente para ter colunas correspondentes durante a criação da avaliação. Verifique se o mesmo nome é usado como o valor Nome dos Critérios em todas as avaliações que você deseja comparar.

A captura de tela a seguir mostra os resultados quando os campos são os mesmos:

Captura de tela que mostra avaliações automatizadas quando os campos são iguais.

Quando um usuário não usa o mesmo Nome de Critério na criação da avaliação, os campos não correspondem, o que faz com que a plataforma não consiga comparar diretamente os resultados:

Captura de tela que mostra avaliações automatizadas quando os campos não são os mesmos.

Na tabela de comparação, passe o mouse sobre a execução que você deseja usar como ponto de referência e defina-a como a linha de base. Ative a alternância Mostrar delta para visualizar diferenças entre a linha de base e outras execuções para valores numéricos. Selecione o alternador 'Mostrar apenas a diferença' para exibir apenas as linhas que diferem entre as execuções de teste selecionadas, facilitando a identificação de variações.

Usando esses recursos de comparação, você pode tomar uma decisão informada para selecionar a melhor versão:

  • Comparação de linha de base: Ao definir uma execução como linha de base, você pode identificar um ponto de referência para comparar as outras execuções. Você pode ver como cada execução se desvia do padrão escolhido.
  • Avaliação de valor numérico: habilitar a opção Mostrar delta ajuda você a entender a extensão das diferenças entre a linha de base e outras execuções. Essas informações podem ajudá-lo a avaliar como diversos processos se comportam em relação a métricas de avaliação específicas.
  • Isolamento de diferença: o recurso Mostrar única diferença simplifica sua análise realçando apenas as áreas em que há discrepâncias entre as execuções. Essas informações podem ser fundamentais para identificar onde são necessários aprimoramentos ou ajustes.

Use ferramentas de comparação para escolher a configuração de melhor desempenho e evitar regressões de segurança ou de fundamentação.

Captura de tela que mostra os resultados da avaliação lado a lado.

Medir a vulnerabilidade de jailbreak

Avaliar a vulnerabilidade de jailbreak é uma medida comparativa, não uma métrica assistida por IA. Execute avaliações em dois conjuntos de dados diferentes em equipe vermelha: um conjunto de dados de teste adversário de linha de base versus o mesmo conjunto de dados de teste adversário com injeções de jailbreak no primeiro turno. Você pode usar o simulador de dados adversários para gerar o conjunto de dados com ou sem injeções de jailbreak. Verifique se o valor Nome dos Critérios é o mesmo para cada métrica de avaliação ao configurar as execuções.

Para verificar se o aplicativo está vulnerável ao jailbreak, especifique a linha de base e ative a opção para as Taxas de Defeito de Jailbreak na tabela de comparação. A taxa de defeito de jailbreak é o percentual de instâncias no conjunto de dados de teste em que uma injeção de jailbreak gera uma pontuação de gravidade maior para qualquer métrica de risco de conteúdo em comparação com uma linha de base em todo o conjunto de dados. Selecione várias avaliações no painel Comparar para exibir a diferença nas taxas de defeito.

Captura de tela dos resultados da avaliação lado a lado com o defeito de jailbreak alternado.

Dica

A taxa de defeitos de jailbreak é calculada somente para conjuntos de dados do mesmo tamanho e quando todas as execuções incluem métricas de risco de conteúdo e segurança.

Entender as métricas de avaliação internas

Entender as métricas internas é essencial para avaliar o desempenho e a eficácia do aplicativo de IA. Ao aprender sobre essas principais ferramentas de medida, você pode interpretar os resultados, tomar decisões informadas e ajustar seu aplicativo para obter resultados ideais.

Para saber mais, consulte avaliadores internos.

Solucionando problemas

Sintoma Causa possível Ação
A execução permanece pendente Alta carga de serviço ou trabalhos na fila Atualizar, verificar cota e reenviar, se prolongado
Métricas faltando Não selecionado na criação Executar novamente e selecionar as métricas necessárias
Todas as métricas de segurança estão zeradas. Categoria desabilitada ou modelo sem suporte Confirmar o modelo e a matriz de suporte para métricas
Aterramento inesperadamente baixo Recuperação/contexto incompleto Verificar construção de contexto / latência de recuperação

Saiba como avaliar seus aplicativos de IA generativos: