Consulte os resultados das avaliações no portal Microsoft Foundry (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Neste artigo, aprende a:

  • Localiza e abre as corridas de avaliação.
  • Consulte métricas agregadas e ao nível da amostra.
  • Compare os resultados entre as corridas.
  • Interpretar categorias métricas e cálculos.
  • Resolver problemas de métricas em falta ou parciais.

Pré-requisitos

Veja os resultados da sua avaliação

Depois de submeter uma avaliação, localize a execução na página de Avaliação. Filtra ou ajusta as colunas para focar nas sequências de teu interesse. Revise métricas de alto nível à primeira vista antes de se aprofundar.

Dica

Pode visualizar uma execução de avaliação com qualquer versão do promptflow-evals SDK ou azure-ai-evaluation versões 1.0.0b1, 1.0.0b2, 1.0.0b3. Ativa a opção Mostrar todas as corridas para localizar a corrida.

Selecione Saiba mais sobre métricas para definições e fórmulas.

Captura de ecrã que mostra detalhes das métricas de avaliação.

Selecione uma execução para abrir detalhes (conjunto de dados, tipo de tarefa, prompt, parâmetros) mais métricas por amostra. O painel de métricas visualiza a taxa de aprovação ou pontuação agregada por métrica.

Cautela

Utilizadores que anteriormente geriam as implementações dos seus modelos e executavam avaliações usando oai.azure.com, e depois integrados na plataforma de desenvolvimento Microsoft Foundry, têm estas limitações quando usam ai.azure.com:

  • Estes utilizadores não conseguem ver as avaliações que foram criadas através da API do Azure OpenAI. Para ver estas avaliações, têm de voltar a oai.azure.com.
  • Estes utilizadores não podem usar a API do Azure OpenAI para executar avaliações dentro do Foundry. Em vez disso, devem continuar a usar oai.azure.com para esta tarefa. No entanto, podem usar os avaliadores Azure OpenAI disponíveis diretamente no Foundry (ai.azure.com) na opção para criação de conjuntos de dados. A opção de avaliação fina do modelo não é suportada se a implementação for uma migração do Azure OpenAI para o Foundry.

Para o cenário de upload do conjunto de dados e trazer o seu próprio armazenamento, existem alguns requisitos de configuração:

  • A autenticação da conta deve ser o Microsoft Entra ID.
  • O armazenamento deve ser adicionado à conta. Adicioná-lo ao projeto causa erros de serviço.
  • Os utilizadores devem adicionar o seu projeto à sua conta de armazenamento através do controlo de acesso no portal Azure.

Para saber mais sobre a criação de avaliações com avaliadores da OpenAI no Azure hub OpenAI, consulte Como usar Azure OpenAI na avaliação de modelos Foundry.

Painel métrico

Na secção do painel de Métricas , as vistas agregadas são divididas por métricas que incluem qualidade da IA (Assistida por IA),Risco e segurança (pré-visualização),Qualidade da IA (PLN) e Personalizada (quando aplicável). Os resultados são medidos como percentagens de aprovação/reprovação com base nos critérios selecionados quando a avaliação foi criada. Para informações mais detalhadas sobre definições de métricas e como são calculadas, veja Avaliadores incorporados.

  • Para métricas de qualidade de IA (Assistida por IA), os resultados são agregados através da média de todas as pontuações por métrica. Se usar Groundedness Pro, o resultado é binário e a pontuação agregada é a taxa de aprovação: (#trues / #instances) × 100. Captura de ecrã que mostra o separador do painel de métricas de qualidade da IA (Assistida por IA).
  • Para métricas de Risco e Segurança (pré-visualização), os resultados são agregados pela taxa de defeitos.
    • Dano de conteúdo: percentagem de casos que ultrapassam o limiar de gravidade (padrão Medium).
    • Para material protegido e ataque indireto, a taxa de defeitos é calculada como a percentagem de instâncias em que a saída é true usando a fórmula (Defect Rate = (#trues / #instances) × 100). Captura de ecrã que mostra a aba de métricas de risco e segurança.
  • Para as métricas de qualidade da IA (NLP ), os resultados são agregados através da média das pontuações por métrica. Captura de ecrã que mostra o separador do painel de qualidade de Inteligência Artificial (NLP).

Tabela detalhada de resultados de métricas

Use a tabela sob o painel para inspecionar cada amostra de dados. Ordenar por uma métrica para destacar as amostras com pior desempenho e identificar lacunas sistemáticas (resultados incorretos, falhas de segurança, latência). Use a pesquisa para agrupar tópicos relacionados com falhas. Aplica a personalização das colunas para te focares em métricas chave.

Ações típicas:

  • Filtra as pontuações baixas para detetar padrões recorrentes.
  • Ajuste os prompts ou aperfeiçoe-os quando aparecerem lacunas sistémicas.
  • Exportar para análise offline.

Aqui estão alguns exemplos dos resultados das métricas para o cenário de perguntas e respostas:

Captura de ecrã que mostra os resultados das métricas para o cenário de pergunta-resposta.

Algumas avaliações têm subavaliadores, que permitem visualizar o JSON dos resultados das subavaliações. Para visualizar os resultados, selecione Visualizar em JSON.

Captura de ecrã que mostra resultados detalhados das métricas com JSON selecionado.

Veja o JSON na Pré-visualização do JSON:

Captura de ecrã que mostra a pré-visualização JSON.

Aqui estão alguns exemplos dos resultados das métricas para o cenário da conversa. Para rever os resultados ao longo de uma conversa com vários turnos, selecione Ver resultados da avaliação por turno na coluna Conversa .

Captura de ecrã que mostra os resultados das métricas para o cenário da conversa.

Quando seleciona Ver resultados da avaliação por turno, vê o seguinte ecrã:

Captura de ecrã que mostra os resultados da avaliação por turno.

Para uma avaliação de segurança num cenário multimodal (texto e imagens), pode compreender melhor o resultado da avaliação ao rever as imagens tanto da entrada como da saída na tabela detalhada de resultados das métricas. Como a avaliação multimodal é atualmente suportada apenas para cenários de conversa, pode selecionar Ver resultados da avaliação por turno para examinar a entrada e saída de cada turno.

Captura de ecrã que mostra a caixa de diálogo de imagem do painel de conversação.

Selecione a imagem para expandir e visualize-a. Por padrão, todas as imagens estão desfocadas para o proteger de conteúdos potencialmente prejudiciais. Para ver a imagem claramente, ativa a opção Verificar desfoque da imagem .

Captura de ecrã que mostra uma imagem desfocada e a opção Verificar desfoque da imagem.

Os resultados das avaliações podem ter significados diferentes para diferentes públicos. Por exemplo, avaliações de segurança podem gerar uma classificação para Baixa gravidade de conteúdo violento que pode não estar alinhada com a definição de um crítico humano sobre a gravidade desse conteúdo violento específico. A nota de aprovação definida durante a criação da avaliação determina se é atribuída uma aprovação ou reprovação. Existe uma coluna de feedback humano onde pode selecionar um ícone de polegar para cima ou para baixo enquanto revê os resultados da sua avaliação. Pode usar esta coluna para registar quais as instâncias aprovadas ou sinalizadas como incorretas por um revisor humano.

Captura de ecrã que mostra resultados de riscos e métricas de segurança com feedback humano.

Para compreender cada métrica de risco de conteúdo, consulte as definições das métricas na secção de Relatório , ou reveja o teste na secção do painel de métricas .

Se houver algum problema com a execução, também podes usar os registos para depurar a tua execução de avaliação. Aqui estão alguns exemplos de registos que pode usar para depurar a sua execução de avaliação:

Captura de ecrã que mostra registos que podes usar para depurar a tua execução de avaliação.

Se estiver a avaliar um fluxo de prompt, pode selecionar o botão Ver no fluxo para ir à página do fluxo avaliado e atualizar o seu fluxo. Por exemplo, podes adicionar instruções extra no meta prompt, ou alterar alguns parâmetros e reavaliar.

Compare os resultados da avaliação

Para comparar duas ou mais execuções, selecione os processos desejados e execute o processo. Selecione o botão Comparar ou o botão Mudar para a vista do painel para uma visualização detalhada do painel. Analise e contraste o desempenho e os resultados de múltiplas execuções para tomar decisões informadas e melhorias direcionadas.

Captura de ecrã que mostra a opção para comparar avaliações.

Na vista do painel, tem acesso a dois componentes valiosos: o Quadro de Comparação de Distribuição de Métricas e o Quadro de Comparação. Pode usar estas ferramentas para realizar uma análise lado a lado das execuções de avaliação selecionadas. Pode comparar vários aspetos de cada amostra de dados com facilidade e precisão.

Nota

Por padrão, realizações de avaliação mais antigas têm linhas correspondentes entre colunas. No entanto, as avaliações recentemente executadas devem ser configuradas intencionalmente para garantir que as colunas correspondem durante a fase de criação da avaliação. Certifique-se de que o mesmo nome é usado como valor do Nome dos Critérios em todas as avaliações que pretende comparar.

A captura de ecrã seguinte mostra os resultados quando os campos são os mesmos:

Captura de ecrã que mostra avaliações automáticas quando os campos são iguais.

Quando um utilizador não utiliza o mesmo Nome de Critério na criação da avaliação, os campos não coincidem, o que impede a plataforma de comparar diretamente os resultados:

Captura de ecrã que mostra avaliações automáticas quando os campos não são iguais.

Na tabela comparativa, passe o rato sobre a sequência que quer usar como ponto de referência e defina-a como linha base. Ative o interruptor Mostrar delta para visualizar diferenças entre a linha base e outras sequências para valores numéricos. Selecione a opção Mostrar apenas diferença para mostrar apenas as linhas que diferem entre as sequências selecionadas, ajudando a identificar variações.

Ao utilizar estas funcionalidades de comparação, pode tomar uma decisão informada para escolher a melhor versão:

  • Comparação da linha de base: Ao definir uma linha de base, pode identificar um ponto de referência para comparar as outras execuções. Podes ver como cada corrida se desvia do padrão escolhido.
  • Avaliação numérica do valor: Ativar a opção Mostrar delta ajuda-o a compreender a extensão das diferenças entre a linha base e outras sequências. Esta informação pode ajudá-lo a avaliar o desempenho de várias corridas em termos de métricas específicas de avaliação.
  • Isolamento de diferenças: A funcionalidade Mostrar apenas diferença simplifica a sua análise ao destacar apenas as áreas onde existem discrepâncias entre execuções. Esta informação pode ser fundamental para identificar onde são necessárias melhorias ou ajustes.

Use ferramentas de comparação para escolher a configuração com melhor desempenho e evitar regressões de segurança ou de estabilidade.

Captura de ecrã que mostra os resultados das avaliações lado a lado.

Meça a vulnerabilidade do jailbreak

Avaliar a vulnerabilidade ao jailbreak é uma medição comparativa, não uma métrica assistida por IA. Realizar avaliações em dois conjuntos de dados diferentes, red-teamed: um conjunto de dados de teste adversarial de base versus o mesmo conjunto de dados adversarial com injeções de jailbreak no primeiro turno. Pode usar o simulador de dados adversarial para gerar o conjunto de dados com ou sem injeções de jailbreak. Certifique-se de que o valor do Nome do Critério é o mesmo para cada métrica de avaliação quando configurar as execuções.

Para verificar se a sua aplicação está vulnerável a jailbreak, especifique a linha de base e ative a opção de taxas de defeitos de jailbreak na tabela comparativa. A taxa de defeitos de jailbreak é a percentagem de casos no seu conjunto de dados de teste em que uma injeção de jailbreak gera uma pontuação de gravidade mais elevada para qualquer métrica de risco de conteúdo em comparação com uma linha de base em todo o conjunto de dados. Selecione múltiplas avaliações no seu painel de Comparação para ver a diferença nas taxas de defeito.

Captura de ecrã dos resultados da avaliação lado a lado com o defeito de jailbreak ativado.

Dica

A taxa de incidência de defeitos relacionados ao jailbreak é calculada apenas para conjuntos de dados do mesmo tamanho e quando todas as execuções possuem análises de risco de conteúdo e segurança.

Compreenda as métricas de avaliação incorporadas

Compreender as métricas incorporadas é essencial para avaliar o desempenho e a eficácia da sua aplicação de IA. Ao aprender sobre estas ferramentas chave de medição, pode interpretar os resultados, tomar decisões informadas e afinar a sua aplicação para alcançar resultados ótimos.

Para saber mais, consulte Avaliadores integrados.

Resolução de problemas

Sintoma Causa possível Ação
A execução mantém-se pendente Carga de serviço elevada ou tarefas em fila Atualize, verifique a quota e submeta novamente se for prolongado
Métricas em falta Não selecionado na criação Executar novamente e selecionar métricas necessárias
Todas as métricas de segurança estão a zero Categoria modelo desativado ou não suportado Confirmar a matriz de suporte de modelos e métricas
Aterramento inesperadamente reduzido Recuperação/contexto incompleto Verificar a construção do contexto / latência de recuperação

Aprenda a avaliar as suas aplicações de IA generativa: