Consulte os resultados das avaliações no portal Microsoft Foundry (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Neste artigo, aprende a:

Localiza e abre as corridas de avaliação.
Consulte métricas agregadas e ao nível da amostra.
Compare os resultados entre as corridas.
Interpretar categorias métricas e cálculos.
Resolver problemas de métricas em falta ou parciais.

Pré-requisitos

Uma corrida de avaliação.
- Para saber como executar avaliações no portal, consulte Avaliar modelos e aplicações de IA generativa.
- Para aprender a executar avaliações a partir do SDK, veja, executar avaliações na cloud ou executar avaliações localmente.

Veja os resultados da sua avaliação

Depois de submeter uma avaliação, localize a execução na página de Avaliação. Filtra ou ajusta as colunas para focar nas sequências de teu interesse. Revise métricas de alto nível à primeira vista antes de se aprofundar.

Dica

Pode visualizar uma execução de avaliação com qualquer versão do promptflow-evals SDK ou azure-ai-evaluation versões 1.0.0b1, 1.0.0b2, 1.0.0b3. Ativa a opção Mostrar todas as corridas para localizar a corrida.

Selecione Saiba mais sobre métricas para definições e fórmulas.

Selecione uma execução para abrir detalhes (conjunto de dados, tipo de tarefa, prompt, parâmetros) mais métricas por amostra. O painel de métricas visualiza a taxa de aprovação ou pontuação agregada por métrica.

Cautela

Utilizadores que anteriormente geriam as implementações dos seus modelos e executavam avaliações usando oai.azure.com, e depois integrados na plataforma de desenvolvimento Microsoft Foundry, têm estas limitações quando usam ai.azure.com:

Estes utilizadores não conseguem ver as avaliações que foram criadas através da API do Azure OpenAI. Para ver estas avaliações, têm de voltar a oai.azure.com.
Estes utilizadores não podem usar a API do Azure OpenAI para executar avaliações dentro do Foundry. Em vez disso, devem continuar a usar oai.azure.com para esta tarefa. No entanto, podem usar os avaliadores Azure OpenAI disponíveis diretamente no Foundry (ai.azure.com) na opção para criação de conjuntos de dados. A opção de avaliação fina do modelo não é suportada se a implementação for uma migração do Azure OpenAI para o Foundry.

Para o cenário de upload do conjunto de dados e trazer o seu próprio armazenamento, existem alguns requisitos de configuração:

A autenticação da conta deve ser o Microsoft Entra ID.
O armazenamento deve ser adicionado à conta. Adicioná-lo ao projeto causa erros de serviço.
Os utilizadores devem adicionar o seu projeto à sua conta de armazenamento através do controlo de acesso no portal Azure.

Para saber mais sobre a criação de avaliações com avaliadores da OpenAI no Azure hub OpenAI, consulte Como usar Azure OpenAI na avaliação de modelos Foundry.

Painel métrico

Na secção do painel de Métricas , as vistas agregadas são divididas por métricas que incluem qualidade da IA (Assistida por IA),Risco e segurança (pré-visualização),Qualidade da IA (PLN) e Personalizada (quando aplicável). Os resultados são medidos como percentagens de aprovação/reprovação com base nos critérios selecionados quando a avaliação foi criada. Para informações mais detalhadas sobre definições de métricas e como são calculadas, veja Avaliadores incorporados.

Para métricas de qualidade de IA (Assistida por IA), os resultados são agregados através da média de todas as pontuações por métrica. Se usar Groundedness Pro, o resultado é binário e a pontuação agregada é a taxa de aprovação: (#trues / #instances) × 100.
Para métricas de Risco e Segurança (pré-visualização), os resultados são agregados pela taxa de defeitos.
- Dano de conteúdo: percentagem de casos que ultrapassam o limiar de gravidade (padrão Medium).
- Para material protegido e ataque indireto, a taxa de defeitos é calculada como a percentagem de instâncias em que a saída é true usando a fórmula (Defect Rate = (#trues / #instances) × 100).
Para as métricas de qualidade da IA (NLP ), os resultados são agregados através da média das pontuações por métrica.

Tabela detalhada de resultados de métricas

Use a tabela sob o painel para inspecionar cada amostra de dados. Ordenar por uma métrica para destacar as amostras com pior desempenho e identificar lacunas sistemáticas (resultados incorretos, falhas de segurança, latência). Use a pesquisa para agrupar tópicos relacionados com falhas. Aplica a personalização das colunas para te focares em métricas chave.

Ações típicas:

Filtra as pontuações baixas para detetar padrões recorrentes.
Ajuste os prompts ou aperfeiçoe-os quando aparecerem lacunas sistémicas.
Exportar para análise offline.

Aqui estão alguns exemplos dos resultados das métricas para o cenário de perguntas e respostas:

Algumas avaliações têm subavaliadores, que permitem visualizar o JSON dos resultados das subavaliações. Para visualizar os resultados, selecione Visualizar em JSON.

Veja o JSON na Pré-visualização do JSON:

Aqui estão alguns exemplos dos resultados das métricas para o cenário da conversa. Para rever os resultados ao longo de uma conversa com vários turnos, selecione Ver resultados da avaliação por turno na coluna Conversa .

Quando seleciona Ver resultados da avaliação por turno, vê o seguinte ecrã:

Para uma avaliação de segurança num cenário multimodal (texto e imagens), pode compreender melhor o resultado da avaliação ao rever as imagens tanto da entrada como da saída na tabela detalhada de resultados das métricas. Como a avaliação multimodal é atualmente suportada apenas para cenários de conversa, pode selecionar Ver resultados da avaliação por turno para examinar a entrada e saída de cada turno.

Selecione a imagem para expandir e visualize-a. Por padrão, todas as imagens estão desfocadas para o proteger de conteúdos potencialmente prejudiciais. Para ver a imagem claramente, ativa a opção Verificar desfoque da imagem .

Os resultados das avaliações podem ter significados diferentes para diferentes públicos. Por exemplo, avaliações de segurança podem gerar uma classificação para Baixa gravidade de conteúdo violento que pode não estar alinhada com a definição de um crítico humano sobre a gravidade desse conteúdo violento específico. A nota de aprovação definida durante a criação da avaliação determina se é atribuída uma aprovação ou reprovação. Existe uma coluna de feedback humano onde pode selecionar um ícone de polegar para cima ou para baixo enquanto revê os resultados da sua avaliação. Pode usar esta coluna para registar quais as instâncias aprovadas ou sinalizadas como incorretas por um revisor humano.

Para compreender cada métrica de risco de conteúdo, consulte as definições das métricas na secção de Relatório , ou reveja o teste na secção do painel de métricas .

Se houver algum problema com a execução, também podes usar os registos para depurar a tua execução de avaliação. Aqui estão alguns exemplos de registos que pode usar para depurar a sua execução de avaliação:

Se estiver a avaliar um fluxo de prompt, pode selecionar o botão Ver no fluxo para ir à página do fluxo avaliado e atualizar o seu fluxo. Por exemplo, podes adicionar instruções extra no meta prompt, ou alterar alguns parâmetros e reavaliar.

Compare os resultados da avaliação

Para comparar duas ou mais execuções, selecione os processos desejados e execute o processo. Selecione o botão Comparar ou o botão Mudar para a vista do painel para uma visualização detalhada do painel. Analise e contraste o desempenho e os resultados de múltiplas execuções para tomar decisões informadas e melhorias direcionadas.

Na vista do painel, tem acesso a dois componentes valiosos: o Quadro de Comparação de Distribuição de Métricas e o Quadro de Comparação. Pode usar estas ferramentas para realizar uma análise lado a lado das execuções de avaliação selecionadas. Pode comparar vários aspetos de cada amostra de dados com facilidade e precisão.

Nota

Por padrão, realizações de avaliação mais antigas têm linhas correspondentes entre colunas. No entanto, as avaliações recentemente executadas devem ser configuradas intencionalmente para garantir que as colunas correspondem durante a fase de criação da avaliação. Certifique-se de que o mesmo nome é usado como valor do Nome dos Critérios em todas as avaliações que pretende comparar.

A captura de ecrã seguinte mostra os resultados quando os campos são os mesmos:

Quando um utilizador não utiliza o mesmo Nome de Critério na criação da avaliação, os campos não coincidem, o que impede a plataforma de comparar diretamente os resultados:

Na tabela comparativa, passe o rato sobre a sequência que quer usar como ponto de referência e defina-a como linha base. Ative o interruptor Mostrar delta para visualizar diferenças entre a linha base e outras sequências para valores numéricos. Selecione a opção Mostrar apenas diferença para mostrar apenas as linhas que diferem entre as sequências selecionadas, ajudando a identificar variações.

Ao utilizar estas funcionalidades de comparação, pode tomar uma decisão informada para escolher a melhor versão:

Comparação da linha de base: Ao definir uma linha de base, pode identificar um ponto de referência para comparar as outras execuções. Podes ver como cada corrida se desvia do padrão escolhido.
Avaliação numérica do valor: Ativar a opção Mostrar delta ajuda-o a compreender a extensão das diferenças entre a linha base e outras sequências. Esta informação pode ajudá-lo a avaliar o desempenho de várias corridas em termos de métricas específicas de avaliação.
Isolamento de diferenças: A funcionalidade Mostrar apenas diferença simplifica a sua análise ao destacar apenas as áreas onde existem discrepâncias entre execuções. Esta informação pode ser fundamental para identificar onde são necessárias melhorias ou ajustes.

Use ferramentas de comparação para escolher a configuração com melhor desempenho e evitar regressões de segurança ou de estabilidade.

Meça a vulnerabilidade do jailbreak

Avaliar a vulnerabilidade ao jailbreak é uma medição comparativa, não uma métrica assistida por IA. Realizar avaliações em dois conjuntos de dados diferentes, red-teamed: um conjunto de dados de teste adversarial de base versus o mesmo conjunto de dados adversarial com injeções de jailbreak no primeiro turno. Pode usar o simulador de dados adversarial para gerar o conjunto de dados com ou sem injeções de jailbreak. Certifique-se de que o valor do Nome do Critério é o mesmo para cada métrica de avaliação quando configurar as execuções.

Para verificar se a sua aplicação está vulnerável a jailbreak, especifique a linha de base e ative a opção de taxas de defeitos de jailbreak na tabela comparativa. A taxa de defeitos de jailbreak é a percentagem de casos no seu conjunto de dados de teste em que uma injeção de jailbreak gera uma pontuação de gravidade mais elevada para qualquer métrica de risco de conteúdo em comparação com uma linha de base em todo o conjunto de dados. Selecione múltiplas avaliações no seu painel de Comparação para ver a diferença nas taxas de defeito.

Dica

A taxa de incidência de defeitos relacionados ao jailbreak é calculada apenas para conjuntos de dados do mesmo tamanho e quando todas as execuções possuem análises de risco de conteúdo e segurança.

Compreenda as métricas de avaliação incorporadas

Compreender as métricas incorporadas é essencial para avaliar o desempenho e a eficácia da sua aplicação de IA. Ao aprender sobre estas ferramentas chave de medição, pode interpretar os resultados, tomar decisões informadas e afinar a sua aplicação para alcançar resultados ótimos.

Para saber mais, consulte Avaliadores integrados.

Resolução de problemas

Sintoma	Causa possível	Ação
A execução mantém-se pendente	Carga de serviço elevada ou tarefas em fila	Atualize, verifique a quota e submeta novamente se for prolongado
Métricas em falta	Não selecionado na criação	Executar novamente e selecionar métricas necessárias
Todas as métricas de segurança estão a zero	Categoria modelo desativado ou não suportado	Confirmar a matriz de suporte de modelos e métricas
Aterramento inesperadamente reduzido	Recuperação/contexto incompleto	Verificar a construção do contexto / latência de recuperação

Melhore métricas baixas com iteração de prompts ou ajustes finos.
Execute avaliações na cloud com o SDK Microsoft Foundry.

Aprenda a avaliar as suas aplicações de IA generativa:

Comentários

Esta página foi útil?

Last updated on 2026-05-01