Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry
Neste artigo, aprende a:
- Localiza e abre as corridas de avaliação.
- Consulte métricas agregadas e ao nível da amostra.
- Compare os resultados entre as corridas.
- Interpretar categorias métricas e cálculos.
- Resolver problemas de métricas em falta ou parciais.
Pré-requisitos
Uma corrida de avaliação.
- Para saber como executar avaliações no portal, consulte Avaliar modelos e aplicações de IA generativa.
- Para aprender a executar avaliações a partir do SDK, veja, executar avaliações na cloud ou executar avaliações localmente.
Veja os resultados da sua avaliação
Depois de submeter uma avaliação, localize a execução na página de Avaliação. Filtra ou ajusta as colunas para focar nas sequências de teu interesse. Revise métricas de alto nível à primeira vista antes de se aprofundar.
Dica
Pode visualizar uma execução de avaliação com qualquer versão do promptflow-evals SDK ou azure-ai-evaluation versões 1.0.0b1, 1.0.0b2, 1.0.0b3. Ativa a opção Mostrar todas as corridas para localizar a corrida.
Selecione Saiba mais sobre métricas para definições e fórmulas.
Selecione uma execução para abrir detalhes (conjunto de dados, tipo de tarefa, prompt, parâmetros) mais métricas por amostra. O painel de métricas visualiza a taxa de aprovação ou pontuação agregada por métrica.
Cautela
Utilizadores que anteriormente geriam as implementações dos seus modelos e executavam avaliações usando oai.azure.com, e depois integrados na plataforma de desenvolvimento Microsoft Foundry, têm estas limitações quando usam ai.azure.com:
- Estes utilizadores não conseguem ver as avaliações que foram criadas através da API do Azure OpenAI. Para ver estas avaliações, têm de voltar a
oai.azure.com. - Estes utilizadores não podem usar a API do Azure OpenAI para executar avaliações dentro do Foundry. Em vez disso, devem continuar a usar
oai.azure.compara esta tarefa. No entanto, podem usar os avaliadores Azure OpenAI disponíveis diretamente no Foundry (ai.azure.com) na opção para criação de conjuntos de dados. A opção de avaliação fina do modelo não é suportada se a implementação for uma migração do Azure OpenAI para o Foundry.
Para o cenário de upload do conjunto de dados e trazer o seu próprio armazenamento, existem alguns requisitos de configuração:
- A autenticação da conta deve ser o Microsoft Entra ID.
- O armazenamento deve ser adicionado à conta. Adicioná-lo ao projeto causa erros de serviço.
- Os utilizadores devem adicionar o seu projeto à sua conta de armazenamento através do controlo de acesso no portal Azure.
Para saber mais sobre a criação de avaliações com avaliadores da OpenAI no Azure hub OpenAI, consulte Como usar Azure OpenAI na avaliação de modelos Foundry.
Painel métrico
Na secção do painel de Métricas , as vistas agregadas são divididas por métricas que incluem qualidade da IA (Assistida por IA),Risco e segurança (pré-visualização),Qualidade da IA (PLN) e Personalizada (quando aplicável). Os resultados são medidos como percentagens de aprovação/reprovação com base nos critérios selecionados quando a avaliação foi criada. Para informações mais detalhadas sobre definições de métricas e como são calculadas, veja Avaliadores incorporados.
- Para métricas de qualidade de IA (Assistida por IA), os resultados são agregados através da média de todas as pontuações por métrica. Se usar Groundedness Pro, o resultado é binário e a pontuação agregada é a taxa de aprovação:
(#trues / #instances) × 100.
- Para métricas de Risco e Segurança (pré-visualização), os resultados são agregados pela taxa de defeitos.
- Para as métricas de qualidade da IA (NLP ), os resultados são agregados através da média das pontuações por métrica.
Tabela detalhada de resultados de métricas
Use a tabela sob o painel para inspecionar cada amostra de dados. Ordenar por uma métrica para destacar as amostras com pior desempenho e identificar lacunas sistemáticas (resultados incorretos, falhas de segurança, latência). Use a pesquisa para agrupar tópicos relacionados com falhas. Aplica a personalização das colunas para te focares em métricas chave.
Ações típicas:
- Filtra as pontuações baixas para detetar padrões recorrentes.
- Ajuste os prompts ou aperfeiçoe-os quando aparecerem lacunas sistémicas.
- Exportar para análise offline.
Aqui estão alguns exemplos dos resultados das métricas para o cenário de perguntas e respostas:
Algumas avaliações têm subavaliadores, que permitem visualizar o JSON dos resultados das subavaliações. Para visualizar os resultados, selecione Visualizar em JSON.
Veja o JSON na Pré-visualização do JSON:
Aqui estão alguns exemplos dos resultados das métricas para o cenário da conversa. Para rever os resultados ao longo de uma conversa com vários turnos, selecione Ver resultados da avaliação por turno na coluna Conversa .
Quando seleciona Ver resultados da avaliação por turno, vê o seguinte ecrã:
Para uma avaliação de segurança num cenário multimodal (texto e imagens), pode compreender melhor o resultado da avaliação ao rever as imagens tanto da entrada como da saída na tabela detalhada de resultados das métricas. Como a avaliação multimodal é atualmente suportada apenas para cenários de conversa, pode selecionar Ver resultados da avaliação por turno para examinar a entrada e saída de cada turno.
Selecione a imagem para expandir e visualize-a. Por padrão, todas as imagens estão desfocadas para o proteger de conteúdos potencialmente prejudiciais. Para ver a imagem claramente, ativa a opção Verificar desfoque da imagem .
Os resultados das avaliações podem ter significados diferentes para diferentes públicos. Por exemplo, avaliações de segurança podem gerar uma classificação para Baixa gravidade de conteúdo violento que pode não estar alinhada com a definição de um crítico humano sobre a gravidade desse conteúdo violento específico. A nota de aprovação definida durante a criação da avaliação determina se é atribuída uma aprovação ou reprovação. Existe uma coluna de feedback humano onde pode selecionar um ícone de polegar para cima ou para baixo enquanto revê os resultados da sua avaliação. Pode usar esta coluna para registar quais as instâncias aprovadas ou sinalizadas como incorretas por um revisor humano.
Para compreender cada métrica de risco de conteúdo, consulte as definições das métricas na secção de Relatório , ou reveja o teste na secção do painel de métricas .
Se houver algum problema com a execução, também podes usar os registos para depurar a tua execução de avaliação. Aqui estão alguns exemplos de registos que pode usar para depurar a sua execução de avaliação:
Se estiver a avaliar um fluxo de prompt, pode selecionar o botão Ver no fluxo para ir à página do fluxo avaliado e atualizar o seu fluxo. Por exemplo, podes adicionar instruções extra no meta prompt, ou alterar alguns parâmetros e reavaliar.
Compare os resultados da avaliação
Para comparar duas ou mais execuções, selecione os processos desejados e execute o processo. Selecione o botão Comparar ou o botão Mudar para a vista do painel para uma visualização detalhada do painel. Analise e contraste o desempenho e os resultados de múltiplas execuções para tomar decisões informadas e melhorias direcionadas.
Na vista do painel, tem acesso a dois componentes valiosos: o Quadro de Comparação de Distribuição de Métricas e o Quadro de Comparação. Pode usar estas ferramentas para realizar uma análise lado a lado das execuções de avaliação selecionadas. Pode comparar vários aspetos de cada amostra de dados com facilidade e precisão.
Nota
Por padrão, realizações de avaliação mais antigas têm linhas correspondentes entre colunas. No entanto, as avaliações recentemente executadas devem ser configuradas intencionalmente para garantir que as colunas correspondem durante a fase de criação da avaliação. Certifique-se de que o mesmo nome é usado como valor do Nome dos Critérios em todas as avaliações que pretende comparar.
A captura de ecrã seguinte mostra os resultados quando os campos são os mesmos:
Quando um utilizador não utiliza o mesmo Nome de Critério na criação da avaliação, os campos não coincidem, o que impede a plataforma de comparar diretamente os resultados:
Na tabela comparativa, passe o rato sobre a sequência que quer usar como ponto de referência e defina-a como linha base. Ative o interruptor Mostrar delta para visualizar diferenças entre a linha base e outras sequências para valores numéricos. Selecione a opção Mostrar apenas diferença para mostrar apenas as linhas que diferem entre as sequências selecionadas, ajudando a identificar variações.
Ao utilizar estas funcionalidades de comparação, pode tomar uma decisão informada para escolher a melhor versão:
- Comparação da linha de base: Ao definir uma linha de base, pode identificar um ponto de referência para comparar as outras execuções. Podes ver como cada corrida se desvia do padrão escolhido.
- Avaliação numérica do valor: Ativar a opção Mostrar delta ajuda-o a compreender a extensão das diferenças entre a linha base e outras sequências. Esta informação pode ajudá-lo a avaliar o desempenho de várias corridas em termos de métricas específicas de avaliação.
- Isolamento de diferenças: A funcionalidade Mostrar apenas diferença simplifica a sua análise ao destacar apenas as áreas onde existem discrepâncias entre execuções. Esta informação pode ser fundamental para identificar onde são necessárias melhorias ou ajustes.
Use ferramentas de comparação para escolher a configuração com melhor desempenho e evitar regressões de segurança ou de estabilidade.
Meça a vulnerabilidade do jailbreak
Avaliar a vulnerabilidade ao jailbreak é uma medição comparativa, não uma métrica assistida por IA. Realizar avaliações em dois conjuntos de dados diferentes, red-teamed: um conjunto de dados de teste adversarial de base versus o mesmo conjunto de dados adversarial com injeções de jailbreak no primeiro turno. Pode usar o simulador de dados adversarial para gerar o conjunto de dados com ou sem injeções de jailbreak. Certifique-se de que o valor do Nome do Critério é o mesmo para cada métrica de avaliação quando configurar as execuções.
Para verificar se a sua aplicação está vulnerável a jailbreak, especifique a linha de base e ative a opção de taxas de defeitos de jailbreak na tabela comparativa. A taxa de defeitos de jailbreak é a percentagem de casos no seu conjunto de dados de teste em que uma injeção de jailbreak gera uma pontuação de gravidade mais elevada para qualquer métrica de risco de conteúdo em comparação com uma linha de base em todo o conjunto de dados. Selecione múltiplas avaliações no seu painel de Comparação para ver a diferença nas taxas de defeito.
Dica
A taxa de incidência de defeitos relacionados ao jailbreak é calculada apenas para conjuntos de dados do mesmo tamanho e quando todas as execuções possuem análises de risco de conteúdo e segurança.
Compreenda as métricas de avaliação incorporadas
Compreender as métricas incorporadas é essencial para avaliar o desempenho e a eficácia da sua aplicação de IA. Ao aprender sobre estas ferramentas chave de medição, pode interpretar os resultados, tomar decisões informadas e afinar a sua aplicação para alcançar resultados ótimos.
Para saber mais, consulte Avaliadores integrados.
Resolução de problemas
| Sintoma | Causa possível | Ação |
|---|---|---|
| A execução mantém-se pendente | Carga de serviço elevada ou tarefas em fila | Atualize, verifique a quota e submeta novamente se for prolongado |
| Métricas em falta | Não selecionado na criação | Executar novamente e selecionar métricas necessárias |
| Todas as métricas de segurança estão a zero | Categoria modelo desativado ou não suportado | Confirmar a matriz de suporte de modelos e métricas |
| Aterramento inesperadamente reduzido | Recuperação/contexto incompleto | Verificar a construção do contexto / latência de recuperação |
Conteúdo relacionado
- Melhore métricas baixas com iteração de prompts ou ajustes finos.
- Execute avaliações na cloud com o SDK Microsoft Foundry.
Aprenda a avaliar as suas aplicações de IA generativa: