Avalie modelos e aplicações de IA generativa utilizando o Microsoft Foundry (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Para avaliar minuciosamente o desempenho dos seus modelos e aplicações de IA generativa num conjunto de dados substancial, inicie um processo de avaliação. Durante esta avaliação, o modelo ou aplicação é testado com o conjunto de dados dado, e o seu desempenho é medido usando métricas matemáticas e métricas assistidas por IA. Esta avaliação fornece uma visão abrangente das capacidades e limitações da aplicação.

Utilize a funcionalidade de avaliação do portal Microsoft Foundry, uma plataforma que oferece ferramentas e funcionalidades para avaliar o desempenho e a segurança dos modelos de IA generativa. No portal Foundry, regista, visualize e analise métricas detalhadas de avaliação.

Este artigo explica como criar uma avaliação executada contra um modelo, agente ou conjunto de dados de teste usando métricas de avaliação incorporadas da interface Foundry. Para maior flexibilidade, pode criar um fluxo de avaliação personalizado e utilizar a funcionalidade de avaliação personalizada . Use a funcionalidade de avaliação personalizada para realizar uma execução em lote sem avaliação.

Pré-requisitos

  • Um conjunto de dados de teste num destes formatos: CSV ou Linhas JSON (JSONL).
  • Uma ligação Azure OpenAI com a implementação de um destes modelos: um modelo GPT-3.5, um modelo GPT-4 ou um modelo Davinci. Isto é exigido apenas para avaliações de qualidade assistidas por IA.

Crie uma avaliação com métricas de avaliação incorporadas

Uma execução de avaliação permite-lhe gerar saídas de métricas para cada linha de dados no seu conjunto de dados de teste. Selecione uma ou mais métricas de avaliação para avaliar o resultado a partir de diferentes aspetos. Crie uma execução de avaliação a partir das páginas do catálogo de avaliação ou modelo no portal da Foundry. O assistente de criação de avaliações orienta-o na configuração de uma execução de teste de avaliação.

Da página de avaliação

No painel esquerdo, selecione Avaliação>Criar uma nova avaliação.

Da página do catálogo de modelos

  1. No painel esquerdo, selecione Catálogo de modelos.

  2. Vai ao modelo.

  3. Selecione o separador Benchmarks .

  4. Selecione Tentar com os seus próprios dados. Esta seleção abre o painel de avaliação do modelo, onde pode iniciar uma execução de avaliação para o modelo selecionado.

    Captura de ecrã do botão Tentar com os seus próprios dados na página do catálogo de modelos.

Alvo de avaliação

Quando iniciar uma avaliação a partir da página Avaliar , escolha o objetivo da avaliação. Especificar o objetivo de avaliação adequado adapta a avaliação à natureza específica da sua candidatura, garantindo métricas precisas e relevantes. Apoiamos dois tipos de metas de avaliação:

  • Modelo: Esta escolha avalia a saída gerada pelo modelo selecionado e pelo prompt definido pelo utilizador.
  • Conjunto de dados: Os seus resultados gerados pelo modelo já estão num conjunto de dados de teste.

Configurar dados de teste

No assistente de criação de avaliações, selecione entre conjuntos de dados pré-existentes ou carregue um novo conjunto de dados para avaliar. O conjunto de dados de teste precisa de ter os resultados gerados pelo modelo para serem usados na avaliação. Uma pré-visualização dos seus dados de teste é mostrada no painel direito.

  • Escolha o conjunto de dados existente: Pode selecionar o conjunto de dados de teste da sua coleção de dados estabelecida.

    Captura de ecrã da opção para selecionar dados de teste ao criar uma nova avaliação.

  • Adicionar novo conjunto de dados: Carregue ficheiros a partir do seu armazenamento local. Apenas são suportados formatos de ficheiro CSV e JSONL. Uma pré-visualização dos seus dados de teste é exibida no painel direito.

    Captura de ecrã da opção de carregar o ficheiro que pode usar ao criar uma nova avaliação.

Configurar critérios de teste

Suportamos três tipos de métricas selecionadas pela Microsoft para facilitar uma avaliação abrangente da sua aplicação:

  • Qualidade da IA (assistida por IA): Estas métricas avaliam a qualidade e coerência global do conteúdo gerado. Precisas de um modelo de implementação como juiz para executar estas métricas.
  • Qualidade da IA (PLN): Estas métricas de processamento de linguagem natural (PLN) são baseadas em matemática e também avaliam a qualidade global do conteúdo gerado. Muitas vezes exigem dados verdadeiros de referência, mas não exigem uma implementação de modelo para efetuar a avaliação.
  • Métricas de risco e segurança: Estas métricas focam-se em identificar potenciais riscos de conteúdo e garantir a segurança do conteúdo gerado.

Também pode criar métricas personalizadas e selecioná-las como avaliadores durante a etapa de teste dos critérios.

À medida que adicionas os teus critérios de teste, diferentes métricas serão usadas como parte da avaliação. Pode consultar a tabela para a lista completa de métricas que oferecemos suporte em cada cenário. Para informações mais detalhadas sobre definições de métricas e como são calculadas, veja Avaliadores incorporados.

Qualidade da IA (IA Assistida) A Qualidade da IA (Processamento de Linguagem Natural) Métricas de risco e segurança
Fundamento, Relevância, Coerência, Fluência, Similaridade GPT Pontuação F1, Pontuação ROUGE, Pontuação BLEU, Pontuação GLEU, Pontuação METEOR Conteúdo relacionado com autoagressão, Conteúdo odioso e injusto, Conteúdo violento, Conteúdo sexual, Material protegido, Ataque indireto

Quando executa uma avaliação de qualidade assistida por IA, deve especificar um modelo GPT para o processo de cálculo/avaliação.

Captura de ecrã que mostra o avaliador da escala Likert com as métricas de qualidade da IA (assistida por IA) listadas em predefinições.

As métricas de Qualidade da IA (PLN) são medições baseadas em matemática que avaliam o desempenho da sua aplicação. Frequentemente requerem dados de referência para cálculo. ROUGE é uma família de métricas. Pode selecionar o tipo ROUGE para calcular as pontuações. Vários tipos de métricas ROUGE oferecem formas de avaliar a qualidade da geração de texto. ROUGE-N mede a sobreposição dos n-gramas entre os textos candidatos e de referência.

Captura de ecrã que mostra similaridade de texto com as métricas de qualidade da IA (NLP) listadas nos presets.

Para métricas de risco e segurança, não é necessário fornecer uma implementação. O portal Foundry disponibiliza um modelo GPT-4 que pode gerar pontuações de gravidade do risco de conteúdo e raciocínios para lhe permitir avaliar a sua aplicação para danos de conteúdo.

Nota

As métricas de risco e segurança assistidas por IA são alojadas pelas avaliações de segurança da Foundry e estão disponíveis apenas nas seguintes regiões: Leste da US 2, França Central, Reino Unido Sul, Suécia Central.

Captura de ecrã que mostra a métrica Conteúdo violento, que é uma das métricas de risco e segurança.

Cautela

Utilizadores que anteriormente geriam as implementações dos seus modelos e executavam avaliações usando oai.azure.com, e depois integrados na plataforma de desenvolvimento Microsoft Foundry, têm estas limitações quando usam ai.azure.com:

  • Estes utilizadores não conseguem ver as avaliações que foram criadas através da API do Azure OpenAI. Para ver estas avaliações, têm de voltar a oai.azure.com.
  • Estes utilizadores não podem usar a API do Azure OpenAI para executar avaliações dentro do Foundry. Em vez disso, devem continuar a usar oai.azure.com para esta tarefa. No entanto, podem usar os avaliadores Azure OpenAI disponíveis diretamente no Foundry (ai.azure.com) na opção para criação de conjuntos de dados. A opção de avaliação fina do modelo não é suportada se a implementação for uma migração do Azure OpenAI para o Foundry.

Para o cenário de upload do conjunto de dados e trazer o seu próprio armazenamento, existem alguns requisitos de configuração:

  • A autenticação da conta deve ser o Microsoft Entra ID.
  • O armazenamento deve ser adicionado à conta. Adicioná-lo ao projeto causa erros de serviço.
  • Os utilizadores devem adicionar o seu projeto à sua conta de armazenamento através do controlo de acesso no portal Azure.

Para saber mais sobre a criação de avaliações com avaliadores da OpenAI no Azure hub OpenAI, consulte Como usar Azure OpenAI na avaliação de modelos Foundry.

Mapeamento de dados

Mapeamento de dados para avaliação: Para cada métrica adicionada, deve especificar quais as colunas de dados do seu conjunto de dados que correspondem aos inputs necessários na avaliação. Diferentes métricas de avaliação exigem tipos distintos de entradas de dados para cálculos precisos.

Durante a avaliação, a resposta do modelo é avaliada em função de inputs-chave tais como:

  • Consulta: Obrigatória para todas as métricas.
  • Contexto: Opcional.
  • Verdade no terreno: Opcional, exigido para métricas de qualidade de IA (NLP).

Estes mapeamentos garantem um alinhamento preciso entre os seus dados e os critérios de avaliação.

Captura de ecrã da consulta, contexto e mapeamento de verdade para a tua entrada de avaliação.

Rever e submeter

Depois de completar as configurações necessárias, forneça um nome opcional para a sua avaliação. Revise as definições e selecione Enviar para iniciar a avaliação.

Avaliação do modelo

Para criar uma nova avaliação para a implementação do modelo selecionado, pode usar um modelo GPT para gerar perguntas de exemplo, ou pode selecionar a partir da coleção de conjuntos de dados estabelecida.

Configurar dados de teste para um modelo

Configura o conjunto de dados de teste que é usado para avaliação. Este conjunto de dados é enviado ao modelo para gerar respostas para avaliação. Tens duas opções para configurar os teus dados de teste:

  • Gerar perguntas de exemplo
  • Use um conjunto de dados existente (ou carregue um novo conjunto de dados)
Gerar perguntas de exemplo

Se não tiver um conjunto de dados disponível e quiser fazer uma avaliação com uma pequena amostra, selecione a implementação do modelo que pretende avaliar com base num tema escolhido. São suportados modelos Azure OpenAI e outros modelos abertos compatíveis com implementação de APIs serverless, como os modelos da família Meta Llama e Phi-3.

O tema adapta o conteúdo gerado à sua área de interesse. As consultas e respostas são geradas em tempo real e pode regenerá-las conforme necessário.

Use o seu conjunto de dados

Também pode escolher entre a sua coleção de conjuntos de dados estabelecida ou carregar um novo conjunto de dados.

Captura de ecrã que mostra Selecionar a fonte de dados e os destaques usando um conjunto de dados existente.

Métricas de avaliação selecionadas

Para configurar os seus critérios de teste, selecione Próximo. À medida que seleciona os seus critérios, são adicionadas métricas e é necessário mapear as colunas do seu dataset para os campos necessários à avaliação. Estes mapeamentos garantem um alinhamento preciso entre os seus dados e os critérios de avaliação.

Depois de selecionares os critérios do teste que queres, podes rever a avaliação, alterar opcionalmente o nome da avaliação e depois selecionar Submeter. Vá à página de avaliação para ver os resultados.

Nota

O conjunto de dados gerado é guardado no armazenamento de blobs do projeto após a execução de avaliação ser criada.

Visualize e gere os avaliadores na biblioteca de avaliadores

Consulte os detalhes e o estado dos seus avaliadores num só local na biblioteca de avaliadores. Visualize e gere avaliadores selecionados pela Microsoft.

A biblioteca avaliadora também permite a gestão de versões. Pode comparar diferentes versões do seu trabalho, restaurar versões anteriores se necessário e colaborar com outros com mais facilidade.

Para usar a biblioteca avaliador no portal Foundry, vá à página de Avaliação do seu projeto e selecione o separador da biblioteca Avaliador .

Selecione o nome do avaliador para ver mais detalhes, incluindo o nome, descrição, parâmetros e quaisquer ficheiros associados. Aqui estão alguns exemplos de avaliadores selecionados pela Microsoft:

  • Para avaliadores de desempenho e qualidade selecionados pela Microsoft, consulte o prompt de anotação na página de detalhes. Adapte estes prompts ao seu caso de uso. Altere os parâmetros ou critérios com base nos seus dados e objetivos no Azure AI Evaluation SDK. Por exemplo, pode selecionar Groundedness-Evaluator e verificar o ficheiro Prompty que mostra como calculamos a métrica.
  • Para avaliadores de risco e segurança selecionados pela Microsoft, consulte a definição das métricas. Por exemplo, selecione Self-Harm-Related-Content-Evaluator para saber o que significa e compreender como Microsoft determina os níveis de gravidade.

Saiba mais sobre como avaliar as suas aplicações de IA generativa: