Executar avaliações no portal do Microsoft Foundry

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Avalie o desempenho e a segurança de seus modelos e agentes de IA gerativos executando-os em um conjunto de dados de teste. Durante uma avaliação, o modelo ou agente é testado com o conjunto de dados e seu desempenho é medido usando avaliadores internos e personalizados.

Use o portal do Foundry para executar avaliações, exibir resultados e analisar métricas.

Pré-requisitos

  • Um conjunto de dados de teste no formato CSV ou JSONL (Linhas JSON) ou um modelo ou agente a ser avaliado.
  • Uma conexão OpenAI Azure com um modelo de GPT implantado que dá suporte à conclusão do chat (por exemplo, gpt-5-mini). Necessário apenas para avaliações de qualidade assistidas por IA.
  • Função de Usuário do Azure AI no projeto Foundry. Para obter mais informações, consulte o controle de acesso baseado em funções para o Microsoft Foundry.

Criar uma avaliação

Você pode iniciar uma avaliação de vários locais no portal do Foundry:

  • Página de avaliação: no painel esquerdo, selecione Criar Avaliação>.
  • Página Modelos: vá para o modelo, selecione a guia Avaliação e, em seguida, selecione Criar.
  • Página Agentes: vá para o agente, selecione a guia Avaliação e, em seguida, selecione Criar.
  • Playground do agente: acesse seu agente, selecione a guia Playground e selecione Métricas>Executar avaliação completa.

Alvo de avaliação

Ao criar uma avaliação, escolha primeiro o destino de avaliação. O alvo determina contra o que a avaliação é executada.

  • Agente: Avalia a saída gerada pelo agente selecionado e a entrada definida pelo usuário. Funciona para agentes de prompt e agentes hospedados.
  • Modelo: Avalia a saída gerada pelo modelo selecionado e pelo prompt definido pelo usuário.
  • Conjunto de dados: avalia as saídas de um modelo ou agente preexistente a partir de um conjunto de dados de teste.

Selecionar ou criar um conjunto de dados

Forneça um conjunto de dados para a avaliação. Você pode carregar seu próprio conjunto de dados ou gerar um de forma sintética.

  • Adicionar novo conjunto de dados: carregar arquivos do armazenamento local. Há suporte apenas para formatos de arquivo CSV e JSONL. Uma visualização dos dados de teste é exibida no painel direito.
  • Geração de conjunto de dados sintético: gere um conjunto de dados sintético quando você não tiver dados de teste. Especifique o recurso, o número de linhas e um prompt que descreve os dados a serem gerados. Você também pode carregar arquivos para melhorar a relevância.

Nota

A geração de dados sintéticos requer um modelo com funcionalidade de API de Respostas. Para obter disponibilidade, consulte a disponibilidade da região da API de Respostas.

Conteúdo multimodal (versão prévia)

Todos os destinos de avaliação – Agente, Modelo, Conjunto de Dados e Rastreamentos – dão suporte ao conteúdo de imagem e áudio. Cada tipo de conteúdo usa um esquema JSONL específico:

Conteúdo da imagem:

  • image_url: a imagem como um URI de dados (por exemplo, data:image/png;base64,...) ou uma URL acessível publicamente.
  • caption: uma descrição de texto do conteúdo da imagem.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Conteúdo de áudio:

  • audio_data: o áudio como um URI de dados com dados WAV codificados em base64 (por exemplo, data:audio/wav;base64,...).
  • expected: uma descrição de texto do conteúdo de áudio esperado.

Nota

Atualmente, há suporte apenas para o formato de áudio WAV.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

Os conjuntos de dados também podem usar o formato de conversa de mensagem de chat, em que os dados de áudio e imagem são inseridos em uma única coluna de mensagem de chat como URIs de dados ou URLs publicamente acessíveis.

O exemplo a seguir mostra uma coluna de conjunto de dados de conversa com conteúdo de áudio e imagem inserido:

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://my-website.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  { 
    "role": "assistant", 
    "content": "..." 
  }, 
  { 
    "role": "user", 
    "content": [
      {         "type": "text", 
        "text": "Tell me the tones for the voices?" 
      },
      { 
        "type": "input_audio", 
        "input_audio": {
          "data": "https://my-website.com/path/voice.wav", 
          "format": "wav" 
        }
      },
      { 
        "type": "input_audio", 
        "input_audio": { 
          "data": "data:audio/wav;base64,UklGRigAAA...", 
          "format": "wav" 
        } 
      }
    ] 
  } 
] 

Você pode visualizar imagens e reproduzir clipes de áudio diretamente no fluxo de criação de avaliação e na exibição de resultados da avaliação.

Configurar critérios de teste

Selecione os avaliadores a serem usados para sua avaliação. Microsoft Foundry fornece três categorias de avaliadores internos:

  • Avaliadores de agente – Avalie a eficácia dos agentes ao lidar com tarefas, ferramentas e intenção do usuário.
  • Avaliadores de qualidade – medir a qualidade geral das respostas geradas. Inclui métricas assistidas por IA (exigem uma implantação de modelo como juiz) e métricas NLP (matemáticas, geralmente exigem dados de verdade básica).
  • Avaliadores de segurança – identifique possíveis riscos de conteúdo e segurança na saída gerada. Os avaliadores de segurança não exigem uma implantação de modelo.

Você também pode criar seus próprios avaliadores personalizados e selecioná-los ao configurar critérios de teste.

Para obter a lista completa de avaliadores disponíveis, consulte avaliadores integrais.

Mapeamento de dados

Avaliadores diferentes exigem entradas de dados diferentes. O portal mapeia automaticamente os campos do conjunto de dados para os campos que cada avaliador espera. Verifique o mapeamento e reatribua os campos, se necessário.

Se o portal não puder mapear automaticamente um campo, o campo será exibido como Não atribuído. Selecione a lista suspensa do campo para atribuir manualmente uma coluna do conjunto de dados. Os campos necessários são marcados com um asterisco (*) – os avaliadores falham se os campos necessários não forem atribuídos.

Para obter requisitos de campo por avaliador, consulte as respectivas páginas do avaliador sob avaliadores internos.

Examinar e enviar

Depois de concluir a configuração, forneça um nome para sua avaliação, examine suas configurações e selecione Enviar.

Após você enviar, a execução da avaliação começa. Normalmente, as avaliações são concluídas em poucos minutos, dependendo do tamanho do conjunto de dados. Para exibir os resultados, selecione o nome da avaliação na página Avaliação ou veja Exibir os resultados da avaliação.

Saiba mais sobre como avaliar seus modelos e agentes de IA generativos: