Executar avaliações a partir do portal Microsoft Foundry

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

Avalie o desempenho e a segurança dos seus modelos e agentes de IA generativa, executando-os contra um conjunto de dados de teste. Durante uma avaliação, o modelo ou agente é testado com o conjunto de dados e o seu desempenho é medido usando avaliadores incorporados e personalizados.

Use o portal Foundry para realizar avaliações, visualizar resultados e analisar métricas.

Pré-requisitos

  • Um conjunto de dados de teste em formato CSV ou JSON Lines (JSONL), ou um modelo ou agente para avaliar.
  • Uma ligação Azure OpenAI com um modelo GPT implementado que suporta a conclusão de chat (por exemplo, gpt-5-mini). Exigido apenas para avaliações de qualidade assistidas por IA.
  • Utilizador de IA do Azure função no projeto Foundry. Para mais informações, consulte Controlo de acesso baseado em funções para Microsoft Foundry.

Crie uma avaliação

Pode iniciar uma avaliação a partir de vários locais no portal Foundry:

  • Página de avaliação: No painel esquerdo, selecione Criar Avaliação>.
  • Página de Modelos: Vai ao teu modelo, seleciona o separador Avaliação e depois seleciona Criar.
  • Página de agentes: Vá ao seu agente, selecione o separador Avaliação e depois selecione Criar.
  • Agent Playground: Vá ao seu agente, selecione o separador Playground e depois selecione Métricas>Executar avaliação completa.

Alvo de avaliação

Quando cria uma avaliação, primeiro escolhe o objetivo da avaliação. O alvo determina contra o que a avaliação se aplica:

  • Agente: Avalia a saída gerada pelo agente selecionado e a entrada definida pelo utilizador. Funciona tanto para agentes imediatos como para agentes hospedados.
  • Modelo: Avalia a saída gerada pelo modelo selecionado e pelo prompt definido pelo utilizador.
  • Conjunto de dados: Avalia os resultados pré-existentes de modelos ou agentes de um conjunto de dados de teste.

Selecionar ou criar um conjunto de dados

Forneça um conjunto de dados para a avaliação. Podes carregar o teu próprio conjunto de dados ou gerar um sinteticamente.

  • Adicionar novo conjunto de dados: Carregue ficheiros a partir do seu armazenamento local. Apenas são suportados formatos de ficheiro CSV e JSONL. Uma pré-visualização dos seus dados de teste é exibida no painel direito.
  • Geração de conjuntos de dados sintéticos: Gera um conjunto de dados sintético quando não tens dados de teste. Especifique o recurso, o número de linhas e um prompt que descreva os dados a gerar. Também pode carregar ficheiros para aumentar a relevância.

Nota

A geração de dados sintéticos requer um modelo com capacidade de API de Respostas. Para disponibilidade, consulte Disponibilidade de regiões da API de Respostas.

Conteúdo multimodal (pré-visualização)

Todos os alvos de avaliação - Agente, Modelo, Conjunto de Dados e Traços - suportam conteúdo de imagem e áudio. Cada tipo de conteúdo utiliza um esquema JSONL específico:

Conteúdo da imagem:

  • image_url: A imagem como um URI de dados (por exemplo, data:image/png;base64,...) ou uma URL acessível publicamente.
  • caption: Uma descrição em texto do conteúdo da imagem.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Conteúdo áudio:

  • audio_data: O áudio como um URI de dados com dados WAV codificados em base64 (por exemplo, data:audio/wav;base64,...).
  • expected: Uma descrição em texto do conteúdo áudio esperado.

Nota

Atualmente, apenas o formato de áudio WAV é suportado.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

Os conjuntos de dados também podem usar o formato de conversa de mensagens de chat, onde dados de áudio e imagem estão incorporados numa única coluna de mensagens de chat como URIs de dados ou URLs acessíveis publicamente.

O exemplo seguinte mostra uma coluna de conjunto de dados de conversas com conteúdo de imagem e áudio incorporado:

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://my-website.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  { 
    "role": "assistant", 
    "content": "..." 
  }, 
  { 
    "role": "user", 
    "content": [
      {         "type": "text", 
        "text": "Tell me the tones for the voices?" 
      },
      { 
        "type": "input_audio", 
        "input_audio": {
          "data": "https://my-website.com/path/voice.wav", 
          "format": "wav" 
        }
      },
      { 
        "type": "input_audio", 
        "input_audio": { 
          "data": "data:audio/wav;base64,UklGRigAAA...", 
          "format": "wav" 
        } 
      }
    ] 
  } 
] 

Pode pré-visualizar imagens e reproduzir excertos áudio diretamente no fluxo de criação da avaliação e na vista de resultados da avaliação.

Configurar critérios de teste

Selecione os avaliadores a utilizar para a sua avaliação. A Microsoft Foundry disponibiliza três categorias de avaliadores integrados:

  • Avaliadores de agentes — Avaliar a eficácia com que os agentes lidam com tarefas, ferramentas e intenção do utilizador.
  • Avaliadores de qualidade — Meçam a qualidade global das respostas geradas. Inclui tanto métricas assistidas por IA (requerem a implementação de um modelo para avaliação) como métricas de PLN (matemáticas, muitas vezes requerem dados de referência).
  • Avaliadores de segurança — Identificar potenciais riscos de conteúdo e segurança na produção gerada. Os avaliadores de segurança não exigem um modelo de implementação.

Também pode criar os seus próprios avaliadores personalizados e selecioná-los ao configurar critérios de teste.

Para a lista completa de avaliadores disponíveis, veja Avaliadores incorporados.

Mapeamento de dados

Avaliadores diferentes exigem diferentes entradas de dados. O portal mapeia automaticamente os campos do seu conjunto de dados para os campos que cada avaliador espera. Verifica o mapeamento e reatribui campos se necessário.

Se o portal não conseguir mapear automaticamente um campo, o campo aparece como Não Atribuído. Selecione a lista suspensa para atribuir manualmente uma coluna do seu conjunto de dados. Os campos obrigatórios são assinalados com um asterisco (*) — os avaliadores falham se os campos obrigatórios não forem atribuídos.

Para requisitos de campo por avaliador, consulte as respetivas páginas dos avaliadores em Avaliadores incorporados.

Rever e submeter

Depois de terminar a configuração, dê um nome para a sua avaliação, reveja as suas definições e selecione Enviar.

Depois de submeter, a execução da avaliação começa. As avaliações normalmente terminam em poucos minutos, dependendo do tamanho do conjunto de dados. Para visualizar os resultados, selecione o nome da avaliação na página de Avaliação ou consulte Ver os resultados da avaliação.

Saiba mais sobre como avaliar os seus modelos e agentes de IA generativa: