Executar avaliações a partir do portal Microsoft Foundry

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

Avalie o desempenho e a segurança dos seus modelos e agentes de IA generativa, executando-os contra um conjunto de dados de teste. Durante uma avaliação, o modelo ou agente é testado com o conjunto de dados e o seu desempenho é medido usando avaliadores incorporados e personalizados.

Use o portal Foundry para realizar avaliações, visualizar resultados e analisar métricas.

Pré-requisitos

Um conjunto de dados de teste em formato CSV ou JSON Lines (JSONL), ou um modelo ou agente para avaliar.
Uma ligação Azure OpenAI com um modelo GPT implementado que suporta a conclusão de chat (por exemplo, gpt-5-mini). Exigido apenas para avaliações de qualidade assistidas por IA.
Utilizador de IA do Azure função no projeto Foundry. Para mais informações, consulte Controlo de acesso baseado em funções para Microsoft Foundry.

Crie uma avaliação

Pode iniciar uma avaliação a partir de vários locais no portal Foundry:

Página de avaliação: No painel esquerdo, selecione Criar Avaliação>.
Página de Modelos: Vai ao teu modelo, seleciona o separador Avaliação e depois seleciona Criar.
Página de agentes: Vá ao seu agente, selecione o separador Avaliação e depois selecione Criar.
Agent Playground: Vá ao seu agente, selecione o separador Playground e depois selecione Métricas>Executar avaliação completa.

Alvo de avaliação

Quando cria uma avaliação, primeiro escolhe o objetivo da avaliação. O alvo determina contra o que a avaliação se aplica:

Agente: Avalia a saída gerada pelo agente selecionado e a entrada definida pelo utilizador. Funciona tanto para agentes imediatos como para agentes hospedados.
Modelo: Avalia a saída gerada pelo modelo selecionado e pelo prompt definido pelo utilizador.
Conjunto de dados: Avalia os resultados pré-existentes de modelos ou agentes de um conjunto de dados de teste.

Selecionar ou criar um conjunto de dados

Forneça um conjunto de dados para a avaliação. Podes carregar o teu próprio conjunto de dados ou gerar um sinteticamente.

Adicionar novo conjunto de dados: Carregue ficheiros a partir do seu armazenamento local. Apenas são suportados formatos de ficheiro CSV e JSONL. Uma pré-visualização dos seus dados de teste é exibida no painel direito.
Geração de conjuntos de dados sintéticos: Gera um conjunto de dados sintético quando não tens dados de teste. Especifique o recurso, o número de linhas e um prompt que descreva os dados a gerar. Também pode carregar ficheiros para aumentar a relevância.

Nota

A geração de dados sintéticos requer um modelo com capacidade de API de Respostas. Para disponibilidade, consulte Disponibilidade de regiões da API de Respostas.

Conteúdo multimodal (pré-visualização)

Todos os alvos de avaliação - Agente, Modelo, Conjunto de Dados e Traços - suportam conteúdo de imagem e áudio. Cada tipo de conteúdo utiliza um esquema JSONL específico:

Conteúdo da imagem:

image_url: A imagem como um URI de dados (por exemplo, data:image/png;base64,...) ou uma URL acessível publicamente.
caption: Uma descrição em texto do conteúdo da imagem.

{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Conteúdo áudio:

audio_data: O áudio como um URI de dados com dados WAV codificados em base64 (por exemplo, data:audio/wav;base64,...).
expected: Uma descrição em texto do conteúdo áudio esperado.

Nota

Atualmente, apenas o formato de áudio WAV é suportado.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

Os conjuntos de dados também podem usar o formato de conversa de mensagens de chat, onde dados de áudio e imagem estão incorporados numa única coluna de mensagens de chat como URIs de dados ou URLs acessíveis publicamente.

O exemplo seguinte mostra uma coluna de conjunto de dados de conversas com conteúdo de imagem e áudio incorporado:

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://my-website.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  { 
    "role": "assistant", 
    "content": "..." 
  }, 
  { 
    "role": "user", 
    "content": [
      {         "type": "text", 
        "text": "Tell me the tones for the voices?" 
      },
      { 
        "type": "input_audio", 
        "input_audio": {
          "data": "https://my-website.com/path/voice.wav", 
          "format": "wav" 
        }
      },
      { 
        "type": "input_audio", 
        "input_audio": { 
          "data": "data:audio/wav;base64,UklGRigAAA...", 
          "format": "wav" 
        } 
      }
    ] 
  } 
]

Pode pré-visualizar imagens e reproduzir excertos áudio diretamente no fluxo de criação da avaliação e na vista de resultados da avaliação.

Configurar critérios de teste

Selecione os avaliadores a utilizar para a sua avaliação. A Microsoft Foundry disponibiliza três categorias de avaliadores integrados:

Avaliadores de agentes — Avaliar a eficácia com que os agentes lidam com tarefas, ferramentas e intenção do utilizador.
Avaliadores de qualidade — Meçam a qualidade global das respostas geradas. Inclui tanto métricas assistidas por IA (requerem a implementação de um modelo para avaliação) como métricas de PLN (matemáticas, muitas vezes requerem dados de referência).
Avaliadores de segurança — Identificar potenciais riscos de conteúdo e segurança na produção gerada. Os avaliadores de segurança não exigem um modelo de implementação.

Também pode criar os seus próprios avaliadores personalizados e selecioná-los ao configurar critérios de teste.

Para a lista completa de avaliadores disponíveis, veja Avaliadores incorporados.

Mapeamento de dados

Avaliadores diferentes exigem diferentes entradas de dados. O portal mapeia automaticamente os campos do seu conjunto de dados para os campos que cada avaliador espera. Verifica o mapeamento e reatribui campos se necessário.

Se o portal não conseguir mapear automaticamente um campo, o campo aparece como Não Atribuído. Selecione a lista suspensa para atribuir manualmente uma coluna do seu conjunto de dados. Os campos obrigatórios são assinalados com um asterisco (*) — os avaliadores falham se os campos obrigatórios não forem atribuídos.

Para requisitos de campo por avaliador, consulte as respetivas páginas dos avaliadores em Avaliadores incorporados.

Rever e submeter

Depois de terminar a configuração, dê um nome para a sua avaliação, reveja as suas definições e selecione Enviar.

Depois de submeter, a execução da avaliação começa. As avaliações normalmente terminam em poucos minutos, dependendo do tamanho do conjunto de dados. Para visualizar os resultados, selecione o nome da avaliação na página de Avaliação ou consulte Ver os resultados da avaliação.

Saiba mais sobre como avaliar os seus modelos e agentes de IA generativa:

Comentários

Esta página foi útil?

Last updated on 2026-05-01