Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.
Avalie o desempenho e a segurança dos seus modelos e agentes de IA generativa, executando-os contra um conjunto de dados de teste. Durante uma avaliação, o modelo ou agente é testado com o conjunto de dados e o seu desempenho é medido usando avaliadores incorporados e personalizados.
Use o portal Foundry para realizar avaliações, visualizar resultados e analisar métricas.
Pré-requisitos
- Um conjunto de dados de teste em formato CSV ou JSON Lines (JSONL), ou um modelo ou agente para avaliar.
- Uma ligação Azure OpenAI com um modelo GPT implementado que suporta a conclusão de chat (por exemplo,
gpt-5-mini). Exigido apenas para avaliações de qualidade assistidas por IA. - Utilizador de IA do Azure função no projeto Foundry. Para mais informações, consulte Controlo de acesso baseado em funções para Microsoft Foundry.
Crie uma avaliação
Pode iniciar uma avaliação a partir de vários locais no portal Foundry:
- Página de avaliação: No painel esquerdo, selecione Criar Avaliação>.
- Página de Modelos: Vai ao teu modelo, seleciona o separador Avaliação e depois seleciona Criar.
- Página de agentes: Vá ao seu agente, selecione o separador Avaliação e depois selecione Criar.
- Agent Playground: Vá ao seu agente, selecione o separador Playground e depois selecione Métricas>Executar avaliação completa.
Alvo de avaliação
Quando cria uma avaliação, primeiro escolhe o objetivo da avaliação. O alvo determina contra o que a avaliação se aplica:
- Agente: Avalia a saída gerada pelo agente selecionado e a entrada definida pelo utilizador. Funciona tanto para agentes imediatos como para agentes hospedados.
- Modelo: Avalia a saída gerada pelo modelo selecionado e pelo prompt definido pelo utilizador.
- Conjunto de dados: Avalia os resultados pré-existentes de modelos ou agentes de um conjunto de dados de teste.
Selecionar ou criar um conjunto de dados
Forneça um conjunto de dados para a avaliação. Podes carregar o teu próprio conjunto de dados ou gerar um sinteticamente.
- Adicionar novo conjunto de dados: Carregue ficheiros a partir do seu armazenamento local. Apenas são suportados formatos de ficheiro CSV e JSONL. Uma pré-visualização dos seus dados de teste é exibida no painel direito.
- Geração de conjuntos de dados sintéticos: Gera um conjunto de dados sintético quando não tens dados de teste. Especifique o recurso, o número de linhas e um prompt que descreva os dados a gerar. Também pode carregar ficheiros para aumentar a relevância.
Nota
A geração de dados sintéticos requer um modelo com capacidade de API de Respostas. Para disponibilidade, consulte Disponibilidade de regiões da API de Respostas.
Conteúdo multimodal (pré-visualização)
Todos os alvos de avaliação - Agente, Modelo, Conjunto de Dados e Traços - suportam conteúdo de imagem e áudio. Cada tipo de conteúdo utiliza um esquema JSONL específico:
Conteúdo da imagem:
-
image_url: A imagem como um URI de dados (por exemplo,data:image/png;base64,...) ou uma URL acessível publicamente. -
caption: Uma descrição em texto do conteúdo da imagem.
{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}
Conteúdo áudio:
-
audio_data: O áudio como um URI de dados com dados WAV codificados em base64 (por exemplo,data:audio/wav;base64,...). -
expected: Uma descrição em texto do conteúdo áudio esperado.
Nota
Atualmente, apenas o formato de áudio WAV é suportado.
{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}
Os conjuntos de dados também podem usar o formato de conversa de mensagens de chat, onde dados de áudio e imagem estão incorporados numa única coluna de mensagens de chat como URIs de dados ou URLs acessíveis publicamente.
O exemplo seguinte mostra uma coluna de conjunto de dados de conversas com conteúdo de imagem e áudio incorporado:
[
{
"role": "system",
"content": "..."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "What are in these images?"
},
{
"type": "image_url",
"image_url": {
"url": "https://my-website.com/path/image.png"
}
},
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,iVBORw0KGgo..."
}
}
]
},
{
"role": "assistant",
"content": "..."
},
{
"role": "user",
"content": [
{ "type": "text",
"text": "Tell me the tones for the voices?"
},
{
"type": "input_audio",
"input_audio": {
"data": "https://my-website.com/path/voice.wav",
"format": "wav"
}
},
{
"type": "input_audio",
"input_audio": {
"data": "data:audio/wav;base64,UklGRigAAA...",
"format": "wav"
}
}
]
}
]
Pode pré-visualizar imagens e reproduzir excertos áudio diretamente no fluxo de criação da avaliação e na vista de resultados da avaliação.
Configurar critérios de teste
Selecione os avaliadores a utilizar para a sua avaliação. A Microsoft Foundry disponibiliza três categorias de avaliadores integrados:
- Avaliadores de agentes — Avaliar a eficácia com que os agentes lidam com tarefas, ferramentas e intenção do utilizador.
- Avaliadores de qualidade — Meçam a qualidade global das respostas geradas. Inclui tanto métricas assistidas por IA (requerem a implementação de um modelo para avaliação) como métricas de PLN (matemáticas, muitas vezes requerem dados de referência).
- Avaliadores de segurança — Identificar potenciais riscos de conteúdo e segurança na produção gerada. Os avaliadores de segurança não exigem um modelo de implementação.
Também pode criar os seus próprios avaliadores personalizados e selecioná-los ao configurar critérios de teste.
Para a lista completa de avaliadores disponíveis, veja Avaliadores incorporados.
Mapeamento de dados
Avaliadores diferentes exigem diferentes entradas de dados. O portal mapeia automaticamente os campos do seu conjunto de dados para os campos que cada avaliador espera. Verifica o mapeamento e reatribui campos se necessário.
Se o portal não conseguir mapear automaticamente um campo, o campo aparece como Não Atribuído. Selecione a lista suspensa para atribuir manualmente uma coluna do seu conjunto de dados. Os campos obrigatórios são assinalados com um asterisco (*) — os avaliadores falham se os campos obrigatórios não forem atribuídos.
Para requisitos de campo por avaliador, consulte as respetivas páginas dos avaliadores em Avaliadores incorporados.
Rever e submeter
Depois de terminar a configuração, dê um nome para a sua avaliação, reveja as suas definições e selecione Enviar.
Depois de submeter, a execução da avaliação começa. As avaliações normalmente terminam em poucos minutos, dependendo do tamanho do conjunto de dados. Para visualizar os resultados, selecione o nome da avaliação na página de Avaliação ou consulte Ver os resultados da avaliação.
Conteúdo relacionado
Saiba mais sobre como avaliar os seus modelos e agentes de IA generativa: