Observabilidade em IA generativa (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

O ciclo de vida das aplicações de IA requer quadros robustos de avaliação para garantir que os sistemas de IA fornecem resultados precisos, relevantes e fiáveis. Sem uma avaliação rigorosa, os sistemas de IA correm o risco de gerar respostas que são imprecisas, inconsistentes, mal fundamentadas ou potencialmente prejudiciais. A observabilidade permite às equipas medir e melhorar tanto a qualidade como a segurança dos resultados da IA ao longo de todo o ciclo de vida do desenvolvimento — desde a seleção do modelo até à monitorização da produção.

Nota

O SDK Microsoft Foundry para avaliação e o portal Foundry estão em pré-visualização pública, mas as APIs estão geralmente disponíveis para avaliação de modelos e conjuntos de dados (a avaliação do agente permanece em pré-visualização pública). O SDK de Avaliação de IA do Azure e os avaliadores indicados como (pré-visualização) neste artigo estão atualmente em visualização pública em todo o mundo.

O que é observabilidade?

A observabilidade da IA refere-se à capacidade de monitorizar, compreender e resolver problemas de sistemas de IA ao longo do seu ciclo de vida. As equipas podem rastrear, avaliar, integrar barreiras de qualidade automatizadas em pipelines CI/CD, e recolher sinais como métricas de avaliação, logs, rastros e resultados dos modelos para obter visibilidade sobre desempenho, qualidade, segurança e saúde operacional.

Capacidades principais de observabilidade

A Microsoft Foundry oferece três capacidades essenciais que trabalham em conjunto para garantir uma observabilidade abrangente ao longo do ciclo de vida das aplicações de IA:

Avaliação

Os avaliadores medem a qualidade, segurança e fiabilidade das respostas de IA ao longo do desenvolvimento. A Microsoft Foundry fornece avaliadores incorporados para métricas de qualidade de uso geral (coerência, fluência), métricas específicas do RAG (fundamentação, relevância), segurança e proteção (ódio/injustiça, violência, materiais protegidos) e métricas específicas do agente (precisão nas chamadas de ferramenta, conclusão de tarefas). As equipas também podem criar avaliadores personalizados adaptados aos requisitos específicos do seu domínio.

Para uma lista completa de avaliadores incorporados, veja Referência de avaliadores incorporados.

Monitorização

A monitorização da produção garante que as suas aplicações de IA implementadas mantêm a qualidade e o desempenho em condições reais. Integrado com o Azure Monitor Application Insights, o Microsoft Foundry oferece painéis de controlo em tempo real que acompanham métricas operacionais, consumo de tokens, latência, taxas de erro e pontuações de qualidade. As equipas podem configurar alertas quando os resultados falham nos limiares de qualidade ou produzem conteúdo prejudicial, permitindo uma resolução rápida de problemas.

Para detalhes sobre como configurar monitorização de produção, consulte Monitorizar as suas aplicações de IA generativa e Avaliar continuamente os seus agentes de IA.

Rastreamento

O rastreamento distribuído capta o fluxo de execução das aplicações de IA, proporcionando visibilidade sobre chamadas LLM, invocações de ferramentas, decisões de agentes e dependências entre serviços. Construído sobre os padrões OpenTelemetry e integrado com o Application Insights, o rastreamento permite depurar comportamentos complexos de agentes, identificar gargalos de desempenho e compreender cadeias de raciocínio em múltiplos passos. O Microsoft Foundry suporta rastreamento para frameworks populares, incluindo LangChain, Kernel Semântico e o SDK OpenAI Agents.

Para orientações sobre como implementar o rastreamento, consulte Rastrear a sua aplicação e Rastrear com o SDK de Agentes.

O que são avaliadores?

Os avaliadores são ferramentas especializadas que medem a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento.

Para uma lista completa de avaliadores incorporados, veja Referência de avaliadores incorporados.

Os avaliadores integram-se em cada etapa do ciclo de vida da IA para garantir fiabilidade, segurança e eficácia.

As três fases da avaliação do ciclo de vida de aplicações de IA

Seleção do modelo base

Selecione o modelo de fundação certo comparando a qualidade, desempenho da tarefa, considerações éticas e perfis de segurança entre diferentes modelos.

Ferramentas disponíveis: Microsoft Foundry benchmark para comparar modelos em conjuntos de dados públicos ou nos seus próprios dados, e o Azure AI Evaluation SDK para testar endpoints específicos de modelos.

Avaliação pré-produção

Antes da implementação, testes rigorosos garantem que o seu agente ou aplicação de IA está pronto para produção. Esta fase valida o desempenho através de conjuntos de dados de avaliação, identifica casos limite, avalia a robustez e mede métricas-chave incluindo adesão à tarefa, fundamento, relevância e segurança. Para construir agentes prontos para produção com conversas em múltiplos turnos, chamadas de ferramentas e gestão de estados, consulte Foundry Agent Service.

Ferramentas e abordagens de avaliação:

Traga os seus próprios dados: Avalie agentes e aplicações de IA usando os seus próprios dados com avaliadores de qualidade, segurança ou personalizados. Utilize o assistente de avaliação do Foundry ou o SDK de Avaliação de IA do Azure e veja os resultados no portal Foundry.
AI red teaming agent: O red teaming agent AI simula ataques adversariais complexos utilizando a estrutura PyRIT da Microsoft para identificar vulnerabilidades de segurança e proteção. É melhor usado com processos com intervenção humana.

Em alternativa, pode também usar o portal Foundry para testar as suas aplicações de IA generativa.

Monitorização pós-produção

Após a implementação, a monitorização contínua assegura que a sua aplicação de IA mantém a qualidade em condições reais:

Métricas operacionais: Medição regular das principais métricas operacionais de agentes de IA
Avaliação contínua: Avaliação da qualidade e segurança do tráfego de produção a uma taxa amostrada
Avaliação agendada: Avaliação agendada de qualidade e segurança utilizando conjuntos de dados de teste para detetar deriva do sistema
Red teaming agendado: Testes adversariais agendados para investigar vulnerabilidades de segurança e proteção
Alertas do Azure Monitor: Notificações quando as saídas não cumprem os limiares de qualidade ou produzem conteúdo prejudicial

Integrado com o Azure Monitor Application Insights, o painel Foundry Observability oferece insights em tempo real sobre desempenho, segurança e métricas de qualidade, permitindo uma resolução rápida de problemas e mantendo a confiança dos utilizadores.

Folha de dicas de avaliação

Finalidade	Processo	Parâmetros, orientações e amostras
Como configurar o rastreio?	Configurar rastreamento distribuído	Rastreie a sua aplicação Rastreio com SDK de Agentes
Para que estás a avaliar?	Identificar ou construir avaliadores relevantes	Avaliadores incorporados Avaliadores personalizados Exemplos de SDK Python Exemplos do SDK C#
Que dados deve usar?	Carregar ou gerar conjuntos de dados relevantes	Geração de conjuntos de dados sintéticos Executa uma equipa vermelha de IA na cloud
Como realizar avaliações?	Executar avaliação	Execuções de avaliação do agente Execução remota na nuvem Execução local
Como correu o meu modelo/app?	Analisar resultados	Ver resultados da avaliação
Como posso melhorar?	Analisar os resultados das avaliações e otimizar agentes	Otimize agentes ao reexecutar avaliações, consulte Avaliar modelos e aplicações de IA generativa no portal. Analisar os resultados das avaliações.

Suporte regional, limites de taxa e suporte a rede virtual

Para saber quais as regiões que suportam avaliadores assistidos por IA, os limites de taxa que se aplicam às execuções de avaliação e como configurar suporte de rede virtual para isolamento de rede, consulte suporte regional, limites de taxa e suporte a rede virtual para avaliação.

Preços

As características de observabilidade, como avaliações de risco e segurança e avaliações contínuas, são faturadas com base no consumo, conforme listado na a nossa página de preços Azure.