Observabilidade na IA generativa (clássico)

Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

O ciclo de vida do aplicativo de IA requer estruturas de avaliação robustas para garantir que os sistemas de IA forneçam saídas precisas, relevantes e confiáveis. Sem uma avaliação rigorosa, os sistemas de IA correm o risco de gerar respostas imprecisas, inconsistentes, mal fundamentadas ou potencialmente prejudiciais. A observabilidade permite que as equipes meçam e melhorem a qualidade e a segurança das saídas de IA em todo o ciclo de vida de desenvolvimento, desde a seleção do modelo até o monitoramento de produção.

Nota

O SDK do Microsoft Foundry para avaliação e o portal do Foundry estão em versão prévia pública, mas as APIs geralmente estão disponíveis para avaliação de modelo e conjunto de dados (a avaliação do agente permanece em versão prévia pública). O SDK de Avaliação de IA do Azure e os avaliadores marcados (versão prévia) neste artigo estão atualmente em versão prévia pública em todos os lugares.

O que é observabilidade?

A observabilidade da IA refere-se à capacidade de monitorar, entender e solucionar problemas de sistemas de IA em todo o ciclo de vida. As equipes podem rastrear, avaliar, integrar portões de qualidade automatizados em pipelines de CI/CD e coletar sinais como métricas de avaliação, logs, rastreamentos e saídas de modelo para obter visibilidade do desempenho, qualidade, segurança e integridade operacional.

Principais recursos de observabilidade

Microsoft Foundry fornece três recursos principais que funcionam juntos para fornecer uma observabilidade abrangente em todo o ciclo de vida do aplicativo de IA:

Avaliação

Os avaliadores medem a qualidade, a segurança e a confiabilidade das respostas de IA em todo o desenvolvimento. Microsoft Foundry oferece avaliadores internos para métricas de qualidade de uso geral (coerência, fluência), métricas específicas de RAG (base, relevância), segurança e proteção (ódio/injustiça, violência, materiais protegidos) e métricas específicas do agente (precisão na chamada de ferramentas, conclusão de tarefas). O Teams também pode criar avaliadores personalizados adaptados aos requisitos específicos do domínio.

Para obter uma lista completa de avaliadores internos, consulte a referência de avaliadores internos.

Monitoramento

O monitoramento de produção garante que seus aplicativos de IA implantados mantenham a qualidade e o desempenho em condições reais. Integrado ao Azure Monitor Application Insights, o Microsoft Foundry fornece painéis em tempo real que acompanham métricas operacionais, consumo de token, latência, taxas de erro e pontuações de qualidade. O Teams pode configurar alertas quando as saídas falham nos limites de qualidade ou produzem conteúdo prejudicial, permitindo resolução rápida de problemas.

Para obter detalhes sobre como configurar o monitoramento de produção, consulte Monitorar seus aplicativos de IA generativos e avaliar continuamente seus agentes de IA.

Rastreamento

O rastreamento distribuído captura o fluxo de execução de aplicativos de IA, fornecendo visibilidade de chamadas LLM, invocações de ferramentas, decisões de agente e dependências entre serviços. Baseado em padrões OpenTelemetry e integrado ao Application Insights, o rastreamento permite depurar comportamentos complexos de agente, identificar gargalos de desempenho e entender cadeias de raciocínio de várias etapas. Microsoft Foundry dá suporte ao rastreamento de frameworks populares, incluindo LangChain, Kernel semântico e o SDK de Agentes OpenAI.

Para obter diretrizes sobre como implementar o rastreamento, consulte Rastrear seu aplicativo e rastrear com o SDK de agentes.

O que são avaliadores?

Os avaliadores são ferramentas especializadas que medem a qualidade, a segurança e a confiabilidade das respostas de IA em todo o ciclo de vida de desenvolvimento.

Para obter uma lista completa de avaliadores internos, consulte a referência de avaliadores internos.

Os avaliadores se integram a cada estágio do ciclo de vida de IA para garantir confiabilidade, segurança e eficácia.

Os três estágios da avaliação do ciclo de vida do aplicativo de IA

Seleção de modelo base

Selecione o modelo de base correto comparando qualidade, desempenho da tarefa, considerações éticas e perfis de segurança em diferentes modelos.

Tools disponíveis: Foundry Benchmark da Microsoft para comparar modelos em conjuntos de dados públicos ou seus próprios dados e o SDK de Avaliação de IA do Azure para testar pontos de extremidade específicos do modelo.

Avaliação de pré-produção

Antes da implantação, o teste completo garante que seu agente de IA ou aplicativo esteja pronto para produção. Esse estágio valida o desempenho por meio de conjuntos de dados de avaliação, identifica casos de borda, avalia a robustez e mede as principais métricas, incluindo adesão à tarefa, aterramento, relevância e segurança. Para criar agentes prontos para produção com conversas interativas, chamadas de ferramentas e gerenciamento de estado, consulte o Foundry Agent Service.

Ferramentas e abordagens de avaliação:

Traga seus próprios dados: avalie agentes de IA e aplicativos usando seus próprios dados com avaliadores personalizados, de qualidade ou de segurança. Use o assistente de avaliação do Foundry ou o SDK de Avaliação de IA do Azure e veja os resultados no portal do Foundry.
AI red teaming agent: o AI red teaming agent simula ataques adversários complexos usando a estrutura PyRIT da Microsoft para identificar vulnerabilidades de segurança e proteção. É melhor usado com processos com participação humana no loop.

Como alternativa, você também pode usar o portal do Foundry para testar seus aplicativos de IA generativos.

Monitoramento pós-produção

Após a implantação, o monitoramento contínuo garante que seu aplicativo de IA mantenha a qualidade em condições reais:

Métricas operacionais: medição regular das principais métricas operacionais do agente de IA
Avaliação contínua: avaliação de qualidade e segurança do tráfego de produção a uma taxa amostrada
Avaliação agendada: Avaliação agendada de qualidade e segurança usando conjuntos de dados de teste para detectar descompasso do sistema
Agrupamento vermelho agendado: teste de adversário agendado para investigar vulnerabilidades de segurança e segurança
Alertas do Azure Monitor: Notificações quando as saídas falham nos limites de qualidade ou produzem conteúdo prejudicial

Integrado ao Azure Monitor Application Insights, o painel de Observabilidade do Foundry fornece insights em tempo real sobre métricas de desempenho, segurança e qualidade, permitindo resolução rápida de problemas e mantendo a confiança do usuário.

Guia rápido de avaliação

Propósito	Processo	Parâmetros, diretrizes e exemplos
Como configurar o rastreamento?	Configurar o rastreamento distribuído	Rastrear sua aplicação Rastrear com o SDK de Agentes
Para que você está avaliando?	Identificar ou criar avaliadores relevantes	Avaliadores internos Avaliadores personalizados Exemplos de SDK em Python C# exemplos de SDK
Quais dados você deve usar?	Carregar ou gerar conjunto de dados relevante	Geração de conjunto de dados sintético Executar o agrupamento vermelho de IA na nuvem
Como executar avaliações?	Executar avaliação	Avaliações de execução do agente Execução de nuvem remota Execução local
Como meu modelo/aplicativo foi executado?	Analisar resultados	Exibir resultados da avaliação
Como posso melhorar?	Analisar os resultados da avaliação e otimizar agentes	Otimize os agentes executando novamente as avaliações, consulte Avaliar modelos e aplicativos de IA generativos no portal. Analise os resultados da avaliação.

Suporte à região, limites de taxa e suporte à rede virtual

Para saber quais regiões dão suporte a avaliadores assistidos por IA, os limites de taxa que se aplicam às execuções de avaliação e como configurar o suporte à rede virtual para isolamento de rede, consulte o suporte à região, os limites de taxa e o suporte à rede virtual para avaliação.

Preços

Recursos de observabilidade, como avaliações de risco e segurança e avaliações contínuas, são cobrados com base no consumo, conforme listado na página de preços our Azure.