Compartilhar via


Código Genie para visibilidade e avaliação do agente

O Genie Code fornece uma interface de linguagem natural para entender, depurar e melhorar seus aplicativos GenAI no MLflow. Possui acesso de leitura a tudo em seu experimento, desde rastreamentos, prompts e conjuntos de dados até execuções de avaliação, pontuadores e sessões de rotulagem, permitindo explorar seus dados de observabilidade e avaliação de forma conversacional, sem precisar escrever consultas ou navegar por várias páginas da interface de usuário.

Para começar, clique no ícone Genie Code no canto superior direito da sua área de trabalho ao visualizar um experimento.

Código do Genie para observação e avaliação do agente

Capabilities

O Genie Code pode ajudá-lo com uma ampla gama de tarefas de observabilidade e avaliação, incluindo:

  • Análise de rastreamento e depuração: investigue rastreamentos com falha, encontre erros, examine árvores de intervalo, identifique as causas raiz, analise a latência e identifique gargalos no fluxo de execução do agente. Aprofunde-se em qualquer traço para inspecionar sua hierarquia completa, incluindo entradas, saídas, metadados e uso de tokens em cada estágio.
  • Métricas e desempenho: calcular percentis de latência de computação (P50/P95/P99), acompanhar taxas de erro e taxa de transferência ao longo do tempo, analisar padrões de uso e custos de token, e comparar o desempenho em diferentes períodos de tempo ou filtros.
  • Qualidade e avaliações: examine as pontuações de avaliação de feedback humano, juízes LLM e verificações programáticas. Inspecione os conjuntos de dados de avaliação, verifique os pontuadores registrados e suas configurações e obtenha ajuda para configurar mlflow.genai.evaluate() com os marcadores certos.
  • Rotulagem e revisão: visualize sessões de rotulagem e quem está designado para revisar rastreamentos, e analise esquemas de rotulagem para entender os critérios de feedback, como classificações, comentários e expectativas.
  • Registro de prompt: procure prompts no Catálogo do Unity, exiba modelos, versões e aliases.
  • Instrumentation guidance: Obtenha ajuda para adicionar rastreamento ao seu código com autolog(), @mlflow.trace ou intervalos manuais, com snippets de código executáveis que você pode colar diretamente em blocos de anotações Azure Databricks.

Perguntas de exemplo

Aqui estão algumas coisas que você pode perguntar ao Genie Code:

  • "Ajude-me a descobrir problemas com a ferramenta do meu agente chamando os rastreamentos para este experimento nas últimas 3 horas"
  • "Identificar casos em que os usuários ficam frustrados nas conversas com meu agente"
  • "Quais sessões têm as pontuações mais baixas de feedback do usuário e o que deu errado nessas sessões?"
  • "Quais são os padrões de falha mais comuns em meus rastreamentos na semana passada, e quais pontuadores devo adicionar para pegá-los?"
  • "Quais intervalos consomem mais tokens em todos os meus rastreamentos?"
  • "Localizar rastreamentos em que o recuperador não retornou resultados, mas o agente ainda tentou responder"
  • Ajude-me a configurar a avaliação para o meu agente RAG com os avaliadores certos

Requisitos

Para usar o Genie Code para observabilidade e avaliação do agente, seu espaço de trabalho precisa do seguinte:

Próximas Etapas