Perguntas frequentes sobre o CLI Agentic do AKS

Este artigo fornece respostas para algumas das perguntas mais comuns sobre a CLI agente do AKS (Serviço de Kubernetes do Azure).

O que é a CLI agentic para AKS?

A CLI do AKS é uma ferramenta de linha de comando baseada em IA, projetada para ajudar os usuários do AKS a resolver problemas no cluster de forma eficiente. Ele analisa sinais de telemetria (logs, métricas, eventos), correlaciona-os entre infraestrutura e cargas de trabalho e fornece insights acionáveis. O agente usa consultas de linguagem natural como entrada e retorna resumos de diagnóstico, análises de causa raiz e sugestões de correção. A CLI por meio de agentes não inclui os modelos de IA e, portanto, você precisa fornecer suas próprias chaves de API de LLM (grande modelo de linguagem) para que o agente funcione.

O que a CLI por meio de agentes do AKS pode fazer?

A CLI por meio de agentes do AKS funciona como um assistente local que interpreta consultas em linguagem natural, executa comandos de diagnóstico e retorna insights acionáveis. Ele se integra perfeitamente às ferramentas nativas do AKS e às fontes de telemetria, como eventos do Kubernetes, logs, Inspektor Gadget, Azure e APIs do AKS. Cada um deles está habilitado nativamente como conjunto de ferramentas em az aks agent

O agente respeita o RBAC (controle de acesso baseado em função) do Azure e os controles de identidade, pois herda as permissões dos usuários da CLI do Azure. Ele opera no modo somente leitura por padrão. Você pode configurar seu provedor de IA (por exemplo, OpenAI, Azure OpenAI e Antropípico) e o modelo. Você também pode configurar o agente para gerar as saídas do conjunto de ferramentas.

As saídas de az aks agent incluem:

  • Uma resposta resumida sintetizada por IA para a consulta do usuário.
  • Análise de causa raiz com evidências de suporte.
  • Sugestões de correção adaptadas às práticas recomendadas do AKS.
  • Os registros de diagnóstico e as saídas da ferramenta.

Quais são os usos pretendidos para a CLI agente do AKS?

A CLI agentic para AKS tem os seguintes usos pretendidos:

  • As interações humanas no loop com seus clusters do AKS para ajudar você a detectar, a diagnosticar e a resolver problemas com eficiência.
  • Interações somente leitura com as APIs do Kubernetes e do AKS. Você pode obter informações de recursos, entender a integridade dos recursos de cluster do AKS e seguir as práticas recomendadas gerais do Kubernetes e do AKS.

A CLI por meio de agentes do AKS não deve ser usada como uma codificação genérica ou agente de IA além do escopo das interações do AKS. Ele não pode acessar a Internet para responder perguntas genéricas.

O CLI autônomo do AKS é otimizado para cenários específicos do AKS. Ele se integra a ferramentas como kubectl, CLI do Azure, Inspektor Gadget e Azure Monitor, mas pode cometer erros. O agente pode ocasionalmente perder sinais sutis, interpretar mal a telemetria barulhenta ou sugerir mitigações que exijam validação humana. Por exemplo, ele pode atribuir incorretamente uma falha do DNS (Sistema de Nomes de Domínio) a uma política de rede quando a causa raiz for um servidor DNS upstream configurado incorretamente. Esse cenário pode ocorrer especialmente se a telemetria estiver incompleta ou as permissões forem restritas.

Para evitar o viés de automação, você deve tratar a saída do agente como um ponto de partida útil e não um veredicto final. Ele é excelente em identificar causas prováveis e orientar a investigação, mas a supervisão humana é essencial. A revisão humana é necessária em ambientes complexos ou de alto risco.

Quanto aos modelos de IA, recomendamos que você use um modelo implantado do Azure OpenAI, como GPT4o ou GPTo3. Você também pode usar um diretamente da plataforma de API OpenAI. Você pode usar qualquer provedor de modelo LLM com suporte por especificações de API Aberta, como Antropo e Gemini.

Como a CLI por meio de agentes foi avaliada no AKS? Quais métricas são usadas para medir o desempenho?

A CLI agente do AKS está sendo avaliada por meio de uma combinação de testes internos e avaliações programáticas projetadas para garantir que seus recursos de diagnóstico sejam precisos, relevantes e significativos.

Para as avaliações programáticas, medimos métricas padrão de IA responsável, como fundamentação, jailbreak de UPIA e XPIA, conteúdo prejudicial e qualidade da conversa (como coerência e fluência).

Esses testes nos ajudam a identificar lacunas no raciocínio, na integração de ferramentas e na execução do prompt. Uma métrica central para o sucesso é a precisão do diagnóstico do agente e a relevância de suas recomendações. O agente identificou corretamente a causa raiz e sugeriu mitigações acionáveis e com reconhecimento de contexto?

Realizamos bashes de bugs internos e equipes vermelhas para testar rigorosamente o comportamento do agente em vários casos. Verificamos se há degradação da integridade do nó, falhas de DNS, interrupções de atualização e problemas de agendamento de pod.

Reconhecemos a natureza dinâmica das interações agente-IA e damos as boas-vindas aos seus comentários como parte da versão prévia. Você pode compartilhar comentários diretamente conosco em aksagentcli@service.microsoft.com. Você também pode abrir um problema do GitHub.

Quais são as limitações da CLI de agentes para o AKS? Como posso minimizar o efeito dessas limitações quando uso o sistema?

A CLI agentic do AKS é poderosa e foi criada com a finalidade de diagnosticar e resolver problemas nos clusters AKS. Ele tem algumas limitações importantes que você deve estar ciente para garantir o uso efetivo e responsável:

  • A capacidade do agente de acessar e analisar dados depende diretamente de suas permissões e da disponibilidade da telemetria. Se você não tiver direitos de acesso suficientes ou se fontes de telemetria, como logs, métricas ou eventos estiverem ausentes ou incompletos, o agente poderá não conseguir gerar diagnósticos precisos ou completos.
  • O sistema está sujeito a limites de token ao processar grandes conjuntos de dados, como métricas de série temporal. Essas limitações podem restringir a profundidade ou a amplitude da análise em cenários complexos de solução de problemas.
  • Em seu estado atual de MVP, a CLI agente oferece suporte limitado para experiências gerenciadas do Azure. Alguns fluxos de trabalho, como a integração de alertas do Azure Monitor, podem não ter suporte total.

Para minimizar o efeito dessas limitações, você pode executar várias etapas proativas:

  • Verifique se as ferramentas de diagnóstico necessárias, como o Azure Monitor, estão configuradas corretamente para ajudar o agente a acessar a telemetria mais avançada e executar diagnósticos mais abrangentes.
  • Estenda os recursos da CLI do agente utilizando-a com servidores MCP (Azure Model Context Protocol) do Azure ou do AKS. Para obter mais informações, consulte Integrar o servidor do AKS MCP à CLI do agente do AKS.
  • Use o raciocínio de última geração ou modelos de uso geral, como GPT4o e GPTo3, para garantir os melhores resultados possíveis. A CLI por meio de agentes do AKS não inclui modelos de IA.

Quais fatores operacionais e configurações permitem o uso efetivo e responsável da CLI agente do AKS?

Para usar a CLI agente do AKS de forma eficaz e responsável, várias configurações operacionais desempenham uma função fundamental. O agente foi projetado para operar no modo somente leitura por padrão, o que garante um diagnóstico seguro sem fazer alterações no cluster. Quando as operações de gravação forem necessárias, como implantar pods de depuração ou executar etapas de correção, elas exigirão a aprovação explícita do usuário para manter o controle do usuário e minimizar os efeitos não intencionais.

O agente é executado localmente em seu computador e também oferece suporte a provedores de IA personalizados. Por esse motivo, você pode configurar suas próprias chaves de API LLM. Esta configuração garante que você possa incorporar os provedores e endpoints de IA aprovados da sua organização. Todo o processamento de dados ocorre localmente para preservar a privacidade dos dados e alinhar-se aos padrões de segurança da empresa.

O agente também oferece configurações de verbosidade configuráveis, que você pode usar para alternar entre resumos concisos e saídas de diagnóstico detalhadas, dependendo de suas necessidades. Essa flexibilidade dá suporte à coleta de insights rápidos e à transparência total sobre o raciocínio e a execução de ferramentas do agente.

A integração com a identidade do Azure e o RBAC garante ainda mais que o agente acesse apenas os recursos que você está autorizado a exibir. Essa restrição simplifica a instalação e impõe limites de acesso seguros. Juntas, essas configurações criam um ambiente seguro, consciente da privacidade e controlado pelo usuário para solucionar problemas de clusters do AKS com assistência de IA.

Como posso fornecer feedback ou obter ajuda com a CLI agentic do AKS?

É possível fornecer comentários ou obter ajuda com a CLI agente do AKS por meio de vários canais:

  • Problemas do GitHub e pull requests no repositório da CLI por meio de agentes.
  • Canais internos durante a fase de visualização.
  • Chamados de suporte do Azure ou envolvimento direto com a equipe de produto do AKS.

O que são plug-ins e como a CLI agente do AKS os usa?

No contexto da CLI agente do AKS, os plug-ins são extensões modulares que aprimoram os recursos de diagnóstico do agente integrando ferramentas externas, fontes de dados e lógica específica do domínio em seus fluxos de trabalho de solução de problemas. Esses plug-ins permitem que o agente vá além da execução de comando estático e incorpore o raciocínio dinâmico e com reconhecimento de cenário. O agente dá suporte aos seguintes tipos de plug-ins:

  • Integrações do conjunto de ferramentas: você pode estender os recursos do agente com conjuntos de ferramentas que se conectam a plataformas de observabilidade como Prometheus, Datadog e Azure Monitor. Esses conjuntos de ferramentas expõem métricas, logs e alertas que o agente pode consultar e analisar em tempo real. Por exemplo, um conjunto de ferramentas do Prometheus pode permitir que o agente busque tendências de uso de CPU e memória para um pod com falha. A integração com o Azure Monitor pode permitir a exibição de alertas recentes ou logs de atividade relevantes para um problema de integridade do nó.
  • Servidores MCP: os servidores de Protocolo de Contexto de Modelo atuam como intermediários que expõem ferramentas de diagnóstico e modelos de prompt a agentes de IA. No agente da CLI para AKS, os servidores MCP fornecem acesso estruturado aos recursos do Kubernetes e do Azure. Em seguida, o agente pode executar comandos como kubectl describe e az aks show ou até mesmo implantar pods de depuração. Esses servidores também ajudam a padronizar como as ferramentas são invocadas e como os dados são retornados, o que facilita a escala dos recursos do agente entre ambientes.

Quais dados a CLI agente do AKS pode fornecer aos plug-ins? Quais permissões os plug-ins têm?

Todos os plug-ins são somente pull. As ferramentas permitem que a CLI por meio de agentes do AKS extraia dados de várias fontes ou use os runbooks personalizados que ele insere como parte das solicitações de LLM para melhorar suas capacidades de diagnóstico. O único fluxo de dados externo é para os modelos de IA que você conecta à CLI agente do AKS.

Que tipos de problemas podem surgir quando uso a CLI agente para AKS habilitada com plug-ins?

Quando você usa a CLI agente do AKS com plug-ins, podem surgir vários tipos de problemas que podem afetar a confiabilidade ou a precisão da experiência de solução de problemas.

Um desafio comum é a invocação incorreta de ferramentas devido a prompts configurados incorretamente. Os plug-ins geralmente dependem de modelos de prompt para orientar o raciocínio e a seleção de ferramentas da IA. Mesmo pequenos erros na lógica ou na estrutura do prompt podem levar ao acionamento das ferramentas erradas ou ao uso das ferramentas corretas no contexto inadequado. O resultado pode ser diagnóstico enganoso ou investigações incompletas.

Outro risco é a geração de saídas fabricadas ou incorretas, especialmente quando os plug-ins retornam dados incompletos, desatualizados ou ambíguos. Nesses casos, a IA pode tentar "preencher as lacunas" com explicações plausíveis, mas incorretas. Erros também podem ocorrer quando a telemetria está ausente ou quando o plug-in é usado em uma configuração de cluster que não dá suporte. Por exemplo, um cluster privado pode não ter acesso a determinadas APIs ou ferramentas.

Para mitigar esses riscos, a CLI de agente do AKS inclui várias salvaguardas. O log detalhado e o relatório de erros podem ajudá-lo a rastrear exatamente quais ferramentas foram invocadas, quais dados foram retornados e como a IA os interpretou. Os relatórios facilitam a detecção e a correção de problemas. Você também pode substituir ou desabilitar plug-ins específicos manualmente se suspeitar que eles estão causando problemas ou retornando dados não confiáveis.

Por fim, a documentação clara e o suporte à comunidade são essenciais para o desenvolvimento e a manutenção do plug-in. Plug-ins bem documentados com exemplos, notas de compatibilidade de versão e limitações conhecidas ajudam você a entender como usá-los com responsabilidade e contribuir com melhorias quando necessário. O uso dos modelos de LLM/raciocínio de última geração dos principais provedores de IA também reduz o risco de informações incorretas.