Gateway de IA do Unity para agentes e LLMs

Importante

Esta página aborda o novo Gateway de IA (visível na navegação esquerda da interface do usuário), que está atualmente em Beta. Os administradores de conta podem habilitar o acesso a esse recurso na página Visualizações do console da conta. Consulte Gerenciar prévias do Azure Databricks.

Para obter detalhes sobre a versão anterior do Gateway de IA do Unity, consulte o Gateway de IA do Unity para atender pontos de extremidade.

Observação

Não há suporte para o Gateway de IA do Unity no AWS GovCloud ou Azure Governamental.

O que é o Gateway de IA do Unity?

O Gateway de IA do Unity é o plano de controle empresarial para administrar pontos de extremidade LLM, agentes e ferramentas de programação. Use-o para analisar o uso, configurar permissões e gerenciar a capacidade entre provedores.

Com o Gateway de IA do Unity, você pode:

  • Analisar como LLMs, agentes e ferramentas de codificação são usados em sua organização
  • Govern acesso a modelos Azure Databricks hospedados e externos
  • Log tráfego LLM em todos os endpoints para o Unity Catalog
  • Monitorar a integridade do endpoint e a disponibilidade do provedor
  • Impor limites de taxa e guardrails
  • Atribuir custos a pontos de extremidade, usuários e equipes específicos
  • Rotear o tráfego de forma inteligente entre provedores para confiabilidade e balanceamento de carga
  • Dividir o tráfego entre vários back-ends de modelo para escalabilidade
  • Trocar provedores e modelos sem alterações de código

Visão geral do ai-gateway

Recursos com suporte

A tabela a seguir define os recursos disponíveis do Gateway de IA do Unity:

Característica DESCRIÇÃO
Permissions Controlar quem tem acesso aos pontos de extremidade.
Acompanhamento de uso Monitore o uso e os custos usando tabelas do sistema.
Tabelas de inferências Monitorar e auditar solicitações e respostas nas tabelas Delta do Catálogo do Unity.
Métricas operacionais Monitore o uso em tempo real.
Limites de taxa Imponha limites de consumo ao nível de dispositivo, usuário ou grupo.
Guardrails Aplique filtragem de conteúdo, proteção de dados confidenciais e políticas personalizadas.
Atribuição de custo Acompanhe os custos de forma detalhada por endpoint, usuário e equipe, utilizando tags de endpoint e solicitação.
Fallbacks Aumente a confiabilidade roteando para vários provedores quando ocorrerem falhas.
Divisão de tráfego Distribua o tráfego entre vários back-ends de modelo para melhor escalabilidade e balanceamento de carga.
APIs Personalizadas Governe APIs personalizadas e externas com os mesmos controles de acesso, limites de taxa e logging que LLM endpoints.

Observação

Os recursos do Gateway de IA do Unity não geram encargos durante o beta.

Usar o Gateway de IA do Unity

Azure Databricks fornece pontos de extremidade do Unity AI Gateway para LLMs populares. Você pode criar novos endpoints para gerenciar agentes, ferramentas de codificação e outros aplicativos.

Para começar, consulte Configurar pontos de extremidade do Unity AI Gateway. Para consultar endpoints, consulte Consultar endpoints do Gateway de IA do Unity. Para integrar agentes de codificação como Cursor, CLI do Gemini, CLI do Codex e Claude Code, consulte Integrar com agentes de codificação. Para rotear chamadas LLM de agentes que você cria e implanta nos Aplicativos do Databricks por meio do Gateway de IA do Unity, consulte a Etapa 4. Governe o uso de LLM de seus agentes nos Aplicativos do Databricks com o Gateway de IA do Unity.

Início rápido de consulta

O exemplo a seguir mostra como consultar um endpoint do Gateway de IA do Unity usando o cliente OpenAI e Python.

from openai import OpenAI
import os

# To get a Databricks token, see https://docs.databricks.com/dev-tools/auth/pat
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
    api_key=DATABRICKS_TOKEN,
    base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)

chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "Hello!"},
        {"role": "assistant", "content": "Hello! How can I assist you today?"},
        {"role": "user", "content": "What is Databricks?"},
    ],
    model="databricks-gpt-5-2",
    max_tokens=256
)

print(chat_completion.choices[0].message.content)

Substitua <workspace-url> pela URL do workspace Azure Databricks.

Próximas etapas