Compartilhar via


Gateway de IA para pontos de extremidade LLM

Importante

Esta página aborda o novo Gateway de IA (visível na navegação esquerda da interface do usuário), que está atualmente em Beta. Os administradores de conta podem habilitar o acesso a esse recurso na página Visualizações do console da conta. Consulte Gerenciar prévias do Azure Databricks.

Para obter detalhes sobre a versão anterior do Gateway de IA, consulte o Gateway de IA para atender pontos de extremidade.

O que é o Gateway de IA?

O AI Gateway é o plano de gerenciamento corporativo para governar os pontos de extremidade LLM e os agentes de programação. Use-o para analisar o uso, configurar permissões e gerenciar a capacidade entre provedores.

Com o Gateway de IA, você pode:

  • Analisar como as LLMs e os agentes de codificação são usados em sua organização
  • Govern acesso a modelos Azure Databricks hospedados e externos
  • Log tráfego LLM em todos os endpoints para o Unity Catalog
  • Monitorar a integridade do endpoint e a disponibilidade do provedor
  • Impor limites de taxa e guardrails
  • Atribuir custos a pontos de extremidade, usuários e equipes específicos
  • Rotear o tráfego de forma inteligente entre provedores para confiabilidade e balanceamento de carga
  • Dividir o tráfego entre vários back-ends de modelo para escalabilidade
  • Trocar provedores e modelos sem alterações de código

Visão geral do Gateway de IA

Recursos com suporte

A tabela a seguir define os recursos disponíveis do Gateway de IA:

Característica DESCRIÇÃO
Permissions Controlar quem tem acesso aos pontos de extremidade.
Acompanhamento de uso Monitore o uso e os custos usando tabelas do sistema.
Tabelas de inferências Monitorar e auditar solicitações e respostas nas tabelas Delta do Catálogo do Unity.
Métricas operacionais Monitore o uso em tempo real.
Limites de taxa Imponha limites de consumo ao nível de dispositivo, usuário ou grupo.
Guardrails Aplique filtragem de conteúdo, proteção de dados confidenciais e políticas personalizadas.
Atribuição de custo Acompanhe os custos de forma detalhada por endpoint, usuário e equipe, utilizando tags de endpoint e solicitação.
Fallbacks Aumente a confiabilidade roteando para vários provedores quando ocorrerem falhas.
Divisão de tráfego Distribua o tráfego entre vários back-ends de modelo para melhor escalabilidade e balanceamento de carga.
APIs Personalizadas Governe APIs personalizadas e externas com os mesmos controles de acesso, limites de taxa e logging que LLM endpoints.

Observação

Os recursos do Gateway de IA não incorrem em cobranças durante o Beta.

Usar o Gateway de IA

Azure Databricks fornece endpoints do Gateway de IA para LLMs populares. Você pode criar novos pontos de extremidade para controlar agentes de codificação e outros aplicativos.

Para começar, consulte a seção Configurar pontos de extremidade do Gateway de IA. Para consultar pontos de extremidade, veja os pontos de extremidade do Gateway de IA. Para integrar agentes de codificação como Cursor, CLI do Gemini, CLI do Codex e Claude Code, consulte Integrar com agentes de codificação.

Início rápido de consulta

O exemplo a seguir mostra como consultar um endpoint do Gateway de IA usando Python e o cliente OpenAI.

from openai import OpenAI
import os

# To get a Databricks token, see https://docs.databricks.com/dev-tools/auth/pat
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
    api_key=DATABRICKS_TOKEN,
    base_url="https://<ai-gateway-url>/mlflow/v1"
)

chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "Hello!"},
        {"role": "assistant", "content": "Hello! How can I assist you today?"},
        {"role": "user", "content": "What is Databricks?"},
    ],
    model="databricks-gpt-5-2",
    max_tokens=256
)

print(chat_completion.choices[0].message.content)

Substitua <ai-gateway-url> pela URL do ponto de extremidade do Gateway de IA.

Próximas etapas