Gateway de IA para pontos de extremidade LLM

Importante

Esta página aborda o novo Gateway de IA (visível na navegação esquerda da interface do usuário), que está atualmente em Beta. Os administradores de conta podem habilitar o acesso a esse recurso na página Visualizações do console da conta. Consulte Gerenciar prévias do Azure Databricks.

Para obter detalhes sobre a versão anterior do Gateway de IA, consulte o Gateway de IA para atender pontos de extremidade.

O que é o Gateway de IA?

O AI Gateway é o plano de gerenciamento corporativo para governar os pontos de extremidade LLM e os agentes de programação. Use-o para analisar o uso, configurar permissões e gerenciar a capacidade entre provedores.

Com o Gateway de IA, você pode:

Analisar como as LLMs e os agentes de codificação são usados em sua organização
Govern acesso a modelos Azure Databricks hospedados e externos
Log tráfego LLM em todos os endpoints para o Unity Catalog
Monitorar a integridade do endpoint e a disponibilidade do provedor
Impor limites de taxa e guardrails
Atribuir custos a pontos de extremidade, usuários e equipes específicos
Rotear o tráfego de forma inteligente entre provedores para confiabilidade e balanceamento de carga
Dividir o tráfego entre vários back-ends de modelo para escalabilidade
Trocar provedores e modelos sem alterações de código

Visão geral do Gateway de IA

Recursos com suporte

A tabela a seguir define os recursos disponíveis do Gateway de IA:

Característica	DESCRIÇÃO
Permissions	Controlar quem tem acesso aos pontos de extremidade.
Acompanhamento de uso	Monitore o uso e os custos usando tabelas do sistema.
Tabelas de inferências	Monitorar e auditar solicitações e respostas nas tabelas Delta do Catálogo do Unity.
Métricas operacionais	Monitore o uso em tempo real.
Limites de taxa	Imponha limites de consumo ao nível de dispositivo, usuário ou grupo.
Guardrails	Aplique filtragem de conteúdo, proteção de dados confidenciais e políticas personalizadas.
Atribuição de custo	Acompanhe os custos de forma detalhada por endpoint, usuário e equipe, utilizando tags de endpoint e solicitação.
Fallbacks	Aumente a confiabilidade roteando para vários provedores quando ocorrerem falhas.
Divisão de tráfego	Distribua o tráfego entre vários back-ends de modelo para melhor escalabilidade e balanceamento de carga.
APIs Personalizadas	Governe APIs personalizadas e externas com os mesmos controles de acesso, limites de taxa e logging que LLM endpoints.

Observação

Os recursos do Gateway de IA não incorrem em cobranças durante o Beta.

Usar o Gateway de IA

Azure Databricks fornece endpoints do Gateway de IA para LLMs populares. Você pode criar novos pontos de extremidade para controlar agentes de codificação e outros aplicativos.

Para começar, consulte a seção Configurar pontos de extremidade do Gateway de IA. Para consultar pontos de extremidade, veja os pontos de extremidade do Gateway de IA. Para integrar agentes de codificação como Cursor, CLI do Gemini, CLI do Codex e Claude Code, consulte Integrar com agentes de codificação.

Início rápido de consulta

O exemplo a seguir mostra como consultar um endpoint do Gateway de IA usando Python e o cliente OpenAI.

from openai import OpenAI
import os

# To get a Databricks token, see https://docs.databricks.com/dev-tools/auth/pat
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')

client = OpenAI(
    api_key=DATABRICKS_TOKEN,
    base_url="https://<ai-gateway-url>/mlflow/v1"
)

chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "Hello!"},
        {"role": "assistant", "content": "Hello! How can I assist you today?"},
        {"role": "user", "content": "What is Databricks?"},
    ],
    model="databricks-gpt-5-2",
    max_tokens=256
)

print(chat_completion.choices[0].message.content)

Substitua <ai-gateway-url> pela URL do ponto de extremidade do Gateway de IA.

Próximas etapas

Comentários

Esta página foi útil?

Last updated on 2026-04-19