Geração de Endpoints pelo Unity AI Gateway

Importante

Uma nova experiência Unity AI Gateway está disponível em versão Beta. O novo Unity AI Gateway é o plano de controlo empresarial para gerir endpoints LLM e agentes de codificação com funcionalidades melhoradas. Consulte o Unity AI Gateway para agentes e LLMs.

Esta página descreve o Unity AI Gateway para a disponibilização de endpoints, que governa e monitoriza o acesso a modelos de IA generativa suportados e aos seus endpoints de disponibilização de modelos associados.

O que é o Unity AI Gateway para a gestão de endpoints?

O Unity AI Gateway foi concebido para simplificar a utilização e gestão de modelos e agentes de IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e governe o tráfego de IA para democratizar e acelerar a adoção de IA para sua organização.

Todos os dados são registrados em tabelas Delta no Unity Catalog.

Para começar a visualizar insights a partir dos seus dados do Unity AI Gateway, descarregue o painel exemplo do Unity AI Gateway da GitHub. Este dashboard utiliza os dados das tabelas de inferência de monitorização de uso e registo de carga.

Depois de baixar o arquivo JSON, importe o painel para seu espaço de trabalho. Para obter instruções sobre como importar painéis, consulte Importar um arquivo de painel.

Funcionalidades suportadas

Importante

O novo Unity AI Gateway apresenta uma interface rica, melhor observabilidade e cobertura alargada de APIs para LLMs, incluindo modelos externos e APIs do Foundation Model pay-per-token. Recomendamos a utilização do Unity AI Gateway para desbloquear estas novas capacidades.

A tabela seguinte define as funcionalidades disponíveis do Unity AI Gateway e que tipos de endpoints de serviço as suportam.

Característica Definition Ponto de extremidade do modelo externo Ponto de extremidade de pagamento por token das APIs do Modelo de Base Ponto de extremidade de taxa de transferência provisionada de APIs do Modelo de Base Agentes de IA em mosaico Endpoint de modelo personalizado
Disponível no Unity AI Gateway Utilize funcionalidades melhoradas do Unity AI Gateway. Consulte o Unity AI Gateway para agentes e LLMs. Suportado Suportado Não suportado Não suportado Não suportado
Permissão e limitação de taxa Controle quem tem acesso e quanto acesso. Suportado Suportado Suportado Não suportado Suportado
Registo de carga útil Monitore e audite os dados que estão sendo enviados para APIs de modelo usando tabelas de inferência. Suportado Suportado Suportado Suportado Suportado
Monitorização de utilização Monitore o uso operacional nos endpoints e os custos associados, utilizando as tabelas do sistema . Suportado Suportado Suportado Não suportado Suportado
Barreiras de Segurança de IA Evite dados indesejados e inseguros em solicitações e respostas. Veja Guardiões de IA. Suportado Suportado Suportado Não suportado Não suportado
Fallbacks Minimize as interrupções de produção durante e após a implantação. Suportado Não suportado Não suportado Não suportado Não suportado
Divisão de tráfego Distribua o tráfego de carga entre modelos. Suportado Não suportado Suportado Não suportado Suportado

O Unity AI Gateway incorre em custos com base em funcionalidades ativadas. Os recursos pagos incluem registro de carga útil e rastreamento de uso. Recursos como permissões de consulta, limitação de velocidade, alternativas e divisão de tráfego são gratuitos. Quaisquer novas funcionalidades estão sujeitas a cobrança.

Restrições de IA

Importante

Este recurso está no Public Preview.

Os Guardrails de IA permitem que os usuários configurem e imponham a conformidade de dados no nível de ponto final de serviço do modelo e reduzam o conteúdo prejudicial em quaisquer solicitações enviadas para o modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar trilhos de segurança num ponto de serviço de modelo.

Importante

O serviço de moderação AI Guardrails depende dos modelos de pagamento por token das APIs do Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails a regiões que suportam APIs do Modelo de Fundação pay-per-token.

A tabela a seguir resume os guarda-corpos configuráveis. Consulte Limitações.

Rail de proteção Definition
Filtragem de segurança A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio.
O filtro de segurança do Unity AI Gateway foi construído com o Meta Llama 3. A Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão modelo Meta Llama Guard 2 8B.
Meta Llama 3 é licenciado sob a LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Deteção de informações de identificação pessoal (PII) Os clientes podem detetar qualquer informação confidencial, como números de cartão de crédito para os usuários.
Para esta funcionalidade, o Unity AI Gateway utiliza o Presidio para detetar as seguintes categorias de PII nos EUA: números de cartões de crédito, endereços de email, números de telefone, números de contas bancárias e números de segurança social.
O classificador PII pode ajudar a identificar informações confidenciais ou PII em dados estruturados e não estruturados. No entanto, por estar usando mecanismos de deteção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, devem ser utilizados sistemas e proteções adicionais.
Esses métodos de classificação têm como escopo principal as categorias de PII dos EUA, como números de telefone dos EUA e números de segurança social.

Utilizar o Unity AI Gateway

Pode configurar funcionalidades do Unity AI Gateway nos seus endpoints de disponibilização de modelo usando a interface de serviço. Consulte a configuração do Unity AI Gateway nos endpoints de serviço de modelos.

Limitações

As seguintes são as limitações para endpoints com Unity AI Gateway ativados:

  • Quando são usadas barreiras de segurança de IA, o tamanho do lote de solicitações, seja ele de incorporações, de conclusões ou o parâmetro n de solicitações de chat, não pode exceder 16.
  • Se você usar chamada de função e especificar guarda-corpos de IA, esses guarda-corpos não serão aplicados às solicitações e respostas intermediárias da função. No entanto, limites são aplicados à resposta final.
  • Não há suporte para cargas de trabalho de texto em imagem.
  • Apenas o rastreamento de utilização é suportado para cargas de trabalho de inferência em lote em endpoints pay-per-token com funcionalidades do Unity AI Gateway ativadas. Na tabela do sistema, endpoint_usage apenas as linhas correspondentes à solicitação de inferência em lote são visíveis.
  • Não há suporte para guarda-corpos e fallbacks de IA em endpoints de serviço de modelo personalizado.
  • Para pontos de extremidade de serviço de modelo personalizado, somente cargas de trabalho que não são otimizadas para rota suportam limitação de taxa e rastreamento de uso.
  • As tabelas de inferência para pontos de extremidade para serviço de modelo otimizado de rotas estão em Visualização pública.
  • Consulte as limitações das tabelas de inferência habilitadas pelo Unity AI Gateway para detalhes sobre as limitações das tabelas de inferência.