Gateway IA do Unity para servidor de endpoints

Importante

Uma nova experiência do Gateway de IA do Unity está disponível em Beta. O novo Gateway de IA do Unity é o plano de controle empresarial para governar pontos de extremidade de LLM e agentes de codificação com funcionalidades aprimoradas. Consulte o Gateway de IA do Unity para agentes e LLMs.

Esta página descreve o Gateway de IA do Unity para servir endpoints, que rege e monitora o acesso a modelos de IA generativos com suporte e seus endpoints associados de provisionamento de modelo.

O que é o Gateway de IA do Unity para gerenciar endpoints?

O Gateway de IA do Unity foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativos em uma organização. É um serviço centralizado que traz governança, monitoramento e preparação da produção para modelar os pontos de extremidade de serviço. Ele também permite que você execute, proteja e controle o tráfego de IA para democratizar e acelerar a adoção da IA na sua organização.

Todos os dados são registrados em log nas tabelas Delta no Catálogo do Unity.

Para começar a visualizar insights dos dados do Gateway de IA do Unity, baixe o painel de exemplo do Gateway de IA do Unity do GitHub. Esse painel aproveita os dados das tabelas de inferência de registro em log de conteúdo e acompanhamento de uso.

Depois de baixar o arquivo JSON, importe o painel para o workspace. Para obter instruções sobre como importar painéis, confira Importar um arquivo de painel.

Funcionalidades com suporte

Importante

O novo Gateway de IA do Unity apresenta uma interface rica de usuário, melhor visibilidade, e cobertura de API ampliada para LLMs, incluindo modelos externos e APIs de Modelos Fundamentais baseadas em pagamento por token. É recomendável usar o Gateway de IA do Unity para desbloquear esses novos recursos.

A tabela a seguir define os recursos disponíveis do Unity AI Gateway e quais tipos de endpoints de serviço de modelo os suportam.

Característica Definition Ponto de extremidade do modelo externo Ponto de extremidade de pagamento por token das APIs de Modelo de Base As APIs dos Modelos de Base provisionaram o ponto de extremidade da taxa de transferência Agentes de IA do Mosaic Ponto de extremidade de modelo personalizado
Disponível no Gateway de IA do Unity Use os recursos aprimorados do Gateway de IA do Unity. Consulte o Gateway de IA do Unity para agentes e LLMs. Suportado Suportado Sem suporte Sem suporte Sem suporte
Limitação de permissão e taxa Controle quem tem acesso e com que nível de permissão. Suportado Suportado Suportado Sem suporte Suportado
Registro em log de payload Monitore e audite dados enviados para as APIs de modelo usando tabelas de inferência. Suportado Suportado Suportado Suportado Suportado
Acompanhamento de uso Monitore o uso operacional nos pontos de extremidade e os custos associados usando as tabelas do sistema. Suportado Suportado Suportado Sem suporte Suportado
Diretrizes de segurança para IA Evite dados indesejados e não seguros em solicitações e respostas. Consulte Proteções de IA. Suportado Suportado Suportado Sem suporte Sem suporte
Fallbacks Minimize as interrupções de produção durante e após a implantação. Suportado Sem suporte Sem suporte Sem suporte Sem suporte
Separação de tráfego Balancear o tráfego entre modelos. Suportado Sem suporte Suportado Sem suporte Suportado

O Gateway de IA do Unity gera encargos com base em recursos habilitados. Os recursos pagos incluem registro de carga e acompanhamento de uso. Recursos como permissões de consulta, limitação de fluxo, alternativas e separação de tráfego são gratuitos. Quaisquer novos recursos estão sujeitos a cobrança.

Diretrizes de segurança para IA

Importante

Esse recurso está em Visualização Pública.

As Proteções da IA permitem que os usuários configurem e imponham a conformidade dos dados no nível do ponto de extremidade de serviço do modelo e reduzam o conteúdo nocivo em todas as solicitações enviadas ao modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Consulte Como configurar as proteções em um modelo que serve o ponto de extremidade.

Importante

O serviço de moderação Diretrizes de segurança para IA tem uma dependência de modelos de pagamento por token das APIs de Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails para regiões que dão suporte a APIs de Modelo de Fundação pagas por token.

A tabela a seguir resume as proteções de integridade configuráveis. Confira Limitações.

Guardrail Definition
Filtragem de segurança A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio.
O filtro de segurança do Gateway de IA do Unity é criado com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão do modelo Meta Llama Guard 2 8B.
O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Detecção de PIIs (informações de identificação pessoal) Os clientes podem detectar informações confidenciais, como números de cartão de crédito para usuários.
Para esse recurso, o Gateway de IA do Unity usa o Presidio para detectar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de email, números de telefone, números de conta bancária e números de seguridade social.
O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados.
Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social.

Usar o Gateway de IA do Unity

Você pode configurar os recursos do Gateway de IA do Unity nos endpoints de atendimento de modelo usando a UI de Servir. Consulte Configurar o Gateway de IA do Unity em pontos de extremidade para servir modelos.

Limitações

A seguir, estão as limitações para endpoints habilitados pelo Unity AI Gateway:

  • Quando as proteções de IA são utilizadas, o tamanho do lote da solicitação, seja para incorporações, conclusões ou o parâmetro n das solicitações de chat, não pode exceder 16.
  • Se você utilizar a função chamando e especificar diretrizes de segurança de IA, essas diretrizes não serão aplicadas às solicitações nem às respostas intermediárias da função. Contudo, os protetores são aplicados à resposta de saída final.
  • Não há suporte para cargas de trabalho de texto para imagem.
  • Somente o rastreamento de uso tem suporte para cargas de trabalho de inferência batch em endpoints de pagamento por token que têm recursos do Unity AI Gateway habilitados. Na tabela do endpoint_usage sistema, somente as linhas correspondentes à solicitação de inferência do lote estão visíveis.
  • Não há suporte para diretrizes de segurança para IA e mecanismos de fallback em pontos de extremidade de serviço de modelo personalizado.
  • Para pontos de extremidade de serviço de modelo personalizado, somente cargas de trabalho que não são otimizadas para roteamento dão suporte à limitação de fluxo e ao acompanhamento de uso.
  • As tabelas de inferência para pontos de extremidade de serviço de modelo otimizado de rota estão na Visualização Pública.
  • Consulte as limitações da tabela de inferência habilitada pelo Gateway de IA do Unity para obter detalhes sobre as limitações da tabela de inferência.