Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Uma nova experiência do Gateway de IA do Unity está disponível em Beta. O novo Gateway de IA do Unity é o plano de controle empresarial para governar pontos de extremidade de LLM e agentes de codificação com funcionalidades aprimoradas. Consulte o Gateway de IA do Unity para agentes e LLMs.
Esta página descreve o Gateway de IA do Unity para servir endpoints, que rege e monitora o acesso a modelos de IA generativos com suporte e seus endpoints associados de provisionamento de modelo.
O que é o Gateway de IA do Unity para gerenciar endpoints?
O Gateway de IA do Unity foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativos em uma organização. É um serviço centralizado que traz governança, monitoramento e preparação da produção para modelar os pontos de extremidade de serviço. Ele também permite que você execute, proteja e controle o tráfego de IA para democratizar e acelerar a adoção da IA na sua organização.
Todos os dados são registrados em log nas tabelas Delta no Catálogo do Unity.
Para começar a visualizar insights dos dados do Gateway de IA do Unity, baixe o painel de exemplo do Gateway de IA do Unity do GitHub. Esse painel aproveita os dados das tabelas de inferência de registro em log de conteúdo e acompanhamento de uso.
Depois de baixar o arquivo JSON, importe o painel para o workspace. Para obter instruções sobre como importar painéis, confira Importar um arquivo de painel.
Funcionalidades com suporte
Importante
O novo Gateway de IA do Unity apresenta uma interface rica de usuário, melhor visibilidade, e cobertura de API ampliada para LLMs, incluindo modelos externos e APIs de Modelos Fundamentais baseadas em pagamento por token. É recomendável usar o Gateway de IA do Unity para desbloquear esses novos recursos.
A tabela a seguir define os recursos disponíveis do Unity AI Gateway e quais tipos de endpoints de serviço de modelo os suportam.
| Característica | Definition | Ponto de extremidade do modelo externo | Ponto de extremidade de pagamento por token das APIs de Modelo de Base | As APIs dos Modelos de Base provisionaram o ponto de extremidade da taxa de transferência | Agentes de IA do Mosaic | Ponto de extremidade de modelo personalizado |
|---|---|---|---|---|---|---|
| Disponível no Gateway de IA do Unity | Use os recursos aprimorados do Gateway de IA do Unity. Consulte o Gateway de IA do Unity para agentes e LLMs. | Suportado | Suportado | Sem suporte | Sem suporte | Sem suporte |
| Limitação de permissão e taxa | Controle quem tem acesso e com que nível de permissão. | Suportado | Suportado | Suportado | Sem suporte | Suportado |
| Registro em log de payload | Monitore e audite dados enviados para as APIs de modelo usando tabelas de inferência. | Suportado | Suportado | Suportado | Suportado | Suportado |
| Acompanhamento de uso | Monitore o uso operacional nos pontos de extremidade e os custos associados usando as tabelas do sistema. | Suportado | Suportado | Suportado | Sem suporte | Suportado |
| Diretrizes de segurança para IA | Evite dados indesejados e não seguros em solicitações e respostas. Consulte Proteções de IA. | Suportado | Suportado | Suportado | Sem suporte | Sem suporte |
| Fallbacks | Minimize as interrupções de produção durante e após a implantação. | Suportado | Sem suporte | Sem suporte | Sem suporte | Sem suporte |
| Separação de tráfego | Balancear o tráfego entre modelos. | Suportado | Sem suporte | Suportado | Sem suporte | Suportado |
O Gateway de IA do Unity gera encargos com base em recursos habilitados. Os recursos pagos incluem registro de carga e acompanhamento de uso. Recursos como permissões de consulta, limitação de fluxo, alternativas e separação de tráfego são gratuitos. Quaisquer novos recursos estão sujeitos a cobrança.
Diretrizes de segurança para IA
Importante
Esse recurso está em Visualização Pública.
As Proteções da IA permitem que os usuários configurem e imponham a conformidade dos dados no nível do ponto de extremidade de serviço do modelo e reduzam o conteúdo nocivo em todas as solicitações enviadas ao modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Consulte Como configurar as proteções em um modelo que serve o ponto de extremidade.
Importante
O serviço de moderação Diretrizes de segurança para IA tem uma dependência de modelos de pagamento por token das APIs de Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails para regiões que dão suporte a APIs de Modelo de Fundação pagas por token.
A tabela a seguir resume as proteções de integridade configuráveis. Confira Limitações.
| Guardrail | Definition |
|---|---|
| Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do Gateway de IA do Unity é criado com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão do modelo Meta Llama Guard 2 8B. O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis. |
| Detecção de PIIs (informações de identificação pessoal) | Os clientes podem detectar informações confidenciais, como números de cartão de crédito para usuários. Para esse recurso, o Gateway de IA do Unity usa o Presidio para detectar as seguintes categorias de PII nos EUA: números de cartão de crédito, endereços de email, números de telefone, números de conta bancária e números de seguridade social. O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados. Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social. |
Usar o Gateway de IA do Unity
Você pode configurar os recursos do Gateway de IA do Unity nos endpoints de atendimento de modelo usando a UI de Servir. Consulte Configurar o Gateway de IA do Unity em pontos de extremidade para servir modelos.
Limitações
A seguir, estão as limitações para endpoints habilitados pelo Unity AI Gateway:
- Quando as proteções de IA são utilizadas, o tamanho do lote da solicitação, seja para incorporações, conclusões ou o parâmetro
ndas solicitações de chat, não pode exceder 16. - Se você utilizar a função chamando e especificar diretrizes de segurança de IA, essas diretrizes não serão aplicadas às solicitações nem às respostas intermediárias da função. Contudo, os protetores são aplicados à resposta de saída final.
- Não há suporte para cargas de trabalho de texto para imagem.
- Somente o rastreamento de uso tem suporte para cargas de trabalho de inferência batch em endpoints de pagamento por token que têm recursos do Unity AI Gateway habilitados. Na tabela do
endpoint_usagesistema, somente as linhas correspondentes à solicitação de inferência do lote estão visíveis. - Não há suporte para diretrizes de segurança para IA e mecanismos de fallback em pontos de extremidade de serviço de modelo personalizado.
- Para pontos de extremidade de serviço de modelo personalizado, somente cargas de trabalho que não são otimizadas para roteamento dão suporte à limitação de fluxo e ao acompanhamento de uso.
- As tabelas de inferência para pontos de extremidade de serviço de modelo otimizado de rota estão na Visualização Pública.
- Consulte as limitações da tabela de inferência habilitada pelo Gateway de IA do Unity para obter detalhes sobre as limitações da tabela de inferência.