Visão geral da implementação para modelos Microsoft Foundry (clássico)

Aplica-se apenas a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal da Foundry. Saiba mais sobre o novo portal.

Nota

Os links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação do Foundry (clássico) que está a ver agora.

O catálogo de modelos no Microsoft Foundry é o ponto de encontro e utilização de uma vasta gama de Modelos Foundry para construir aplicações de IA generativa. Precisa de implementar modelos para torná-los disponíveis para receber pedidos de inferência. A Foundry oferece um conjunto abrangente de opções de implementação para Modelos Foundry, dependendo das suas necessidades e requisitos de modelo.

Opções de implantação

O Foundry oferece várias opções de implementação dependendo do tipo de modelos e recursos que precisa de fornecer. As seguintes opções de implantação estão disponíveis:

  • Implementação padrão nos recursos da Foundry
  • Implementação em endpoints de API sem servidor
  • Implementação para computações geridas

O portal da Foundry pode escolher automaticamente uma opção de implementação com base no seu ambiente e configuração. Use os recursos da Foundry para a implementação sempre que possível. Modelos que suportam múltiplas opções de implementação utilizam por padrão os recursos do Foundry para implementação. Para aceder a outras opções de implementação, utilize o CLI do Azure ou o Azure Machine Learning SDK para implementação.

Implementação padrão nos recursos da Foundry

Os recursos da Foundry são a opção de implementação preferida no Foundry. Oferece a mais ampla gama de capacidades, incluindo processamento regional, de zona de dados ou global, e oferece opções de débito padrão e provisionado (PTU ). Os modelos topo de gama em Foundry Models suportam esta opção de implementação.

Esta opção de implantação está disponível em:

  • Recursos da fundição
  • Recursos Azure OpenAI1
  • Azure AI Hub, quando ligado a um recurso Foundry

1Se utilizar recursos do Azure OpenAI, o catálogo de modelos mostra apenas Azure OpenAI nos Foundry Models para implementação. Podes obter a lista completa de Modelos de Foundry ao atualizar para um recurso de Foundry.

Para começar com a implementação padrão nos recursos da Foundry, consulte Como: Implementar modelos para os Modelos da Foundry.

Endpoint de API sem servidor

Esta opção de implementação está disponível apenas nosrecursos do AI Hub. Permite-lhe criar endpoints dedicados para alojar o modelo, acessíveis através de uma API. Os Modelos Foundry suportam endpoints de API sem servidor com faturação pay-as-you-go, e pode criar apenas implementações regionais para endpoints de API sem servidor.

Para começar a implementar num endpoint de API sem servidor, consulte Implementar modelos como implementações de APIs sem servidor.

Computação gerida

Esta opção de implementação está disponível apenas nosrecursos do AI Hub. Permite criar um endpoint dedicado para alojar o modelo numa computação dedicada. Precisas de ter uma quota de computação na tua subscrição para alojar o modelo, e és cobrado por tempo de funcionamento do computo.

A implementação de computação gerida é necessária para coleções de modelos que incluem:

  • Cara de Abraço
  • Microserviços de inferência NVIDIA (NIMs)
  • Modelos industriais (Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
  • Databricks
  • Modelos personalizados

Para começar, veja Como configurar e realizar inferências em uma implantação de computação gerida e Implementar modelos Foundry para computação gerida com faturação conforme o uso.

Capacidades para as opções de implementação

Utilize implementações padrão nos recursos do Foundry sempre que possível. Esta opção de implementação oferece o maior número de capacidades entre as opções disponíveis. A tabela seguinte lista detalhes sobre capacidades específicas para cada opção de implementação:

Capacidade Implementação padrão nos recursos da Foundry Endpoint de API Serverless Computação gerida
Que modelos podem ser implementados? Modelos Foundry vendidos diretamente pela Azure
Modelos de Fundição de parceiros e comunidade
Modelos Foundry com faturação pay-as-you-go Modelos abertos e personalizados
Recursos de implantação Recurso da fundição Projeto de IA (no recurso do hub de IA) Projeto de IA (no recurso do hub de IA)
Requer centros de IA Não Sim Sim
Opções de processamento de dados Regional
Zona de dados
Global
Regional Regional
Redes privadas Sim Sim Sim
Filtragem de conteúdos Sim Sim Não
Filtragem personalizada de conteúdos Sim Não Não
Autenticação sem chave Sim Não Não
Bases de faturação Utilização de tokens e unidades de throughput provisionadas Utilização do token2 Horas de núcleo computacional3

2 Uma infraestrutura mínima de ponto final é faturada por minuto. Não é cobrado pela infraestrutura que aloja o modelo na implementação serverless. Depois de eliminares o endpoint, não aparecem mais cobranças.

3 A faturação é por minuto, dependendo do nível do produto e do número de instâncias usadas na implementação desde o momento da criação. Depois de eliminares o endpoint, não aparecem mais cobranças.