Tipos de implantação para os modelos da Microsoft Foundry no Azure Governamental

Ao implantar um modelo no Microsoft Foundry no Azure Governamental, você escolhe um tipo de implantação que determina:

  • Onde seus dados são processados (zona de dados ou região única)
  • Como você paga (pagamento por token ou capacidade reservada)
  • Características de desempenho (variação de latência, limites de taxa de transferência)

O serviço oferece duas categorias principais: padrão (pagamento por token) e provisionado gerenciado (capacidade reservada). Dentro de cada categoria, você pode escolher zona de dados ou processamento regional único com base em seus requisitos.

Captura de tela da caixa de diálogo de implantação do portal do Foundry mostrando a caixa de seleção de tipo de implantação com o Padrão Global selecionado.

Importante

Residência de dados para todos os tipos de implantação: Os dados armazenados em repouso permanecem na região designada do Azure. No entanto, os dados de inferência são processados da seguinte maneira:

  • Tipos de DataZone do Governo dos EUA (USGov): processados somente na nuvem do Azure Governamental.
  • Tipos padrão/regional : processados na região de implantação

Comparação de tipos de implantação

Tipo de implantação Código de SKU Processamento de dados Faturamento Melhor para
Padrão da Zona de Dados DataZoneStandard Dentro da zona de dados Pagamento por token Conformidade da zona de dados do USGov
Zona de dados provisionada DataZoneProvisionedManaged Dentro da zona de dados PTU reservada Zona de dados do USGov + taxa de transferência previsível
Padrão Standard Região única Pagamento por token Conformidade regional, baixo volume
Provisionamento Regional ProvisionedManaged Região única PTU reservada Conformidade regional + taxa de transferência

Nota

Nem todos os modelos dão suporte a todos os tipos de implantação. Verifique Foundry Models vendidos diretamente pela Azure para verificar a disponibilidade do modelo por tipo de implantação e região.

Nota

As garantias de SLA variam de acordo com o tipo de implantação. Os tipos provisionados fornecem taxa de transferência garantida e menor variação de latência. Os tipos padrão oferecem o melhor serviço possível. Para obter detalhes, consulte o SLA Azure para Serviço OpenAI do Azure.

Dica

Para obter preços detalhados, consulte preços do serviço Azure OpenAI.

Escolher o tipo de implantação correto

Use os seguintes critérios para selecionar um tipo de implantação:

Por exigência de residência de dados

  • Zona de dados do Governo dos EUA (USGov): use DataZone Standard ou DataZone Provisioned em uma região do Azure Governamental.
  • Somente região única: usar Padrão ou Provisionado Regional

Por padrão de carga de trabalho

  • Tráfego variável e com intermitência: usar Standard ou DataZone (pay-per-token)
  • Volume alto consistente: usar tipos provisionados (capacidade reservada)

Por requisito de latência

  • Variação de baixa latência necessária: usar tipos provisionados
  • Variação de latência aceitável: usar tipos padrão

Implantações de Zona de Dados

Para tipos de implantação DataZone, prompts e respostas são processados somente dentro da zona de dados especificada.

  • USGov: dados processados nas duas regiões de Azure Governamental (USGovArizona ou USGovVirginia)

Saiba mais na seção "Disponibilidade da região do modelo por tipo de implantação" dos modelos Foundry vendidos diretamente por Azure.

Nota

Com os tipos de implantação Padrão de Zona de Dados, se a região primária sofrer uma interrupção no serviço, todo o tráfego inicialmente roteado para essa região será afetado. Para saber mais, confira o guia de alta disponibilidade e recuperação de desastre.

Padrão da Zona de Dados

  • Nome da SKU no código: DataZoneStandard

As implantações padrão de zona de dados roteiam dinamicamente o tráfego para datacenters dentro da zona de dados definida por Microsoft (USGov). Esse tipo de implantação fornece cotas padrão mais altas do que os tipos de implantação baseados em geografia, mantendo os dados dentro da zona especificada.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais sobre as cotas do OpenAI do Azure no Azure Governamental, consulte Cotas e limites no OpenAI do Azure. Para cargas de trabalho que exigem baixa variação de latência em grande volume, considere os tipos de implantação provisionados.

Zona de dados provisionada

  • Nome da SKU no código: DataZoneProvisionedManaged

As implantações de DataZone Provisioned roteiam o tráfego dinamicamente dentro da zona de dados especificada pela Microsoft (USGov), enquanto fornecem capacidade de processamento de modelo reservada. Esse tipo de implantação combina a conformidade da zona de dados com uma taxa de transferência alta e previsível.

Standard

  • Nome da SKU no código: Standard

As implantações padrão usam cobrança por uso por token. Você paga apenas pelo que consome. Os modelos disponíveis em cada região e a taxa de transferência podem ser limitados.

As implantações padrão são adequadas para cargas de trabalho de volume de baixo a médio com alta intermitência. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.

Provisionado Regionalmente

  • Nome da SKU no código: ProvisionedManaged

As implantações provisionadas regionais permitem especificar a quantidade de largura de banda necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ele esteja pronto para você. A taxa de transferência é definida em termos de unidades de taxa de transferência provisionadas (PTUs), que é uma forma normalizada de representar a taxa de transferência da sua implementação. Cada par de modelo e versão requer quantidades diferentes de PTUs para implantação e fornece uma taxa de transferência diferente por PTU. Os requisitos mínimos de PTU variam de acordo com o modelo. Para obter os mínimos atuais e a capacidade disponível, consulte Conceitos de taxa de transferência provisionada.

Solução de problemas de implantação

Problemas comuns ao criar ou usar implantações:

Questão Causa Resolução
Tipo de implantação indisponível O modelo não dá suporte ao tipo selecionado Verificar a disponibilidade do modelo por tipo de implantação
Cota excedida Limite de assinaturas atingido para tokens por minuto Solicite aumento de quota no Azure Governamental AOAI Quota ou use uma região diferente
Região indisponível Modelo não implantado na região selecionada Selecione uma região na lista de disponibilidade do modelo
Capacidade provisionada indisponível Nenhuma capacidade de PTU na região Experimente uma região diferente ou use DataZone Provisionado para maior disponibilidade

Para limites de cota do Azure OpenAI por tipo de implantação no Azure Governamental, consulte Quotas e limites em Azure OpenAI.

Monitoramento de abuso em Azure Governamental

Nem todos os recursos do Monitoramento de Abuso estão habilitados para implantações do OpenAI Azure no Azure Governamental. Você é responsável por implementar medidas técnicas e operacionais razoáveis para detectar e atenuar qualquer uso do serviço em violação dos Termos do Produto. A Classificação e Filtragem de Conteúdo Automatizada permanece habilitada por padrão para Azure Governamental. Se forem necessários filtros de conteúdo modificados, aplique na Aplicação de Filtro Modificado do Azure Governamental.