Tipos de implementação para modelos Microsoft Foundry no Azure Government

Quando implementa um modelo no Microsoft Foundry no Azure Government, escolhe um tipo de implementação que determina:

  • Onde os seus dados são processados (zona de dados ou região única)
  • Como paga (pagar por token ou capacidade reservada)
  • Características de desempenho (variação de latência, limites de rendimento)

O serviço oferece duas categorias principais: padrão (pay-per-token) e provisionedmanaged (capacidade reservada). Dentro de cada categoria, pode escolher zona de dados ou processamento regional único com base nas suas necessidades.

Captura de ecrã do diálogo de implementação do portal Foundry mostrando a caixa de seleção do tipo de implementação com o Global Standard selecionado.

Importante

Residência de dados para todos os tipos de implementação: Os dados armazenados em repouso permanecem na região de Azure designada. No entanto, os dados de inferência são processados da seguinte forma:

  • Tipos de DataZone USGov: Processados apenas dentro da zona de dados USGov da Azure Government cloud
  • Tipos Padrão/Regionais : Processados na região de implementação

Comparação de tipos de implantação

Tipo de implantação Código SKU Processamento de dados Faturamento Melhor para
Padrão de Zonas de Dados DataZoneStandard Dentro da zona de dados Pagamento por token Conformidade com zona de dados USGov
Área de Dados Provisionada DataZoneProvisionedManaged Dentro da zona de dados PTU reservado Zona de dados do USGov + débito previsível
Standard Standard Região única Pagamento por token Conformidade regional, baixo volume
Provisionamento Regional ProvisionedManaged Região única PTU reservado Conformidade regional + taxa de transferência

Nota

Nem todos os modelos suportam todos os tipos de implementação. Consulte Foundry Models vendidos diretamente por Azure para a disponibilidade de modelos por tipo de implementação e região.

Nota

As garantias de SLA variam consoante o tipo de implantação. Os tipos provisionados proporcionam rendimento garantido e menor variação de latência. Os tipos padrão oferecem um serviço de melhor esforço. Para mais detalhes, consulte o SLA Azure para Azure OpenAI Service.

Dica

Para um preçário detalhado, consulte o preçário do Azure OpenAI Service.

Escolha o tipo de implantação certo

Use os seguintes critérios para selecionar um tipo de implementação:

Pelo requisito de residência de dados

  • USGov data zone: Utilizar o DataZone Standard ou o DataZone Provisioned numa região do Azure Government
  • Apenas região única: Utilizar Padrão ou Regional Provisionado

Por padrão de carga de trabalho

  • Tráfego variável, com rajadas: Usar Standard ou DataZone (pay-per-token)
  • Volume elevado consistente: Usar tipos provisionados (capacidade reservada)

Por requisito de latência

  • Baixa variação de latência necessária: Utilizar tipos Provisionados
  • Variância de latência aceitável: Usar tipos padrão

Implementações em Zona de Dados

Para os tipos de implementação do DataZone , os prompts e respostas são processados apenas dentro da zona de dados especificada:

  • USGov: Dados processados nas duas regiões Azure Government (USGovArizona ou USGovVirginia)

Saiba mais na secção "Disponibilidade da região do modelo por tipo de implementação" do Foundry Models vendidos diretamente pela Azure.

Nota

Nos tipos de implementação do Data Zone Standard, se a região principal sofrer uma interrupção no serviço, todo o tráfego inicialmente encaminhado para essa região é afetado. Para saber mais, consulte o guia de alta disponibilidade e recuperação de desastres.

Padrão de Zonas de Dados

  • Nome do SKU em código: DataZoneStandard

As implementações do Data Zone Standard encaminham dinamicamente o tráfego para centros de dados dentro da zona de dados definida pela Microsoft (USGov). Este tipo de implementação oferece quotas padrão mais elevadas do que os tipos de implantação baseados na geografia, mantendo os dados dentro da zona especificada.

Clientes com volume consistente elevado podem experienciar maior variabilidade de latência. O limiar é definido por modelo. Para saber mais sobre as quotas do Azure OpenAI no Azure Government, consulte as Quotas e limites em Azure OpenAI. Para cargas de trabalho que requerem baixa variância de latência em grande volume, considere tipos de implementação provisionadas.

Zona de Dados Provisionada

  • Nome do SKU em código: DataZoneProvisionedManaged

As implementações provisionadas por Zona de Dados encaminham dinamicamente o tráfego dentro da zona de dados especificada pela Microsoft (USGov), proporcionando uma capacidade reservada de processamento de modelos. Este tipo de implementação combina conformidade com zonas de dados com um débito elevado e previsível.

Standard

  • Nome do SKU em código: Standard

As implementações padrão utilizam faturação por token. Pagas apenas pelo que consomes. Os modelos disponíveis em cada região e a largura de banda podem ser limitados.

As implementações padrão são adequadas para cargas de trabalho de volume baixo a médio com alta carga intermitente. Clientes com volume consistente elevado podem experienciar maior variabilidade de latência.

Provisionamento Regional

  • Nome do SKU em código: ProvisionedManaged

As implementações Regionais Provisionadas permitem-lhe especificar a quantidade de largura de banda que necessita numa implementação. O serviço aloca então a capacidade necessária de processamento de modelos e garante que está pronto para si. O throughput é definido em termos de unidade de throughput provisionada (PTU), que é uma forma normalizada de representar o throughput para a sua implementação. Cada par modelo-versão requer diferentes quantidades de PTUs para ser implantado e fornece diferentes capacidades de processamento por PTU. Os requisitos mínimos da PTU variam consoante o modelo. Para valores mínimos atuais e capacidade disponível, consulte conceitos de débito provisionado.

Resolução de problemas de implementação

Problemas comuns ao criar ou utilizar implementações:

Problema Causa Resolução
Tipo de implantação indisponível O modelo não suporta o tipo selecionado Verificar a disponibilidade dos modelos por tipo de implementação
Quota ultrapassada Limite de subscrição de tokens atingido a cada minuto Solicite aumento da quota em Azure Government Quota AOAI ou utilize uma região diferente
Região indisponível Modelo não implementado na região selecionada Selecione uma região da lista de disponibilidade do modelo
Capacidade provisionada indisponível Sem capacidade de PTU na região Experimente uma região diferente ou use o DataZone Provisioned para maior disponibilidade

Para limites de quotas do Azure OpenAI por tipo de implementação no Azure Government, consulte Quotas e limites em Azure OpenAI.

Monitorização de Abuso no Azure Government

Nem todas as funcionalidades do Abuse Monitoring estão ativadas para implementações do Azure OpenAI no Azure Government. É responsável por implementar medidas técnicas e operacionais razoáveis para detetar e mitigar qualquer utilização do serviço em violação dos Termos do Produto. A Classificação e Filtragem Automática de Conteúdos mantém-se ativada por defeito para o Azure Government. Se forem necessários filtros de conteúdo modificados, preencha o pedido em Aplicação de Filtro Modificado no Azure Government.