Tipos de implementación para modelos de Microsoft Foundry

Al implementar un modelo en Microsoft Foundry, elija un tipo de implementación que determine lo siguiente:

  • Dónde se procesan los datos (global, zona de datos o región única)
  • Cómo se paga (pago por token o capacidad reservada)
  • Características de rendimiento (varianza de latencia, límites de rendimiento)

El servicio ofrece dos categorías principales: estándar (pago por token) y aprovisionado (capacidad reservada). Dentro de cada categoría, puede elegir el procesamiento global, de zona de datos o regional en función de los requisitos de cumplimiento.

Captura de pantalla del cuadro de diálogo de implementación del portal de Foundry que muestra el cuadro de selección de tipo de implementación con Estándar global seleccionado.

Importante

Residencia de datos para todos los tipos de implementación: los datos almacenados en reposo permanecen en la geografía Azure designada. Sin embargo, los datos de inferencia se procesan de la siguiente manera:

  • tipos Global: puede procesarse en cualquier región de Azure
  • DataZone tipos: procesados solo dentro de la zona de datos especificada por Microsoft (EE. UU. o UE)
  • Tipos estándar o regionales : procesados en la región de implementación

Obtenga más información sobre la residencia de datos.

Comparación de tipos de implementación

Tipo de implementación Código de SKU Procesamiento de datos Facturación Ideal para
Estándar global GlobalStandard Cualquier región de Azure Pago por token Cargas de trabajo generales, cuota más alta
Aprovisionamiento global GlobalProvisionedManaged Cualquier región de Azure PTU reservado Alto rendimiento predecible
Lote global GlobalBatch Cualquier región de Azure Descuento de 50%, 24 horas Trabajos asincrónicos grandes
Estándar de zona de datos DataZoneStandard Dentro de la zona de datos Pago por token Cumplimiento de la zona de datos ue/EE. UU.
Zona de datos aprovisionada DataZoneProvisionedManaged Dentro de la zona de datos PTU reservado Zona de datos + rendimiento predecible
Lote de zona de datos DataZoneBatch Dentro de la zona de datos Descuento de 50% Grandes trabajos asincrónicos con área de datos
Estándar Standard Región única Pago por token Cumplimiento regional, bajo volumen
Aprovisionado regional ProvisionedManaged Región única PTU reservado Cumplimiento regional y rendimiento
Desarrollador DeveloperTier Cualquier región de Azure Pago por token Solo evaluación de modelos finamente ajustados

Nota

No todos los modelos admiten todos los tipos de implementación. Compruebe Foundry Models vendidos directamente por Azure para ver la disponibilidad del modelo por tipo de implementación y región.

Nota

Las garantías de Acuerdo de Nivel de Servicio varían según el tipo de implementación. Los tipos aprovisionados proporcionan un rendimiento garantizado y una varianza de latencia menor. Los tipos estándar ofrecen un servicio de mejor esfuerzo. Las implementaciones de desarrolladores no incluyen un Acuerdo de Nivel de Servicio. Para obtener más información, consulte el Acuerdo de Nivel de Servicio Azure para Azure OpenAI Service.

Propina

Para obtener precios detallados, consulte precios Azure OpenAI Service.

Elección del tipo de implementación adecuado

Use los criterios siguientes para seleccionar un tipo de implementación:

Por requisito de residencia de datos

  • Sin restricciones: Usar Global Standard o Global Provisioned
  • Zona de datos de la UE: usar DataZone Standard o DataZone Provisioned en una región de la UE
  • Zona de datos de EE. UU: Uso de DataZone Standard o DataZone Provisioned en una región de EE. UU.
  • Solo una región: Usar estándar o aprovisionado regional

Por patrón de carga de trabajo

  • Tráfico variable y de ráfaga: usar estándar o estándar global (pago por token)
  • Volumen consistentemente alto: Uso de Tipos Aprovisionados (Capacidad Reservada)
  • Trabajos por lotes grandes (no sensibles al tiempo): usar Batch Global o DataZone Batch (50% ahorro de costes)
  • Evaluación de modelos ajustados: uso del desarrollador (sin Acuerdo de Nivel de Servicio, costo más bajo)

Por requisito de latencia

  • Varianza de latencia baja necesaria: Uso de tipos aprovisionados
  • Varianza de latencia aceptable: Usar tipos estándar

Ubicaciones de procesamiento de datos

En el caso de las implementaciones estándar, hay tres opciones: global, zona de datos y Azure geografía. Para las implementaciones aprovisionadas, hay dos opciones: global y Azure geography. Global Standard es un punto de partida común para la mayoría de las cargas de trabajo.

Implementaciones globales

Las implementaciones globales usan la infraestructura global de Azure para enrutar dinámicamente el tráfico a los centros de datos disponibles. Las implementaciones globales ofrecen los límites de rendimiento inicial más altos y la disponibilidad del modelo más amplia.

En el caso de las cargas de trabajo de gran volumen, es posible que experimente una mayor variación de latencia. Si necesita una varianza de latencia menor a escala, use los tipos de implementación aprovisionados.

Las implementaciones globales reciben primero nuevos modelos y características.

Implementaciones de zona de datos

En el caso de los tipos de implementación global , es posible que las solicitudes y respuestas se procesen en cualquier geografía donde se implemente el modelo. En el caso de los tipos de implementación de DataZone , las solicitudes y las respuestas solo se procesan dentro de la zona de datos especificada:

  • Estados Unidos: Datos procesados en cualquier parte de EE. UU.
  • Unión Europea: datos procesados dentro de cualquier nación miembro de la UE

Obtenga más información en la sección "Disponibilidad de región de modelo por tipo de implementación" de Foundry Models vendidas directamente por Azure.

Nota

Con los tipos de implementación Estándar global y Estándar de zona de datos, si la región primaria experimenta una interrupción en el servicio, todo el tráfico que se enruta inicialmente a esta región se ve afectado. Para más información, consulte la guía de alta disponibilidad y recuperación ante desastres.

Estándar global

  • Nombre de SKU en el código: GlobalStandard

Las implementaciones globales estándar usan la infraestructura global de Azure para enrutar dinámicamente el tráfico a los centros de datos disponibles. Este tipo de implementación proporciona la cuota predeterminada más alta y elimina la necesidad de equilibrar la carga entre varios recursos.

Los clientes con un volumen alto y consistente pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Para obtener más información, visite la página de Cuotas. Para aplicaciones que requieren una menor variabilidad de latencia durante el uso de grandes cargas de trabajo, considere el rendimiento aprovisionado.

Global Standard ofrece procesamiento prioritario (versión preliminar) para tiempos de respuesta más rápidos bajo un modelo de pago por uso. Para obtener más información, consulte Procesamiento prioritario de modelos de Foundry (versión preliminar).

Aprovisionado a nivel global

  • Nombre de SKU en el código: GlobalProvisionedManaged

Las implementaciones globales aprovisionadas usan la infraestructura global de Azure para enrutar dinámicamente el tráfico a los centros de datos disponibles. Este tipo de implementación proporciona capacidad reservada de procesamiento de modelos para un rendimiento predecible, combinando el enrutamiento global con capacidad garantizada.

Con el rendimiento aprovisionado, se adquiere un número fijo de unidades de rendimiento aprovisionadas (PTUs) que garantizan un nivel específico de capacidad de procesamiento. Este tipo de implementación proporciona una latencia más baja y coherente que Global Standard. Para más información, consulte Conceptos de rendimiento aprovisionados.

Lote global

  • Nombre de SKU en el código: GlobalBatch

Global Batch controla tareas de procesamiento a gran escala y de alto volumen. Puede procesar grupos asincrónicos de solicitudes con cuota independiente y un tiempo de respuesta objetivo de 24 horas, a un 50% menor costo que Global Standard. Con el procesamiento por lotes, en lugar de enviar una solicitud a la vez, se envía un gran número de solicitudes en un único archivo. Las solicitudes globales de Batch tienen una cuota de tokens en cola independiente, evitando cualquier interrupción de los flujos de trabajo en línea.

Casos de uso comunes:

  • Procesamiento de datos a gran escala: analice conjuntos de datos en paralelo.
  • Generación de contenido: cree grandes volúmenes de texto, como descripciones de productos o artículos.
  • Revisión y resumen de documentos: procesar y resumir documentos largos.
  • Automatización del soporte al cliente: controle numerosas consultas simultáneamente.
  • Extracción y análisis de datos: extraiga y analice información de grandes cantidades de datos no estructurados.
  • Tareas de procesamiento de lenguaje natural (NLP): realice análisis de sentimiento o traducción en conjuntos de datos grandes.

Nota

Las implementaciones por lotes intercambian la capacidad de respuesta en tiempo real para ahorrar costos. Las solicitudes por lotes no tienen un Acuerdo de Nivel de Servicio en tiempo real: tienen como destino la finalización en un plazo de 24 horas, pero pueden tardar más tiempo.

Estándar de zona de datos

  • Nombre de SKU en el código: DataZoneStandard

Las implementaciones estándar de áreas de datos enrutan dinámicamente el tráfico a centros de datos dentro del área de datos definida por Microsoft (EE. UU. o UE). Este tipo de implementación proporciona cuotas predeterminadas más altas que los tipos de implementación basados en geografía al tiempo que mantienen los datos dentro de la zona especificada.

Los clientes con un volumen alto y consistente pueden experimentar una mayor variabilidad de latencia. El umbral se establece por modelo. Para más información, consulte la página cuotas y límites. Para las cargas de trabajo que requieren baja latencia con variabilidad mínima en grandes volúmenes, considere tipos de implementación aprovisionados.

Data Zone Standard admite procesamiento prioritario (versión preliminar) para tiempos de respuesta más rápidos con pago según el uso. Para obtener más información, consulte Procesamiento prioritario de modelos de Foundry (versión preliminar).

Zona de datos aprovisionada

  • Nombre de SKU en el código: DataZoneProvisionedManaged

Implementaciones aprovisionadas de zona de datos enrutan dinámicamente el tráfico dentro de la zona de datos especificada por Microsoft (EE. UU. o UE) al tiempo que proporcionan capacidad de procesamiento de modelos reservada. Este tipo de implementación combina el cumplimiento de la zona de datos con un rendimiento alto y predecible.

Lote de zona de datos

  • Nombre de SKU en el código: DataZoneBatch

Las implementaciones de Batch de zona de datos proporcionan la misma funcionalidad que Global Batch, incluido un ahorro en costes del 50% y un plazo de entrega de 24 horas. El tráfico solo se enruta a los centros de datos dentro de la zona de datos definida por Microsoft (EE. UU. o UE).

Estándar

  • Nombre de SKU en el código: Standard

Las implementaciones estándar usan la facturación de pago por token. Solo pagas por lo que consumes. Los modelos disponibles en cada región y rendimiento pueden estar limitados.

Las implementaciones estándar son adecuadas para cargas de trabajo de bajo a medio volumen con alta expansión. Los clientes con un volumen alto y consistente pueden experimentar una mayor variabilidad de latencia.

Aprovisionado regional

  • Nombre de SKU en el código: ProvisionedManaged

Las implementaciones regionales aprovisionadas permiten especificar la cantidad de rendimiento que necesita en una implementación. A continuación, el servicio asigna la capacidad de procesamiento del modelo necesaria y garantiza que está listo para usted. El rendimiento se define en términos de unidades de rendimiento aprovisionadas (PTU), que es una forma normalizada de representar el rendimiento de la implementación. Cada par de versión de modelo requiere una cantidad distinta de PTU para su implementación y proporciona diferentes cantidades de capacidad de procesamiento por PTU. Los requisitos mínimos de PTU varían según el modelo. Para conocer los mínimos actuales y la capacidad disponible, consulte Conceptos de rendimiento aprovisionados.

Desarrollador (para modelos afinados)

  • Nombre de SKU en el código: DeveloperTier

El tipo de implementación Developer está diseñado solo para la evaluación de modelos optimizada. Proporciona pruebas rentables de modelos personalizados, pero no incluye garantías de residencia de datos ni un Acuerdo de Nivel de Servicio. Las implementaciones de desarrolladores tienen una duración fija de 24 horas y se eliminan automáticamente después de la expiración. Para obtener más información sobre el uso del tipo de implementación developer, consulte la guía de ajuste.

Solución de problemas de implementación

Problemas comunes al crear o usar implementaciones:

Problema Causa Resolución
Tipo de implementación no disponible El modelo no admite el tipo seleccionado Comprobación de la disponibilidad del modelo por tipo de implementación
Cuota superada Límite de suscripción alcanzado para tokens por minuto Solicitar un aumento de la cuota en Azure portal o usar una región diferente
Región no disponible Modelo no implementado en la región seleccionada Selección de una región en la lista de disponibilidad del modelo
Capacidad aprovisionada no disponible Sin capacidad de PTU en la región Pruebe otra región o use Global Provisioned para una disponibilidad más amplia

Para conocer los límites de cuota por tipo de implementación, consulte Límites y cuotas de Foundry Models.

Restricción de los tipos de implementación con Azure Policy

Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a escala. A través de su panel de cumplimiento, puede evaluar el estado general del entorno y explorar en profundidad la granularidad por recurso y por directiva. Azure Policy también admite la corrección masiva para los recursos existentes y la corrección automática para los nuevos recursos. Learn más sobre Azure Policy y controles integrados específicos para Foundry Tools.

Use la siguiente directiva para deshabilitar el acceso a un tipo de implementación de Foundry específico. Reemplace GlobalStandard por el nombre de la SKU del tipo de implementación que desea restringir.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}