Implementación de modelos en puntos de conexión

Completado

Después de seleccionar un modelo del catálogo, se implementa para que sea accesible a través de puntos de conexión que las aplicaciones pueden usar. El portal de Microsoft Foundry te guía a través del proceso de implementación y proporciona herramientas para probar tu modelo implementado inmediatamente.

Captura de pantalla de la interfaz Implementar modelo en el portal de Foundry.

Descripción de los tipos de implementación

Microsoft Foundry admite varios tipos de implementación, cada uno de los cuales ofrece características diferentes para la residencia, el escalado y la facturación de datos:

  • Las implementaciones de modelos estándar globales pueden usar cualquier región de Azure en base de pago por token. Son mejores para cargas de trabajo generales y proporcionan la cuota más alta.
  • Las implementaciones aprovisionadas globales pueden usar cualquier región de Azure y su uso se basa en una base de unidades de rendimiento de aprovisionamiento reservadas (PTU) para proporcionar un alto rendimiento predecible.
  • Las implementaciones globales de Batch pueden usar cualquier región de Azure con un descuento de 50% para trabajos asincrónicos de gran tamaño en un plazo de 24 horas.
  • Las implementaciones estándar de zona de datos garantizan que los datos permanezcan dentro de una zona de datos específica de pago por token. Son mejores para escenarios en los que se requiere el cumplimiento de la zona de datos ue/EE. UU.
  • Las implementaciones Zona de Datos Aprovisionada proporcionan un rendimiento predecible en función de PTUs reservadas dentro de una zona de datos.
  • Las implementaciones de Batch de Zona de Datos están diseñadas para procesos asincrónicos por lotes de gran tamaño dentro de una Zona de Datos.
  • Los despliegues estándar se realizan dentro de una única región con pago por token. Son excelentes cuando se necesita el cumplimiento de residencia de datos regionales o para escenarios de bajo volumen.
  • Las implementaciones regionales aprovisionadas proporcionan PTUs reservadas dentro de una sola región.
  • Desarrollador Las implementaciones de desarrollador utilizan cualquier región de Azure en un modelo de pago por token y son solo para la evaluación de modelos ajustados.

Cada modelo del catálogo indica qué tipos de implementación admite. El portal selecciona automáticamente la mejor opción de implementación en función de los requisitos del entorno y del modelo. Las implementaciones globales estándar en los recursos de Foundry deben usarse siempre que sea posible para las funcionalidades máximas.

Implementar un modelo

Para implementar un modelo desde el portal de Microsoft Foundry:

En primer lugar, vaya al modelo seleccionado en el catálogo Modelo. En la página principal del portal de Foundry, seleccione Detectar en el panel de navegación y, a continuación, Modelos en el panel izquierdo. Abra la tarjeta de modelo para revisar sus especificaciones y los tipos de implementación admitidos.

Seleccione Implementar para comenzar el proceso de implementación. Puede elegir:

  • Configuración predeterminada para implementar rápidamente con configuraciones recomendadas
  • Configuración personalizada para personalizar las opciones de implementación

Si el modelo requiere una suscripción de Azure Marketplace (común para los modelos de asociados y la comunidad), verá los términos de uso. Revise estos términos y seleccione Aceptar y Continuar para aceptarlos. Los modelos vendidos directamente por Azure, como los modelos Azure OpenAI como GPT-4o-mini, no requieren suscripciones de marketplace.

Configure las opciones de implementación:

  • Nombre de implementación: de forma predeterminada, el sistema usa el nombre del modelo. Puede modificarlo para crear nombres significativos para varias implementaciones del mismo modelo. Durante la inferencia, el código usa este nombre de implementación en el model parámetro para enrutar las solicitudes.
  • Tipo de implementación: el portal selecciona automáticamente el tipo de implementación adecuado en función del modelo y el entorno. Cada modelo admite diferentes tipos de implementación que proporcionan garantías de residencia o rendimiento de datos diferentes.

Para los despliegues de cómputo administrados, también configura:

  • SKU de máquina virtual: elija entre los tipos de máquina virtual admitidos. Necesita una cuota de proceso de Azure Machine Learning para el tipo de SKU seleccionado en su suscripción.
  • Recuento de instancias: especifique cuántas instancias se van a implementar para la distribución de carga y la redundancia.

Después de configurar todas las opciones, seleccione Implementar. Cuando se complete la implementación, llegará al área de juegos de Foundry, donde podrá probar interactivamente el modelo. Verifique que el estado de despliegue se muestre como Correcto en la lista de despliegue.

Administración de modelos implementados

Después de la implementación, administrará los modelos desde la sección Compilación del portal de Microsoft Foundry. Seleccione Compilar en el panel de navegación y, a continuación, Modelos en el panel izquierdo para ver la lista de implementaciones en el recurso.

En la lista de implementación, seleccione un modelo específico para ver sus detalles:

  • Configuración y estado de implementación
  • URL del endpoint para acceso a la API
  • Claves o tokens de autenticación
  • Métricas de supervisión y uso
  • Opción para ajustar la configuración de implementación o eliminar la implementación

La página de detalles de implementación proporciona la información que las aplicaciones necesitan para conectarse y usar el modelo.

Prueba en el área de juegos

El portal de Microsoft Foundry incluye áreas de juegos interactivas en las que se prueban los modelos implementados inmediatamente, sin escribir código. Una vez completada la implementación, se llega automáticamente al área de juegos o puede seleccionar una implementación en la lista de modelos para abrir el área de juegos.

El área de juegos preselecciona la forma en que se implementa, por lo que puede comenzar a realizar evaluaciones de inmediato. En la interfaz de chat:

Escriba las indicaciones en el cuadro de mensaje y observe las respuestas. El entorno de prueba muestra tanto su entrada como la salida generada del modelo, ayudándole a comprender el comportamiento y la calidad.

Experimente con diferentes tipos de mensajes para probar varias funcionalidades:

  • Preguntas sencillas para comprobar la comprensión básica
  • Problemas complejos de razonamiento en varios pasos
  • Solicitudes de formatos o estilos específicos
  • Casos límite que podrían revelar limitaciones

Ajuste los mensajes del sistema para guiar el comportamiento del modelo. Los mensajes del sistema establecen contexto, tono e instrucciones que se aplican a todas las entradas de usuario. Por ejemplo, puede indicar al modelo que "responda como un representante de customer service" o "proporcionar explicaciones técnicas concisas".

Modifique parámetros como temperatura (creatividad frente a coherencia), tokens máximos (límites de longitud de respuesta) y top-p (muestreo de núcleo) para ajustar el comportamiento de generación.

Seleccione la pestaña Código para ver ejemplos de cómo llamar al modelo implementado mediante programación. Los ejemplos de código muestran la autenticación, la configuración del punto de conexión y el formato de solicitud en lenguajes como Python, C# y JavaScript. Puede copiar estos ejemplos directamente en la aplicación.

El área de juegos sirve como entorno de desarrollo para la ingeniería de solicitudes y pruebas antes de integrar el modelo en su aplicación.

Acceder a modelos mediante programación

Cuando esté listo para integrar el modelo en la aplicación, necesita tres fragmentos clave de información de los detalles de implementación:

URL del punto de conexión: del API donde tu aplicación envía solicitudes. Microsoft Foundry admite puntos de conexión de proyecto para funcionalidades específicas de Foundry y puntos de conexión de OpenAI v1 para una amplia compatibilidad con las API del modelo openAI.

Clave de autenticación: la clave secreta o el token que presenta la aplicación para autenticar las solicitudes. Como alternativa, puede usar la autenticación de ID de Microsoft Entra y hacer que su aplicación presente un token de autenticación basado en su identidad. Se recomienda la autenticación entra ID para escenarios de producción.

Nombre de implementación: el nombre que especificó durante la implementación, que se usa en el model parámetro de las solicitudes de API para enrutar a la implementación específica.

La aplicación usa estos detalles para construir solicitudes de API. El portal de Microsoft Foundry proporciona SDK y documentación de la API REST para varios lenguajes de programación, junto con ejemplos de código que muestran el formato de solicitudes, la autenticación y el control de respuestas.

Con el modelo implementado y probado, está listo para integrarlo en aplicaciones o continuar con una evaluación más completa mediante métricas automatizadas y conjuntos de datos de prueba.