Uso de un modelo compatible con la visión en el portal de Microsoft Foundry

3 minutos

Para gestionar las indicaciones que incluyen imágenes, debe implementar un modelo de inteligencia artificial generativa multimodal, en otras palabras, un modelo que admita no solo datos textuales, sino también datos de imágenes (y, en algunos casos, de audio). Los modelos multimodales disponibles en Microsoft Foundry incluyen (entre otros):

Microsoft Phi-4-multimodal-instruct
OpenAI gpt-4.1
OpenAI gpt-4.1-mini

Sugerencia

Para obtener más información sobre los modelos disponibles en Microsoft Foundry, consulte el artículo de información general sobre modelos de Microsoft Foundry en la documentación de Microsoft Foundry.

Prueba de modelos bidireccionales con avisos basados en imágenes

Después de implementar un modelo multimodal, puede probarlo en el área de juegos de chat en el portal de Microsoft Foundry.

Captura de pantalla del área de juegos de chat con un aviso basado en imágenes.

En el área de juegos de chat, puede cargar una imagen desde un archivo local y agregar texto al mensaje para obtener una respuesta de un modelo multimodal.

Comentarios

¿Le ha resultado útil esta página?