Uso de un modelo compatible con la visión en el portal de Microsoft Foundry
Para gestionar las indicaciones que incluyen imágenes, debe implementar un modelo de inteligencia artificial generativa multimodal, en otras palabras, un modelo que admita no solo datos textuales, sino también datos de imágenes (y, en algunos casos, de audio). Los modelos multimodales disponibles en Microsoft Foundry incluyen (entre otros):
- Microsoft Phi-4-multimodal-instruct
- OpenAI gpt-4.1
- OpenAI gpt-4.1-mini
Sugerencia
Para obtener más información sobre los modelos disponibles en Microsoft Foundry, consulte el artículo de información general sobre modelos de Microsoft Foundry en la documentación de Microsoft Foundry.
Prueba de modelos bidireccionales con avisos basados en imágenes
Después de implementar un modelo multimodal, puede probarlo en el área de juegos de chat en el portal de Microsoft Foundry.
En el área de juegos de chat, puede cargar una imagen desde un archivo local y agregar texto al mensaje para obtener una respuesta de un modelo multimodal.