Een vision-geschikt model gebruiken in de Microsoft Foundry-portal

Voltooid

Als u prompts wilt verwerken die afbeeldingen bevatten, moet u een multimodale AI-model implementeren, met andere woorden, een model dat niet alleen tekstgebaseerde invoer ondersteunt, maar ook op afbeeldingen gebaseerde invoer (en in sommige gevallen audio-gebaseerde) invoer. Multimodale modellen die beschikbaar zijn in Microsoft Foundry zijn onder andere:

  • Microsoft Phi-4-multimodal-instruct
  • OpenAI gpt-4.1
  • OpenAI gpt-4.1-mini

Aanbeveling

Zie het overzichtsartikel over Microsoft Foundry-modellen in de Microsoft Foundry-documentatie voor meer informatie over beschikbare modellen in Microsoft Foundry.

Multimodale modellen testen met afbeeldingsgebaseerde prompts

Nadat u een multimodale model hebt geïmplementeerd, kunt u het testen in de chatspeeltuin in de Microsoft Foundry-portal.

Schermopname van de chatspeeltuin met een prompt op basis van afbeeldingen.

In de chatspeeltuin kunt u een afbeelding uploaden vanuit een lokaal bestand en tekst toevoegen aan het bericht om een antwoord van een multimodale model te genereren.