Bildgenerierungsmodelle

4 Minuten

Tip

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Vision-fähige Modelle ordnen häufig visuelle Informationen in einem Bild entsprechendem Text zu. Einige Modelle sind so konzipiert, dass dieser Prozess umgekehrt ausgeführt wird und Bilder generiert werden, die Textbeschreibungen entsprechen.

Verwenden von Bildgenerierungsmodellen aus Foundry

Microsoft Foundry enthält Modelle, die Text-zu-Bild-Ableitungen unterstützen, die Sie zum Generieren visueller Ausgaben verwenden können.

Für die meisten neuen Projekte empfiehlt Microsoft, mit der GPT-Image-1-Familie zu beginnen, insbesondere GPT-Image-1.5, aufgrund seiner verbesserten Qualität, Bearbeitungsunterstützung und Unternehmensbereitschaft.

Zu den gängigen Beispielen für Modelle der Bildgenerierung in Gießerei gehören:

GPT-Image-1.5: GPT-Image-1.5 ist das neueste und fortschrittlichste Modell der Bildgenerierung, das in Microsoft Foundry verfügbar ist. Dies wurde für die Erstellung und Bearbeitung von Bildern mit hoher Genauigkeit auf Enterprise-Niveau entwickelt, mit starker Prompt-Ausrichtung und verbesserter Konsistenz über Iterationen hinweg. Das Modell unterstützt Text-zu-Bild-, Bild-zu-Bild- und präzise Bildbearbeitung und eignet sich gut für Branding-, Marketing- und Designworkflows, bei denen die visuelle Genauigkeit wichtig ist.
GPT-Image-1: GPT-Image-1 ist ein leistungsfähiges, allgemeines Bildgenerierungsmodell, das auf den Funktionen früherer DALL-E-Modelle basiert. Es unterstützt die Text-zu-Bild-Generierung, Bildvariationen und präzise Bildbearbeitung. Es wird häufig für kreative Anwendungen, Prototyperstellung und visuelle Inhaltsgenerierung verwendet. GPT-Image-1 wird in allen Foundry-Tools und APIs, einschließlich der Antwort-API und der Agent-Tools, umfassend unterstützt.
GPT-Image-1-Mini: GPT-Image-1-Mini ist eine leichtere und kostengünstigere Version von GPT-Image-1. Es unterstützt dieselben Kernaufgaben bei der Bildgenerierung, ist aber für Szenarien optimiert, in denen niedrigere Latenz oder geringere Kosten wichtiger sind als die maximale Visuelle Genauigkeit. Dieses Modell ist eine gute Wahl für Experimente, interne Tools oder die Generierung von Bildern mit hohem Volumen.

Alle diese Bildgenerierungsmodelle können folgende Sein:

Bereitgestellt in einer Foundry-Ressource (Azure OpenAI)
Getestet in der Foundry-Testumgebung
Programmgesteuerter Zugriff über die OpenAI-Antwort-API oder Bildgenerierungs-APIs

Hinweis

Sie können auch auf Bildgenerierungsmodelle von Drittanbietern in Foundry zugreifen. Beispielsweise ist FLUX eine Familie von Open-Source-Bildgenerierungsmodellen, die von Black Forest Labs erstellt wurden. Sie sind darauf ausgelegt, qualitativ hochwertige, fotorealistische und stilistisch flexible Bilder aus Textaufforderungen zu erzeugen.

Bildgenerierung im Gießerei-Playground

Sie können ein vision-fähiges Modell bereitstellen und im Playground des Foundry-Portals testen. Zum Testen des Modells können Sie das Bild beschreiben, das Sie erstellen möchten. Und nach ein paar Minuten wird ein Bild generiert, das Ihrer Beschreibung entspricht.

Screenshot der Bildgenerierung im Foundry-Playground.

Verwenden des OpenAI Python SDK für die Bildgenerierung

Sie können Code schreiben, um eine Anwendung zu erstellen, die ein Imagegenerierungsmodell verwendet, indem Sie die Images-Klasse der Azure OpenAI-API verwenden. Mit der OpenAI-Images-Klasse im OpenAI Python SDK können Sie neue Bilder generieren und vorhandene Bilder bearbeiten. Sie können das OpenAI Python SDK verwenden, indem Sie den OpenAI Images API-Endpunkt über eine Python-Schnittstelle aufrufen.

Die Möglichkeit, originale Bilder aus Beschreibungen dynamisch zu generieren, kann in Szenarien mit Medien, Veröffentlichung und Inhaltserstellung enorm wertvoll sein.

Um Bilder mit dem OpenAI Python SDK zu generieren, benötigen Sie Folgendes:

Eine Foundry-Ressource
Ein bereitgestelltes vision-fähiges Modell (der Bereitstellungsname ist das. was Sie als MODEL_NAME übergeben)
Authentifizierung über API-Schlüssel oder Microsoft Entra-ID
OpenAI-Antwort-API-Aufrufe mit Bildeingabe (URL oder Base64-Daten-URL)

Hinweis

Base64 bezieht sich auf binäre Dateien wie Bilder, die als rohe Bytes dargestellt werden. JSON und URLs sind nur Text. Die Base64-Codierung konvertiert Binärdaten in sicheren ASCII-Text, sodass Binärdateien in JSON oder URLs eingebettet werden können.

Betrachten Sie beispielsweise den folgenden Python-Code:

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

Erfahren Sie als Nächstes, wie Sie Videogenerierungsmodelle aus Foundry verwenden.

Feedback

War diese Seite hilfreich?