Modelle der Videogenerierung

Abgeschlossen

Tip

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Neben statischen Bildern erwarten wir zunehmend, visuelle Inhalte als Video zu nutzen.

Verwenden von Videogenerierungsmodellen von Foundry

Microsoft Foundry enthält Modelle für die Videogenerierung, mit denen Sie originale Videoinhalte erstellen können.

Screenshot des Foundry-Modellkatalogs mit drei angezeigten Videogenerierungsmodellen.

Videogenerierungsmodelle in Foundry umfassen:

  • Sora 1: Sora ist das erste Text-zu-Video-Modell von OpenAI, das in Microsoft Foundry zur Verfügung gestellt wurde. Es generiert kurze Videoclips aus Textaufforderungen und kann auch Bilder als Eingabe verwenden, um die Videoerstellung zu leiten. Sora 1 unterstützt mehrere Auflösungen und Dauer und wird über den Azure OpenAI-Dienst und den Foundry Video Playground für Experimente verfügbar gemacht.

Typische Verwendungen:

  • Konzeptvideos und Storyboards
  • Kurze Animationen aus Textbeschreibungen
  • Visuelle Prototyperstellung für kreative Workflows

Sora 2 (öffentliche Vorschau):Sora 2 ist das Modell der nächsten Generation der Videogenerierung in Foundry und stellt ein erhebliches Upgrade über Sora 1 dar. Es unterstützt mehrere Modalitäten, einschließlich: Text → Video, Bild → Video, Video → Video (Remix). Sora 2 führt auch die Audiogenerierung, verbesserte Realismus- und Remixing-Funktionen ein, die gezielte Bearbeitungen ermöglichen, anstatt ein gesamtes Video neu zu generieren. Sie ist über die Azure OpenAI v1-API und den Foundry Video Playground mit integrierten Verantwortungs-KI-Schutzmaßnahmen verfügbar.

Typische Verwendungen:

  • Marketing- und Werbevideos
  • Kinokonzeptvorschauen und Trailer
  • Bildungs- und immersive Medieninhalte

Hinweis

Wichtig ist, dass Sora-Modelle derzeit die einzigen nativen Videogenerierungsmodelle sind, die direkt über Foundry bereitgestellt werden. Andere Foundry-Modelle können multimodal (Text, Bild, Audio) sein, aber sie erzeugen keine Videoausgabe. Sowohl Sora 1 als auch Sora 2 umfassen Einschränkungen für verantwortungsvolle KI, z. B. Beschränkungen für echte Personen, urheberrechtlich geschützte Zeichen und bestimmte Inhaltstypen.

Videogenerierung im Gießerei-Spielplatz

Nachdem Sie ein entsprechendes Videogenerierungsmodell bereitgestellt haben, können Sie es im Gießereiportal-Playground testen. Im Playground können Sie auch Parameter wie Videoabmessungen und Dauer angeben.

Screenshot des Sora-Modells im Foundry Playground mit Parametern und einer Eingabeaufforderung.

Ihre Aufforderungen zum Modell der Videogenerierung sollten eine Beschreibung des Inhalts im gewünschten Video enthalten. Nach ein paar Minuten produziert das Modell ein Video.

Sie können sich den Beispielcode im Playground ansehen.

Screenshot des Sora-Modells im Foundry Playground mit Beispielcode.

Der Beispielcode verwendet die REST-Schnittstelle für die Videogenerierung.

Verwenden der REST-Schnittstelle für die Videogenerierung

Sie können die Foundry REST-Schnittstelle verwenden, um einen Videogenerierungsauftrag anzufordern und den fertigen MP4 programmgesteuertabzurufen. Mit der programmgesteuerten Videogenerierung können Sie den Prozess der Videogenerierung automatisieren.

Hinweis

Eine REST-API (Representational State Transfer API) ist eine Webschnittstelle, über die Programme mit HTTP kommunizieren können. Ein SDK als entwicklerfreundliches Toolkit, das auf dieser Schnittstelle basiert. Sie können immer mit der zugrunde liegenden REST-API arbeiten, insbesondere wenn ein SDK in der Programmiersprache, mit der Sie vertraut sind, nicht vorhanden ist. Sie können curl (kurz für Client-URL) verwenden, um die REST-API aufzurufen oder mit ihnen zu sprechen. Curl ist ein Befehlszeilentool zum Senden und Empfangen von Daten über das Internet. Curl: sendet HTTP-Anforderungen (und andere Protokolle), sendet Daten an einen Server und empfängt und druckt die Antwort des Servers.

Die Videogenerierung ist ressourcenintensiv und wird in der Regel als asynchroner Auftrag ausgeführt.

Asynchron bedeutet, dass Sie:

  1. Einen Job erstellen
  2. Abfrage des Arbeitsstatus
  3. Laden Sie das Video herunter, sobald der Auftrag abgeschlossen ist.

Die Zeit der Videogenerierung beträgt je nach Einstellungen häufig 1 bis 5 Minuten. Um einen asynchronen Auftrag mit der Foundry REST-Schnittstelle auszuführen, benötigen Sie Folgendes:

  • Eine Azure OpenAI/Foundry-Ressource in einer unterstützten Region und einer Sora-Bereitstellung (Sie stellen Sora aus den Modellen und Endpunkten von Foundry bereit).
  • Eine Autorisierungsmethode: API-Schlüssel oder Microsoft Entra-ID

Sehen wir uns die Verwendung der Azure OpenAI v1-API mit dem Sora 2-Modell an.

Die Sora 2-API bietet unterschiedliche Endpunkte für:

  • Starten eines Renderauftrags
  • Abrufen des Status des Auftrags
  • Herunterladen des Videos

1. Erstellen Sie einen Videoauftrag

Im Beispiel startet das Skript einen asynchronen Renderauftrag und gibt eine Antwort zurück, die eine Video-ID zum Abrufen enthält.

Hinweis

Bash ist eine Befehlszeilenshell und Skriptsprache. Curl ist ein Befehl, den Sie in Bash ausführen.

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos" \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -d '{
    "model": "sora-2",
    "prompt": "A cinematic close-up of raindrops sliding down a neon-lit window at night.",
    "size": "1280x720",
    "seconds": "8"
  }'

2. Fragen Sie den Auftragsstatus bis zum Abschluss ab

Im Beispiel fragt das Skript den Endpunkt ab, bis der Auftrag completed (oder failed) erreicht.

curl -X GET "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}" \
  -H "api-key: $AZURE_OPENAI_API_KEY"

3. Laden Sie das fertige Video herunter.

Das Video wird erst heruntergeladen, nachdem status ist completed.

curl -L "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}/content?variant=video" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  --output output.mp4

Videomodelle werden ständig verbessert, und Microsoft Foundry erleichtert die Integration in kreative Lösungen. Probieren Sie als Nächstes visionsfähige Modelle, Bildgenerierung und Videogenerierung in Foundry selbst aus.