Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wichtig
Vorschau-API-Versionen 2024-12-01-preview und 2025-05-01-preview werden bis zum 15. Juli 2026 eingestellt. Wenn Sie noch eine Vorschau-API verwenden, aktualisieren Sie Ihren Code so, dass er auf die neueste API-Version ausgerichtet 2025-11-01 (GA)ist.
APIs-Versionen 2024-12-01-preview und 2025-05-01-preview befinden sich in der öffentlichen Vorschau. Diese Vorschauen werden ohne Vereinbarung auf Serviceebene bereitgestellt und werden für Produktionsworkloads nicht empfohlen. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews und das Microsoft Produkt- und Dienstdatenschutz-Zusatz ("DPA").
Azure Inhaltsverständnis ermöglicht es Ihnen, einen Standardsatz von Videometadaten zu generieren und benutzerdefinierte Felder für Ihren spezifischen Anwendungsfall mithilfe von generativen Modellen zu erstellen. Das Inhaltsverständnis hilft Ihnen beim Verwalten, Kategorisieren, Abrufen und Erstellen von Workflows für Videoressourcen. Sie verbessert Ihre Medienobjektbibliothek, unterstützt Funktionen wie die Erzeugung von Highlights, kategorisiert Inhalte und erleichtert Anwendungen wie retrieval-augmented generation (RAG).
Der vorerstellte Videoanalyzer (prebuilt-videoAnalysis) gibt RAG-ready Output aus. In Markdown gibt es Folgendes aus:
- Abschrift: Inlinetranskriptionen im WebVTT-Standardformat
- Keyframes: Sortierte Keyframeminiaturansichten ermöglichen eine tiefere Analyse
Und das JSON-Schema enthält weitere Details aus der visuellen Analyse.
- Beschreibung: Beschreibungen von Segmenten in natürlicher Sprache mit visuellem und Sprachkontext
- Segmentierung: Automatische Szenensegmentierung, die das Video basierend auf den von Ihnen definierten Kategorien in logische Blöcke unterteilt
Dieses Format kann direkt in einen Vektorspeicher eingefügt werden, um einen Agent oder RAG-Workflow zu aktivieren– es ist keine Nachbearbeitung erforderlich.
Von dort aus können Sie den Analyzer für eine präzisere Steuerung der Ausgabe anpassen. Sie können benutzerdefinierte Felder und Segmente definieren. Mithilfe der Anpassung können Sie die volle Leistungsfähigkeit von generativen Modellen nutzen, um tiefe Einblicke aus den visuellen und Audiodetails des Videos zu extrahieren.
Die Anpassung ermöglicht zum Beispiel Folgendes:
- Definieren Sie benutzerdefinierte Felder: Um zu identifizieren, welche Produkte und Marken im Video angezeigt oder erwähnt werden.
- Generieren Sie benutzerdefinierte Segmente: um eine Nachrichtenübertragung basierend auf den Themen oder Nachrichtenmeldungen zu segmentieren.
-
Prominente Personen anhand von Gesichtsbeschreibungen identifizieren: einen Kunden in die Lage versetzen, Prominente im Filmmaterial mit Namen und Titel zu kennzeichnen, basierend auf dem Weltwissen des generativen Modells, zum Beispiel
Satya Nadella.
Gründe für die Verwendung von Inhaltsverständnis für Video?
Das Inhaltsverständnis für Video hat ein breites Potenzial. Sie können z. B. Metadaten so anpassen, dass bestimmte Szenen in einem Schulungsvideo kategorisiert werden, sodass Mitarbeiter wichtige Abschnitte leichter finden und überarbeiten können. Sie können auch metadatenanpassungen verwenden, um die Produktplatzierung in Werbevideos zu identifizieren, wodurch Marketingteams die Markenexposition analysieren können. Weitere Anwendungsfälle sind:
- Übertragen von Medien und Unterhaltung: Verwalten Sie große Bibliotheken von Shows, Filmen und Clips, indem Sie detaillierte Metadaten für jedes Objekt generieren.
- Bildung und E-Learning: Indizierung und Abrufen bestimmter Momente in Lehrvideos oder Vorträgen.
- Unternehmensschulung: Organisieren Sie Schulungsvideos nach wichtigen Themen, Szenen oder wichtigen Momenten.
- Marketing und Werbung: Analysieren Sie Werbevideos, um Produktplatzierungen, Markenauftritte und wichtige Nachrichten zu extrahieren.
Beispiel für eine vorgefertigte Videoanalyse
Mit dem vorgefertigten Videoanalysator (prebuilt-videoSearch) können Sie ein Video hochladen und eine sofort verwendbare Wissensressource erhalten. Der Dienst verpackt den Inhalt in aufwendig formatiertes Markdown und JSON. Mit diesem Prozess kann Ihr Suchindex oder Chat-Agent den Inhalt ohne benutzerdefinierten Klebecode aufnehmen.
Rufen Sie zum Beispiel den Analyzer auf, der für Retrieval-Augmented Generation für Video
prebuilt-videoSearchentwickelt wurde. Ausführliche Informationen finden Sie in der SCHNELLstartanleitung der REST-API .Die Analyse eines 30-Sekunden-Werbevideos erzeugt die folgende Ausgabe:
# Video: 00:00.000 => 00:06.000 A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Get new years ready. Key Frames - 00:00.600  - 00:01.200  ## Video: 00:06.000 => 00:10.080 The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Go team! Key Frames - 00:06.200  - 00:07.080  *…additional data omitted for brevity…*
Exemplarische Vorgehensweise
Lesen Sie die folgende Schritt-für-Schritt-Anleitung für RAG on Video unter Nutzung von Inhaltsverständnis:
RAG on Video mit Azure Content Understanding
Funktionen
Hinweis
Gesichtsidentifikations- und Gruppierungsfunktionen sind nur in der Vorschau-API-Version verfügbar und sind nicht in der GA-Version enthalten.
In zwei Phasen wird das rohe Video in strukturierte Einblicke umgewandelt. Das folgende Diagramm zeigt, wie die Inhaltsextraktion in die Feldextraktion eingespeist wird.
Der Dienst wird in zwei Phasen betrieben. In der ersten Phase der Inhaltsextraktion werden grundlegende Metadaten wie Transkriptionen und Aufnahmen erfasst. Die zweite Stufe, Feldextraktion, verwendet ein generatives Modell, um benutzerdefinierte Felder zu erzeugen und Segmentierung durchzuführen.
Inhaltsextraktionsfunktionen
Beim ersten Durchgang geht es darum, eine erste Reihe von Details zu extrahieren – wer spricht und wo wird geschnitten. Es erstellt eine solide Metadaten-Grundlage, auf der spätere Schritte aufbauen können.
Transkription: Konvertiert Unterhaltungsaudio in durchsuchbare und analyzierbare textbasierte Transkripte im WebVTT-Format. Zeitstempel auf Satzebene sind verfügbar, wenn
"returnDetails": truefestgelegt ist. Das Inhaltsverständnis unterstützt das vollständige Set von Azure Speech in Foundry Tools Sprache-zu-Text-Sprachen. Details zur Sprachunterstützung für Video sind identisch mit Audio, ausführliche Informationen finden Sie unterAudiosprachenbehandlung . Die folgenden Transkriptionsdetails sind wichtig zu berücksichtigen:Diarisierung: Unterscheidet zwischen Sprechern in einer Unterhaltung in der Ausgabe, wobei Teile des Transkripts bestimmten Sprechern zugewiesen werden.
Mehrsprachige Transkription: Generiert mehrsprachige Transkriptionen. Sprache/Locale wird pro Phrase im Transkript angewendet. Phrasenausgabe, wenn
"returnDetails": truefestgelegt ist. Abweichend von der Spracherkennung wird diese Funktion aktiviert, wenn keine Sprache/kein Gebietsschema angegeben ist oder die Sprache aufautofestgelegt ist.Hinweis
Wenn mehrsprachige Transkription verwendet wird, erzeugen alle Dateien mit nicht unterstützten Gebietsschemas ein Ergebnis basierend auf dem nächstgelegenen unterstützten Gebietsschema, das wahrscheinlich falsch ist. Dieses Ergebnis ist ein bekanntes Verhalten. Vermeiden Sie Probleme bei der Transkriptionsqualität, indem Sie sicherstellen, dass Sie Gebietsschemata konfigurieren, wenn Sie kein mehrsprachiges Transkript verwenden, das Gebietsschemata unterstützt!
Keyframeextraktion: Extrahiert Keyframes aus Videos, um jeden Shot vollständig darzustellen, um sicherzustellen, dass jeder Screenshot über genügend Keyframes verfügt, um die Feldextraktion effektiv zu ermöglichen.
Shot-Erkennung: Identifiziert Segmente des Videos, die nach Möglichkeit an Shot-Grenzen ausgerichtet sind, was eine präzise Bearbeitung und ein Neupacken von Inhalten mit fehlerhaften Schnitten zulässt. Die Ausgabe ist eine Liste der Zeitstempel in Millisekunden in
cameraShotTimesMs. Die Ausgabe wird nur zurückgegeben, wenn"returnDetails": truefestgelegt ist.
Feldextraktion und Segmentierung
Anschließend generiert das generative Modell Schichten, die Szenen mit Tags versehen, Aktionen zusammenfassen und das Filmmaterial entsprechend Ihrer Anfrage in Segmente aufteilen. Bei dieser Aktion werden Aufforderungen in strukturierte Daten umgewandelt.
Benutzerdefinierte Felder
Gestalten Sie die Ausgabe so, dass sie Ihrem Geschäftsvokabular entspricht. Verwenden Sie ein fieldSchema Objekt, in dem jeder Eintrag den Namen, den Typ und die Beschreibung eines Felds definiert. Zur Laufzeit füllt das generative Modell diese Felder für jedes Segment aus.
Medienobjektverwaltung:
- Videokategorie: Hilft Editoren und Produzenten dabei, Inhalte zu organisieren, indem sie sie als News, Sport, Interview, Dokumentarfilm oder Werbung klassifizieren. Nützlich für Metadatenmarkierung und schnellere Inhaltsfilterung und -abruf.
- Farbschema: Vermittelt Stimmung und Atmosphäre, die für die Narrative Konsistenz und das Engagement des Betrachters unerlässlich ist. Das Identifizieren von Farbdesigns hilft bei der Suche nach übereinstimmenden Clips für die beschleunigte Videobearbeitung.
Werbung:
- Marke: Identifiziert Die Markenpräsenz, die für die Analyse von Anzeigenwirkungen, die Markensichtbarkeit und die Zuordnung zu Produkten von entscheidender Bedeutung ist. Mit dieser Funktion können Werbekunden Markenprominenz bewerten und die Einhaltung von Brandingrichtlinien sicherstellen.
- Anzeigenkategorien: Kategorisiert Anzeigentypen nach Branche, Produkttyp oder Zielgruppensegment, die gezielte Werbestrategien, Kategorisierung und Leistungsanalyse unterstützt.
Beispiel:
"fieldSchema": {
"description": "Extract brand presence and sentiment per scene",
"fields": {
"brandLogo": {
"type": "string",
"method": "generate",
"description": "Brand being promoted in the video. Include the product name if available."
},
"Sentiment": {
"type": "string",
"method": "classify",
"description": "Ad categories",
"enum": [
"Consumer Packaged Goods",
"Groceries",
"Technology"
]
}
}
}
Gesichtsbeschreibungsfelder
Hinweis
Dieses Feature bietet eingeschränkten Zugriff; Kunden müssen die Deaktivierung der Gesichtsunschärfe für Azure OpenAI-Modelle mit einer Azure-Supportanfrage anfordern. Erfahren Sie mehr Verwalten einer Azure-Supportanfrage.
Die Feldextraktionsfunktion kann optional erweitert werden, um detaillierte Beschreibungen von Gesichtern im Video bereitzustellen. Diese Funktion umfasst Attribute wie Gesichtshaare, Gesichtsausdruck und das Vorhandensein von Prominenten, die für verschiedene analytische und indizierende Zwecke von entscheidender Bedeutung sein können. Um die Funktionen zur Gesichtsbeschreibung zu aktivieren, setzen Sie disableFaceBlurring : true in der Analysekonfiguration.
Beispiele:
-
Beispielfeld: facialHairDescription: Beschreibt die Art der Gesichtshaare (z. B
beard. ,mustache,clean-shaven) -
Beispielfeld: nameOfProminentPerson: Stellt einen Namen bereit, wenn möglich von einem Prominenten im Video (z. B
Satya Nadella. ) - Beispielfeld: faceSmilingFrowning: Stellt eine Beschreibung bereit, ob eine Person lächelt oder die Stirn runzelt.
Segmentierungsmodus
Hinweis
Das Festlegen der Segmentierung verwendet das generative Modell, wobei Token verwendet werden, auch wenn keine Felder definiert sind.
Das Inhaltsverständnis bietet zwei Möglichkeiten zum Segmentieren eines Videos, sodass Sie die ausgabe abrufen können, die Sie für ganze Videos oder kurze Clips benötigen. Sie können diese Optionen verwenden, indem Sie die enableSegment Eigenschaft für einen benutzerdefinierten Analyzer festlegen.
Gesamtes Video –
enableSegment : falseDer Dienst behandelt die gesamte Videodatei als einzelnes Segment und extrahiert Metadaten während der gesamten Dauer.Anwendungsfälle:
- Complianceüberprüfungen, die überall in einer Anzeige nach bestimmten Problemen mit der Markensicherheit suchen
- Ausführliche beschreibende Zusammenfassungen
Benutzerdefinierte Segmentierung –
enableSegment : trueSie beschreiben die Logik in natürlicher Sprache, und das Modell erstellt Segmente, die übereinstimmen sollen. Legen SiecontentCategorieseine Zeichenfolge fest, die beschreibt, wie das Video segmentiert werden soll. Angepasste Segmente lassen je nach Prompt unterschiedliche Längen von Sekunden bis Minuten zu. In dieser Version unterstützt Video nur eincontentCategoriesObjekt.Beispiel: Unterteilen Sie eine Nachrichtenübertragung in Geschichten.
{ "config": { "enableSegment": true, "contentCategories": { "news-story": { "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.", "analyzerId": "NewsAnalyzer" } } } }
Wichtige Vorteile
Inhaltsverständnis bietet im Vergleich zu anderen Videoanalyselösungen mehrere wichtige Vorteile:
- Segmentbasierte Multiframeanalyse: Identifizieren Sie Aktionen, Ereignisse, Themen und Designs, indem Sie mehrere Frames aus jedem Videosegment statt einzelner Frames analysieren.
- Anpassung: Passen Sie die von Ihnen generierten Felder und Segmentierung an, indem Sie das Schema gemäß Ihrem spezifischen Anwendungsfall ändern.
- Generative Modelle: Beschreiben Sie in natürlicher Sprache, welchen Inhalt Sie extrahieren möchten, und inhaltsverständnis verwendet generative Modelle, um diese Metadaten zu extrahieren.
- Optimierte Vorverarbeitung: Führen Sie mehrere Schritte zur Präverarbeitung der Inhaltsextraktion aus, z. B. Transkription und Szenenerkennung, die optimiert sind, um einen umfassenden Kontext für AI-generative Modelle bereitzustellen.
Technische Beschränkungen und Einschränkungen
Spezifische Einschränkungen der Videoverarbeitung, die Sie berücksichtigen sollten:
- Frame sampling (~ 1 FPS): Der Analyzer prüft etwa einen Frame pro Sekunde. Schnelle Bewegungen oder Einzelbild-Ereignisse werden möglicherweise verpasst.
- Frame-Auflösung (512 × 512 px): Gesampelte Frames werden auf 512 Pixel im Quadrat verkleinert. Kleine Texte oder entfernte Objekte können verlorengehen.
- Sprache: Nur gesprochene Wörter werden transkribiert. Musik, Soundeffekte und Umgebungsgeräusche werden ignoriert.
Eingabeanforderungen
Unterstützte Formate finden Sie unter Dienstkontingente und Grenzwerte.
Unterstützte Sprachen und Regionen
Siehe Sprach- und Regionsunterstützung.
Datenschutz und Sicherheit
Wie bei allen Foundry Tools lesen Sie die Dokumentation Microsoft Daten, Schutz und Datenschutz.
Wichtig
Wenn Sie biometrische Daten verarbeiten (z. B. Gesichtsbeschreibung aktivieren), müssen Sie alle Benachrichtigungs-, Zustimmungs- und Löschungsanforderungen gemäß den geltenden Gesetzen erfüllen. Siehe Daten und Datenschutz für Gesicht.
Verwandte Inhalte
Testen Sie die Analyse von Videos im Content Understanding Studio.
Sehen Sie sich die Schnellstartanleitung von Content Understanding Studio an.
Erfahren Sie mehr über das Analysieren von Videoinhalten mithilfe von Analysevorlagen.
Proben: