Auswählen einer Azure AI-Bild- und Videoverarbeitungs- und Generierungstechnologie

Foundry Tools hilft Entwicklern und Organisationen, KI-basierte, fortgeschrittene, produktionsfähige Anwendungen zu erstellen, die sich an verantwortungsvolle KI-Praktiken orientieren, indem sie sofort einsatzbereite, vorgefertigte und anpassbare APIs und Modelle verwenden.

In diesem Artikel werden Video- und Bildverarbeitungsfunktionen in Tools beschrieben, z. B. visuelle Analyse und Generierung von Bildern, Objekterkennung, Bildklassifizierung und Gesichtserkennung. Die Suite umfasst die folgenden Dienste:

Azure OpenAI in Foundry Models bietet Zugriff auf die folgenden OpenAI-Sprachmodelle:
- Die neueste Generation von GPT-Modellen mit Seh- und Audiofunktionen
- DALL-E für die Bildgenerierung
- Audiomodelle für Echtzeit-Sprachunterhaltungen, Audiogenerierung, STT-Transkription, Übersetzung und Text-zu-Sprache (TTS)
Verwenden Sie Azure OpenAI für die Bildgenerierung aus natürlicher Sprache, breiter und nicht spezifischer Bildanalyse oder Audioszenarien, für die kein dedizierter Sprachdienst erforderlich ist.
Azure Vision in Foundry Tools bietet erweiterte Algorithmen, die Bilder verarbeiten und Informationen basierend auf visuellen Features zurückgeben. Dazu gehören optische Zeichenerkennungsfunktionen (OCR), Bildanalyse und Gesichtserkennung.
Microsoft Azure AI Custom Vision ist ein Bilderkennungsdienst, mit dem Sie Ihre Imagebezeichnermodelle für bestimmte Anforderungen erstellen, bereitstellen und verbessern können, die andere Dienste nicht erfüllen können.
Azure Content Understanding in Foundry Tools verwendet generative KI, um strukturierte Felder aus Bildern und Videos zu extrahieren. Verwenden Sie Azure Content Understanding, wenn Sie schemadefinierte Extraktion, Szenensegmentierung oder eine RAG-fähige Videoausgabe (Retrieval-Augmented Generation) benötigen.
Microsoft Azure AI Video Indexer ist eine KI-Lösung, mit der Organisationen tiefe Einblicke aus Video- und Audioinhalten extrahieren können. Es unterstützt sowohl Live- als auch hochgeladene Quellen mithilfe erweiterter Machine Learning- und generativer KI-Modelle.

Azure OpenAI

Azure OpenAI bietet Zugriff auf die leistungsstarken Sprachmodelle von OpenAI, einschließlich der neuesten Generation von GPT-Modellen mit Bild-, Video- und Audiofunktionen. DALL-E- und GPT-Image-Generierungsmodelle sowie Audiomodelle für Echtzeit-Sprachunterhaltungen, Audiogenerierung und Transkription, STT, Sprachübersetzung und TTS sind ebenfalls verfügbar.

Verwenden von Azure OpenAI für diese Aufgaben	Verwenden Sie Azure OpenAI nicht für diese Aufgaben.
Generieren Sie Bilder aus Beschreibungen natürlicher Sprachen mithilfe von DALL-E oder GPT-Imagemodellen.	Führen Sie bestimmte Bildverarbeitungsaufgaben aus, z. B. Formularextraktion oder domänenspezifische Erkennung. Verwenden Sie Azure Document Intelligence für diese Aufgaben.
Verwenden Sie breit angelegte, nicht spezifische Analysen auf Bildern, indem Sie visionsfähige Modelle wie GPT-4o verwenden.	Extrahieren Sie strukturierte Felder aus Bildern mithilfe eines schemas, das Sie definieren. Verwenden Sie für die schemagesteuerte Extraktion Azure Content Understanding.
Transkribieren Sie STT oder übersetzen Sie gesprochene Audio mithilfe von Flüster- oder GPT-4o-Transkriptionsmodellen.	Erkennen, Identifizieren oder Analysieren von Gesichtern. Verwenden Sie Azure Vision für gesichtsbezogene Aufgaben.
Aktivieren Sie Sprachunterhaltungen mit geringer Latenz in Echtzeit mithilfe von GPT-4o Realtime-Audiomodellen.	Führen Sie eine Sprachtranskription mit hohem Volumen durch, die fortgeschrittene Anpassungen, Sprecherdiarisierung oder benutzerdefiniertes Vokabular erfordert. Verwenden Sie für diese Szenarien Azure Speech in Foundry Tools.
Generieren Sie Barrierefreiheitsbeschreibungen für Bilder.	Verwenden Sie Open-Source-Bildgenerierungsmodelle. Verwenden Sie für Open-Source-Modelle Azure Machine Learning.

Audiomodelle

Azure OpenAI stellt Audiomodelle über die folgenden APIs bereit:

Die Echtzeit-API für Sprachgespräche mit geringer Latenz
Die Chat-Vervollständigungs-API mit Audio für flexible Audiogenerierung und Transkription in einem einzigen Modellaufruf
Die Audio-API über den /audio Endpunkt für die dateibasierte STT-Transkription in Flüster- und GPT-4o-Transkriptionsmodellen, Sprachübersetzung und TTS

Azure Vision

Azure Vision ist ein Dienst in Tools. Es bietet erweiterte Algorithmen, die Bilder verarbeiten und Informationen basierend auf den von Ihnen angegebenen visuellen Features zurückgeben. Azure Vision umfasst OCR-, Bildanalyse- und Gesichtserkennungsfunktionen.

Verwenden von Azure Vision für diese Aufgaben	Verwenden Sie Azure Vision nicht für diese Aufgaben.
Extrahieren Sie gedruckten und handschriftlichen Text aus Bildern und Dokumenten mithilfe von OCR.	Führen Sie erweiterte Videoanalysen wie Transkription, Übersetzung oder Inhaltszusammenfassung durch. Verwenden Sie für diese Aufgaben den Videoindexer.
Analysieren Sie Bilder, um visuelle Features wie Objekte, Gesichter und automatisch generierte Beschreibungen zu extrahieren.	Moderate Inhalte zur Sicherheit. Verwenden Sie für die Inhaltsmoderation Content Safety im Foundry Control Plane.
Erkennen, Nachverfolgen und Analysieren menschlicher Gesichter in Bildern.	Führen Sie eine Analyse durch, die von großen, multimodalen Foundation-Modellen wie GPT-4o bereits unterstützt wird.

Verfügbare Azure Vision-Features

Die folgende Tabelle enthält eine Liste der in Azure Vision verfügbaren Features.

Funktion	Beschreibung
OCR	Extrahiert Text aus Bildern. Sie können die Lese-API verwenden, um gedruckten und handschriftlichen Text aus Bildern und Dokumenten zu extrahieren. Es verwendet deep-learning-basierte Modelle und arbeitet mit Text auf verschiedenen Oberflächen und Hintergründen, darunter Geschäftsdokumente, Rechnungen, Belege, Poster, Visitenkarten, Briefe und Whiteboards.
Bildanalyse	Extrahiert viele visuelle Features aus Bildern, z. B. Objekten, Gesichtern, erwachsenen Inhalten und automatisch generierten Textbeschreibungen. Sie können benutzerdefinierte Bildbezeichnermodelle mithilfe von Image Analysis 4.0 basierend auf dem Florenz-Foundation-Modell erstellen.
Gesichtserkennung und -analyse	Identifiziert die Bereiche eines Bilds, die ein menschliches Gesicht enthalten, in der Regel durch Zurückgeben von Begrenzungsfeldkoordinaten, die ein Rechteck um das Gesicht bilden.
Ähnliche Gesichter suchen	Abgleicht ein Zielgesicht mit einer Gruppe von Kandidaten und identifiziert eine kleinere Gruppe von Gesichtern, die dem Zielgesicht sehr ähnlich sind. Diese Funktion ist nützlich für die Gesichtssuche nach Bild.
Gruppieren von Gesichtern	Teilt eine Reihe unbekannter Gesichter auf der Grundlage der Ähnlichkeit in mehrere kleinere Gruppen auf.
Gesichtsidentifikation	Führt einen Abgleich eines Gesichts in einem Bild mit mehreren Gesichtern in einem sicheren Repository durch. Übereinstimmungskandidaten werden basierend darauf ausgewählt, wie genau ihre Gesichtsdaten mit dem Abfragegesicht übereinstimmen.
Gesichtsüberprüfung	Führt einen 1:1-Abgleich aus, um zu bestätigen, dass ein Benutzer die Person ist, die er sein möchte.
Lebendigkeitserkennung	Ein Antispoofingfeature, das überprüft, ob ein Benutzer physisch vor der Kamera vorhanden ist. Verhindert Spoofingangriffe, die ein gedrucktes Foto, aufgezeichnetes Video oder eine 3D-Maske des Gesichts des Benutzers verwenden.

Anwendungsfälle für Azure Vision

Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für Azure Vision.

Anwendungsfall	Beschreibung
Generieren von Alternativtext für Bilder (Alternativtext)	Verwenden Sie Bildanalyse-Beschriftungsmodelle, um automatisch Alternativtextbeschreibungen für Bilder zu generieren. Alternativtext verbessert die Barrierefreiheit für Benutzer, die blind sind oder sehbehindert sind, hilft bei der Einhaltung gesetzlicher Complianceanforderungen und macht Ihre Website durch verbesserte SEO besser auffindbar. Microsoft-Produkte wie PowerPoint, Word und Edge verwenden diese Funktion.
Identitätsüberprüfung	Verwenden Sie Azure Face, um zu bestätigen, dass Benutzer die sind, die sie vorgeben zu sein. Die Überprüfung vergleicht ein Probebild mit einer registrierten Vorlage, z. B. einem von Behörden ausgestellten Ausweis, für Zugriffskontrollszenarien. Dieser Ansatz trägt zur Verbesserung der Benutzerfreundlichkeit und Sicherheit im Vergleich zu wissensbasierten Methoden bei.
Gesichtsverdeckung	Schwärzen oder verwischen Sie erkannte Gesichter von Personen, die in einem Video aufgenommen wurden, um deren Privatsphäre zu schützen.
Touchlose Zugriffssteuerung	Verwenden Sie die Gesichtserkennung auf Opt-in-Basis für eine erweiterte Zugriffskontrolle und reduzieren Sie dabei die Wartungs- und Sicherheitsrisiken durch den Austausch, Verlust oder Diebstahl von physischen Medien. Die Gesichtserkennung unterstützt den Eincheckprozess mit einer Person im Hintergrund in Flughäfen, Stadien, Freizeitparks, Gebäuden, Empfangskiosken in Büros, Krankenhäusern, Fitnessstudios, Clubs oder Schulen.

Benutzerdefinierte Vision

Custom Vision ist ein Bilderkennungsdienst, mit dem Sie Ihre Imagebezeichnermodelle erstellen, bereitstellen und verbessern können. Ein Bildbezeichner wendet Beschriftungen auf Bilder basierend auf ihren visuellen Merkmalen an. Jede Bezeichnung stellt eine Klassifizierung oder ein Objekt dar. Verwenden Sie Custom Vision, um Eigene Etiketten anzugeben und benutzerdefinierte Modelle zu trainieren, um sie zu erkennen.

Verwenden der benutzerdefinierten Vision für diese Aufgaben	Verwenden Sie für diese Aufgaben keine benutzerdefinierte Vision.
Erkennen Sie ungewöhnliche Objekte und Fertigungsfehler, die die Standardbildanalyse nicht erkennen kann.	Führen Sie grundlegende Objekterkennung oder Gesichtserkennung durch. Verwenden Sie stattdessen Azure Vision .
Bereitstellen detaillierter benutzerdefinierter Klassifizierungen für bestimmte Geschäftliche Anforderungen.	Führen Sie eine einfache visuelle Analyse durch. Verwenden Sie stattdessen visionsfähige Modelle aus Azure OpenAI oder Open-Source-Modellen in Machine Learning.
Trainieren Sie Modelle mit eigenen beschrifteten Bildern für spezielle Szenarien.

Custom Vision verwendet einen Maschinellen Lernalgorithmus, um Bilder für benutzerdefinierte Features zu analysieren. Sie übermitteln Sätze von Bildern mit und ohne die gewünschten visuellen Merkmale. Anschließend bezeichnen Sie die Bilder mit Ihren eigenen Etiketten oder Tags zum Zeitpunkt der Übermittlung. Der Algorithmus verwendet diese Daten, um seine eigene Genauigkeit zu trainieren und zu berechnen, indem er sich selbst auf dieselben Bilder testet. Nachdem Sie Ihr Modell trainiert haben, können Sie das Modell in Ihrer Bilderkennungs-App testen, neu trainieren und schließlich verwenden, um Bilder zu klassifizieren oder Objekte zu erkennen. Darüber hinaus kann das Modell exportiert und offline verwendet werden.

Verfügbare benutzerdefinierte Vision-Features

Die folgende Tabelle enthält eine Liste der features, die in Custom Vision verfügbar sind.

Funktion	Beschreibung
Bildklassifizierung	Prognostizieren Sie eine Kategorie oder Klasse basierend auf einer Reihe von Eingaben, die als Features bezeichnet werden. Berechnen Sie eine Wahrscheinlichkeitsbewertung für jede mögliche Klasse, und geben Sie eine Bezeichnung zurück, die die Klasse angibt, zu der das Objekt wahrscheinlich gehört. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und deren Bezeichnungen bestehen.
Objekterkennung	Rufen Sie die Koordinaten eines Objekts in einem Bild ab. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und deren Bezeichnungen bestehen.

Funktion

Beschreibung

Bildklassifizierung

Prognostizieren Sie eine Kategorie oder Klasse basierend auf einer Reihe von Eingaben, die als Features bezeichnet werden. Berechnen Sie eine Wahrscheinlichkeitsbewertung für jede mögliche Klasse, und geben Sie eine Bezeichnung zurück, die die Klasse angibt, zu der das Objekt wahrscheinlich gehört. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und deren Bezeichnungen bestehen.

Objekterkennung

Rufen Sie die Koordinaten eines Objekts in einem Bild ab. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und deren Bezeichnungen bestehen.

Anwendungsfälle für Custom Vision

Die folgende Tabelle enthält eine Liste der möglichen Anwendungsfälle für custom Vision.

Anwendungsfall	Beschreibung
Verwenden Sie Custom Vision mit einem IoT-Gerät (Internet of Things), um visuelle Zustände zu melden.	Verwenden Sie Custom Vision, um ein Gerät zu trainieren, das über eine Kamera verfügt, um visuelle Zustände zu erkennen. Sie können dieses Erkennungsszenario auf einem IoT-Gerät mithilfe eines exportierten ONNX-Modells ausführen. Ein visueller Zustand beschreibt den Inhalt eines Bilds, z. B. einen leeren Raum, einen Raum mit Personen, eine leere Einfahrt oder eine Einfahrt mit einem Lkw.
Klassifizieren von Bildern und Objekten.	Analysieren Sie Fotos und scannen Sie nach bestimmten Logos, indem Sie ein benutzerdefiniertes Modell trainieren.

Azure Content Understanding (Inhaltsverständnis)

Azure Content Understanding ist ein Dienst in Tools. Es verwendet generative KI, um strukturierte Felder aus Bildern und Videos zu extrahieren. Sie definieren ein Schema, das angibt, was extrahiert werden soll, und Azure Content Understanding wendet generative Modelle an, um strukturierte JSON- oder RAG-ready Markdown-Ausgabe zu erzeugen. Sie bietet außerdem Konfidenzbewertungen und -grundlagen für jeden extrahierten Wert, der automatisierte Workflows mit gezielter menschlicher Überprüfung unterstützt.

Verwenden von Azure Content Understanding für diese Aufgaben	Verwenden Sie azure Content Understanding für diese Aufgaben nicht.
Extrahieren Sie benutzerdefinierte strukturierte Felder aus Bildern mithilfe eines Schemas, das Sie definieren, z. B. Produkt, Marke oder Fehlererkennung.	Führen Sie standardmäßige Bildanalyse aus, z. B. Objekterkennung oder OCR. Verwenden Sie Azure Vision für diese Aufgaben.
Generieren Sie RAG-fähige Ausgabe aus Video, einschließlich Szenenbeschreibungen, Transkriptionen und Keyframes für die Verwendung in Suchindizes oder Chat-Agents.	Extrahieren Sie detaillierte Videoeinblicke, z. B. Prominentenidentifikation, Sprecherzählung oder Stimmungsanalyse über langformige Inhalte. Verwenden Sie videoindexer für diese Aufgaben.
Segmentieren Sie Videos in Szenen, und extrahieren Sie benutzerdefinierte Metadaten für jedes Segment, z. B. Markenpräsenz oder Anzeigenkategorie.
Generieren Sie Gesichtsbeschreibungen in Bildern oder Videos, z. B. Gesichtsausdrücke oder Prominentenidentifikation. Diese Features haben eingeschränkten Zugriff.

Verfügbare Azure Content Understanding-Features

Die folgende Tabelle enthält eine Liste der Bild- und Videofeatures, die in Azure Content Understanding verfügbar sind.

Funktion	Beschreibung
Bildfeldextraktion	Extrahiert benutzerdefinierte strukturierte Felder aus Bildern basierend auf einem von Ihnen definierten Schema. Sie können Felder direkt extrahieren, aus einer Reihe von Kategorien klassifizieren oder mithilfe eines generativen Modells generieren. Dieses Feature ist nützlich für die Analyse von Regalen im Einzelhandel, die Qualitätskontrolle der Fertigung und diagrammbasierte Business Intelligence (BI).
Keyframe-Extraktion	Extrahiert repräsentative Keyframes aus den einzelnen Aufnahmen in einem Video. Stellt sicher, dass jedes Segment über ausreichenden visuellen Kontext für die nachgeschaltete Feldextraktion verfügt.
Aufnahmenerkennung	Identifiziert Aufnahmegrenzen in einem Video basierend auf visuellen Hinweisen. Erzeugt eine Liste von Zeitstempeln für präzise Bearbeitung, Neuverpackung und Segmentierung.
Szenensegmentierung	Teilt ein Video in logische Szenen auf, die in natürlicher Sprache beschrieben werden. Sie definieren die Segmentierungslogik, z. B. das Aufteilen einer Nachrichtenübertragung nach Storythema, und das generative Modell erstellt übereinstimmende Segmente.
Videofeldextraktion	Generiert benutzerdefinierte strukturierte Felder für jedes Videosegment basierend auf einem Schema, z. B. Markenlogos, Anzeigenkategorien oder Szenenstimmung, mithilfe eines generativen Modells.
Gesichtsbeschreibung	Generiert Textbeschreibungen von Gesichtern in Bildern oder Videos, einschließlich Gesichtshaaren, Ausdrücken und Prominentenidentifikation. Die Gesichtsbeschreibung ist ein Feature mit eingeschränktem Zugriff, mit dem Sie in der Analysekonfiguration die Gesichtsverwischung deaktivieren müssen.

Anwendungsfälle für Azure Content Understanding

Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für Azure Content Understanding, die auf Bilder und Videos angewendet werden.

Anwendungsfall	Beschreibung
RAG on Video	Erstellen Sie RAG-kompatibles Markdown aus Videodateien, einschließlich Inline-Transkriptionen, Miniaturansichten von Schlüsselbildern und natürlichen Sprachbeschreibungen von Segmenten. Platzieren Sie die Ausgabe direkt in einem Vektorspeicher, um Agent- oder Suchworkflows ohne Nachbearbeitung zuzulassen.
Medienobjektverwaltung	Markieren Sie Videoressourcen mit Metadaten auf Szenenebene wie Inhaltskategorie, Markenpräsenz und wichtigen Momenten. Dieser Ansatz hilft Editoren, Produzenten und Marketingteams beim Organisieren und Abrufen von Inhalten aus großen Videobibliotheken.
Qualitätskontrolle der Fertigung	Analysieren Sie Produktbilder anhand eines benutzerdefinierten Schemas, um Fehler, Anomalien oder Fehlausrichtungen in Produktionslinien zu erkennen.
Verkaufsregalanalyse	Extrahieren Sie strukturierte Daten aus Regalbildern, um Produkte zu zählen, Fehlplatzierungen zu erkennen und Lagerbestände zu überwachen.
Anzeigen- und Markenanalyse	Identifizieren Sie Markenlogos und Anzeigenkategorien in Werbevideosegmenten, um die Markenexposition und die Einhaltung von Brandingrichtlinien zu bewerten.

Video-Indizierer

VideoIndexer ist eine KI-Lösung, mit der Organisationen tiefe Einblicke aus Live- und hochgeladenen Video- und Audioinhalten extrahieren können. Es verwendet erweiterte Machine Learning- und generative KI-Modelle und unterstützt eine breite Palette von Funktionen, einschließlich Transkription, Übersetzung, Objekterkennung und Videozusammenfassung. Der Videoindexer ist flexibel. Sie können es in der Cloud verwenden oder über Azure Arc auf Edgestandorten bereitstellen.

Verwenden von Videoindexer für diese Aufgaben	Verwenden Sie "Videoindexer" nicht für diese Aufgaben.
Extrahieren Sie Erkenntnisse aus hochgeladenen Videos, einschließlich Transkription, Übersetzung und Inhaltsanalyse.	Führen Sie grundlegende Videoanalyseaufgaben wie Zählvorgänge und Bewegungserkennung durch. Azure Vision ist ein kostengünstigeres Tool für diese Aufgaben.
Analysieren Sie Livevideostreams in Echtzeit für Einzelhandels-, Fertigungs- oder Sicherheitsszenarien.	Extrahieren Sie Text aus statischen Bildern. Verwenden Sie Für OCR auf Bildern Azure Vision.
Führen Sie Videoanalysen auf Edgegeräten mit strengen Anforderungen an die Datenresidenz oder geringer Latenz mithilfe von Azure Arc durch.

Bereitstellungsoptionen

Der Videoindexer bietet die folgenden Bereitstellungsoptionen.

Auswahl	Beschreibung
Cloudbasierte Videoindexer	Eine Cloudanwendung, die auf Tools basiert, einschließlich Azure Face, Azure Translator in Foundry Tools, Azure Vision und Azure Speech. Es analysiert Video- und Audioinhalte, indem mehr als 30 KI-Modelle ausgeführt werden, um detaillierte Einblicke zu generieren.
Von Azure Arc aktivierter Videoindexer	Eine Azure Arc-Erweiterung, die Video- und Audioanalyse und generative KI auf Edgegeräten ausführt. Es unterstützt sowohl hochgeladene als auch Livevideostreams, die echtzeitbasierte Analysen direkt an der Datenquelle ermöglichen. Es eignet sich für Branchen, die strenge Anforderungen an die Datenhaltung oder niedrige Latenzanforderungen im Betrieb haben.

Videomodelle

Die folgende Tabelle enthält eine Liste der Videoanalysefeatures, die in VideoIndexer verfügbar sind.

Funktion	Beschreibung
Gesichtserkennung	Erkennt und gruppiert Gesichter, die in einem Video erscheinen.
Kontobasierte Gesichtsidentifikation	Trainiert ein Modell für ein bestimmtes Konto und erkennt Gesichter in Videos basierend auf dem trainierten Modell.
Erkennung von beobachteten Personen	Erkennt beobachtete Personen in Videos und liefert Standortinformationen mithilfe von Begrenzungsrahmen, zusammen mit exakten Zeitstempeln und Konfidenzstufen. Umfasst passende Person, erkannte Kleidung und hervorgehobene Kleidungseinblicke.
Objekterkennung	Erkennt und verfolgt eindeutige Objekte, sodass sie erkannt werden können, wenn sie zum Frame zurückkehren.
OCR	Extrahiert Text aus Bildern wie Bildern, Straßenschildern und Produkten in Mediendateien, um Einblicke zu schaffen.
Erkennung von Etiketten	Identifiziert visuelle Objekte und angezeigte Aktionen.
Szenensegmentierung	Bestimmt, wann sich eine Szene basierend auf visuellen Hinweisen in Videos ändert. Eine Szene zeigt ein einzelnes Ereignis, das aus einer Reihe aufeinander folgender Aufnahmen besteht.
Aufnahmenerkennung	Bestimmt, wann sich ein Screenshot basierend auf visuellen Hinweisen in Einem Video ändert. Ein Screenshot ist eine Reihe von Frames, die von derselben Motion-Picture-Kamera aufgenommen wurden.
Keyframe-Extraktion	Erkennt stabile Keyframes in einem Video.
Slate-Erkennung	Identifiziert Film-Postproduktionserkenntnisse, einschließlich Klappentafelerkennung, Erkennung digitaler Muster und Erkennung textfreier Tafeln.

Audiomodelle

Die folgende Tabelle enthält eine Liste der Audioanalysefeatures, die in Video Indexer verfügbar sind.

Funktion	Beschreibung
Audiotranskription	Konvertiert STT in mehr als 50 Sprachen und unterstützt Erweiterungen.
Automatische Spracherkennung	Identifiziert die vorherrschende gesprochene Sprache.
Spracherkennung mit mehreren Sprachen	Identifiziert die gesprochene Sprache in verschiedenen Audiosegmenten, sendet jedes Segment, um transkribiert zu werden, und kombiniert sie in eine einheitliche Transkription.
Untertitelung	Erstellt Untertitel in Web Video Text Tracks (WebVTT), Timed Text Markup Language (TTML) und SubRip Subtitle (SRT)-Formaten.
Zwei Kanalverarbeitung	Erkennt separate Transkripte automatisch und führt sie in einer einzigen Zeitachse zusammen.
Geräuschreduzierung	Löscht Telefonieaudio oder laute Aufzeichnungen basierend auf Skype-Filtern.
Sprecherenumeration	Kartiert und versteht, welcher Sprecher welche Wörter wann gesprochen hat. Es kann 16 Lautsprecher in einer einzelnen Audiodatei erkennen.
Übersetzung	Erstellt Übersetzungen des Audiotranskripts in vielen verschiedenen Sprachen.
Erkennung von Audioeffekten	Erkennt Audioeffekte in Nichtsprachsegmenten, einschließlich Alarmen oder Sirenen, Hundebellen, Reaktionen der Menge, laute Aufprallgeräusche, Lachen, zerbrechendes Glas und Stille.

Kombinierte Audio- und Videomodelle

Die folgenden Features analysieren Audio- und Videoinhalte.

Funktion	Beschreibung
Schlüsselwortextraktion	Extrahiert Schlüsselwörter aus Sprache und visuellem Text
Extraktion benannter Entitäten	Extrahiert Marken, Orte und Personen aus Sprache und visuellem Text durch verarbeitung natürlicher Sprache (NLP)
Themaerkennung	Extrahiert Themen basierend auf verschiedenen Schlüsselwörtern mithilfe des International Press Telecommunications Council (IPTC), Wikipedia und der Video Indexer hierarchischen Themenontologie.
Stimmungsanalyse	Identifiziert positive, negative und neutrale Stimmungen aus Sprache und visuellem Text

Weitere Informationen finden Sie in der Übersicht über den Videoindexer.

Anwendungsfälle für cloudbasierte Videoindexer

Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für cloudbasierte Videoindexer.

Anwendungsfall	Beschreibung
Intensivsuche	Verbessern Sie die Sucherfahrung in einer Videobibliothek, indem Sie die Erkenntnisse verwenden, die VideoIndexer extrahiert. Wenn Sie beispielsweise gesprochene Wörter und Gesichter indizieren, können Benutzer Momente in einem Video finden, wenn eine Person bestimmte Wörter spricht oder wenn zwei Personen zusammen gesehen werden. Diese Anwendungsfälle gelten für jede Branche, die über eine Videobibliothek verfügt, die Benutzer durchsuchen müssen, einschließlich Nachrichtenagenturen, Bildungseinrichtungen, Rundfunkanstalten, Unterhaltungsinhaltsbesitzern und Branchen-Apps (Line-of-Business).
Inhaltserstellung	Erstellen Sie Trailer, Highlight-Reels, Social-Media-Inhalte oder Nachrichtenclips basierend auf den Erkenntnissen, die Video Indexer aus Ihrem Material extrahiert. Keyframes, Szenenmarkierungen und Zeitstempel von Personen und Label-Erscheinungen vereinfachen den Erstellungsprozess.
Zugriff	Machen Sie Ihre Inhalte für Personen mit Behinderungen verfügbar, oder verteilen Sie Inhalte an Regionen, die unterschiedliche Sprachen verwenden, indem Sie die Transkriptions- und Übersetzungsfunktionen verwenden, die VideoIndexer bereitstellt.
Monetarisierung	Erhöhen Sie den Wert von Videos. Branchen, die auf Anzeigeneinnahmen wie Newsmedien und Social Media angewiesen sind, können relevante Anzeigen bereitstellen, indem sie die extrahierten Erkenntnisse als zusätzliche Signale an den Anzeigenserver verwenden.
Inhaltsmoderation	Schützen Sie Ihre Benutzer vor unangemessenen Inhalten, und vergewissern Sie sich, dass die inhalte, die Sie veröffentlichen, den Werten Ihrer Organisation entsprechen, indem Sie Text- und visuelle Inhaltsmoderationsmodelle verwenden.
Empfehlungen	Verbessern Sie die Benutzerbindung, indem Sie die relevanten Videomomente für Benutzer hervorheben. Indem Sie jedes Video mit zusätzlichen Metadaten markieren, können Sie die relevantesten Videos empfehlen und die Teile hervorheben, die den Anforderungen der Benutzer entsprechen.

Anwendungsfälle für von Azure Arc aktivierte Videoindexer

Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für Video Indexer, die durch Azure Arc aktiviert werden.

Anwendungsfall	Beschreibung
Einzelhandel	Optimieren Sie Store-Layouts, und verbessern Sie die Benutzerfreundlichkeit und Sicherheit. Überwachen Sie die Anzahl der Kunden in Checkout-Linien in Echtzeit, um die Mitarbeiter zu optimieren und Wartezeiten zu reduzieren.
Fertigung	Sicherstellung der Qualitätskontrolle und der Sicherheit des Arbeitnehmers durch Videoanalyse. Erkennen Sie Mitarbeiter, die keine Schutzausrüstung tragen, und erkennen Sie kritische Ereignisse in Echtzeit.
Moderne Sicherheit	Erkennen und Identifizieren von Sicherheits- und Sicherheitsproblemen, bevor sie ein Risiko verursachen.
Datenverwaltung	Bringen Sie KI in den Inhalt. Verwenden Sie den von Arc aktivierten Videoindexer, wenn Sie indizierte Inhalte aufgrund von Vorschriften, Architekturentscheidungen oder großen Datenspeichern nicht von der lokalen Bereitstellung in die Cloud verschieben können.
Vorindizierung	Indizieren Sie Inhalte, bevor Sie sie in die Cloud hochladen. Stellen Sie Ihr lokales Video- oder Audioarchiv vor, und laden Sie es dann nur für die standardmäßige oder erweiterte Indizierung in der Cloud hoch.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-24

Auswählen einer Azure AI-Bild- und Videoverarbeitungs- und Generierungstechnologie

Azure OpenAI

Audiomodelle

Azure Vision

Verfügbare Azure Vision-Features

Anwendungsfälle für Azure Vision

Benutzerdefinierte Vision

Verfügbare benutzerdefinierte Vision-Features

Anwendungsfälle für Custom Vision

Azure Content Understanding (Inhaltsverständnis)

Verfügbare Azure Content Understanding-Features

Anwendungsfälle für Azure Content Understanding

Video-Indizierer

Bereitstellungsoptionen

Videomodelle

Audiomodelle

Kombinierte Audio- und Videomodelle

Anwendungsfälle für cloudbasierte Videoindexer

Anwendungsfälle für von Azure Arc aktivierte Videoindexer

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen