Extrahieren von Informationen aus Audio und Video

Abgeschlossen

Hinweis

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Unternehmensinformationen werden zunehmend in Multimediaformaten wie Audio- und Videodateien gefunden. Beispielsweise zeichnen Unternehmen häufig Anrufe auf, um sie später zu analysieren. Das Wachstum von Videokonferenzen bedeutet, dass nützliche Informationen häufig in aufgezeichneten Besprechungen erfasst werden. Azure Content Understanding unterstützt sowohl Audio- als auch Videodatenextraktion und -analyse.

Extrahieren strukturierter Daten aus Audio

Sie können Azure Content Understanding verwenden, um Transkriptionen, Zusammenfassungen und andere wichtige Erkenntnisse aus Audiodateien bereitzustellen.

Angenommen, Sie möchten KI ihre Voicemail zusammenfassen lassen. Sie können ein Schema von wichtigen Erkenntnissen definieren, das aus jedem aufgezeichneten Anruf extrahiert werden soll, z. B.:

  • Anrufer
  • Nachrichtenzusammenfassung
  • Angeforderte Aktionen
  • Rückrufnummer
  • Alternative Kontaktdetails

Angenommen, ein Anrufer hinterlässt Ihnen die folgende Sprachnachricht:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Wenn Sie Azure Content Understanding verwenden, um die Audioaufzeichnung zu analysieren und Ihr Schema anzuwenden, werden die folgenden Ergebnisse erzielt:

  • Anrufer: Ava von Contoso
  • Nachrichtenzusammenfassung: Ava von Contoso hat wegen der Nachverfolgung einer Besprechung angerufen und erwähnt, dass sie den Preiserwartungen entsprechen können. Sie haben einen Rückruf oder eine E-Mail angefordert, um die nächsten Schritte zu besprechen.
  • Angeforderte Aktionen: Rufen Sie zurück oder schicken Sie eine E-Mail, um die nächsten Schritte zu besprechen.
  • Rückrufnummer: 555-12345
  • Alternative Kontaktdetails: Ava@contoso.com

Analysieren von Audio im Gießereiportal

Wie bei der Dokumentanalyse ist die Verwendung von Content Understanding im neuen Foundry-Portal eine schnelle Möglichkeit, zu überprüfen, ob Ihre Analyse die felder zurückgibt, die Sie erwarten, bevor Sie den Workflow im Code automatisieren.

Im Portal haben Sie folgende Möglichkeiten:

  • Wählen Sie einen Audio- oder Videoanalysator aus, und führen Sie ihn in einer Mediendatei aus.
  • Überprüfen Sie Ausgaben wie Transkripte (für Audio) und Erkenntnisse, die basierend auf Ihrem Schema extrahiert wurden.
  • Zeigen Sie die zurückgegebenen JSON-Ergebnisse für die weitere Verarbeitung in nachgelagerten Systemen an.

Sehen wir uns an, wie wir das Inhaltsverständnis verwenden können, um eine Anrufaufzeichnung zu analysieren. Anstatt den gesamten Anruf abzuhören, können Sie den vordefinierten Audioanalysator ausführen, um Informationen aus dem Audio zu extrahieren. Wenn die Analyse abgeschlossen ist, können Sie eine schriftliche Transkription des Anrufs sehen.

Screenshot des neuen Foundry-Portals mit audioanalyse mit Azure Content Understanding.

In den zurückgegebenen Ergebnissen können Sie bestimmte Informationen aus dem Anruf anzeigen. Wie bei anderen Analysegeräten im Inhaltsverständnis sind die Ergebnisse zur weiteren Verarbeitung im JSON-Format.

Screenshot des neuen Foundry-Portals, in dem Audio analysiert und JSON zurückgegeben wird.

Extrahieren strukturierter Daten aus Dem Video

Azure Content Understanding unterstützt auch videoanalyse. Sie können beispielsweise eine aufgezeichnete Videokonferenz analysieren, um Details zur Anwesenheit, zum Standort und zu anderen Informationen zu extrahieren.

Sehen wir uns zunächst ein Bild aus der Konferenzraumkamera an. Angenommen, Sie haben das folgende Schema definiert:

  • Standort
  • Teilnehmende
  • Remoteteilnehmer
  • Teilnehmer insgesamt

Sie können Azure Content Understanding verwenden, um ein Bild aus der Konferenzraumkamera zu analysieren:

Foto einer Person in einem Konferenzraum bei einem Anruf mit drei Remoteteilnehmern.

Nachdem Sie das Schema auf das Image angewendet haben, haben Azure Content Understanding strukturierte Daten zurückgegeben:

  • Ort: Konferenzraum
  • Persönliche Teilnehmer: 1
  • Remoteteilnehmer: 3
  • Teilnehmer insgesamt: 4

Überlegen Sie, was Sie dem Schema für eine Videoaufzeichnung der Besprechung hinzufügen können. Sie können Die Anwesenheitsanzahl in verschiedenen Zeitintervallen, Details darüber, wer während des Anrufs gesprochen hat, und was sie gesagt haben, eine Zusammenfassung der Diskussion und eine Liste der zugewiesenen Aktionen aus der Besprechung einschließen.

Erstellen einer Clientanwendung mit Audio- oder Videoanalyse

Um Audio oder Video programmgesteuert zu analysieren, können Sie eine einfache Clientanwendung mit der Inhaltsverständnis-API erstellen.

Sehen wir uns ein Beispiel mit dem Python SDK an. Wenn Sie den folgenden Code ausführen, analysiert sie eine Audiodatei mithilfe eines vordefinierten Analyzers. Der vorgefertigte Analyzer wird als prebuilt-audioSearch identifiziert.

import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"]  # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]

client = ContentUnderstandingClient(
    endpoint=endpoint,
    credential=AzureKeyCredential(key)
)

# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"

# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
    {"url": "https://<your-host>/samples/voicemail.wav"}
]

# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)

# Wait for completion (SDK polls under the hood)
result = poller.result()

# Inspect the structured output (JSON-like objects)
for content in result.contents:
    # Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
    print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
    print(getattr(content, "markdown", None))

    print("\n=== EXTRACTED FIELDS ===")
    print(getattr(content, "fields", None))

Audio- und Videoanalyse mit Inhaltsverständnis in Microsoft Foundry eröffnet eine ganze Reihe von Möglichkeiten, um das Potenzial von Geschäftsdaten in jedem Format zu entsperren. Probieren Sie als Nächstes das Inhaltsverständnis für sich selbst aus.