Estrarre informazioni da audio e video

Completato

Annotazioni

Per altri dettagli, vedi la scheda Testo e immagini .

Le informazioni aziendali si trovano sempre più in formati multimediali, ad esempio file audio e video. Ad esempio, le aziende registrano spesso chiamate per analizzarle in un secondo momento. La crescita delle videoconferenze significa che le informazioni utili vengono spesso acquisite nelle riunioni registrate. Azure Content Understanding supporta l'estrazione e l'analisi dei dati audio e video.

Estrazione di dati strutturati dall'audio

È possibile usare Informazioni sul contenuto di Azure per fornire trascrizioni, riepiloghi e altre informazioni chiave dai file audio.

Si supponga di voler fare in modo che l'intelligenza artificiale riepiloghi la segreteria telefonica. È possibile definire uno schema di informazioni dettagliate chiave da estrarre da ogni chiamata registrata, come illustrato di seguito:

  • Chiamante
  • Riepilogo messaggi
  • Azioni richieste
  • Numero di callback
  • Dettagli contatto alternativi

Si supponga ora che un chiamante lasci il messaggio vocale seguente:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

L'uso di Azure Content Understanding per analizzare la registrazione audio e applicare lo schema produce i risultati seguenti:

  • Chiamante: Ava di Contoso
  • Riepilogo del messaggio: Ava di Contoso ha chiamato per seguire una riunione e ha menzionato che possono soddisfare le aspettative di prezzo. Hanno richiesto un callback o un messaggio di posta elettronica per discutere i passaggi successivi.
  • Azioni richieste: eseguire il callback o inviare un messaggio di posta elettronica per discutere i passaggi successivi.
  • Numero di callback: 555-12345
  • Dettagli contatto alternativo: Ava@contoso.com

Analisi dell'audio nel portale foundry

Come per l'analisi dei documenti, l'uso di Content Understanding nel portale di Foundry classico è un modo rapido per verificare che l'analizzatore restituisca i campi previsti prima di automatizzare il flusso di lavoro nel codice.

Nel portale è possibile:

  • Selezionare un analizzatore audio o video ed eseguirlo in un file multimediale.
  • Esaminare gli output, ad esempio le trascrizioni (per l'audio) e le informazioni estratte in base al tuo schema.
  • Visualizzare i risultati JSON restituiti per un'ulteriore elaborazione nei sistemi downstream.

Di seguito viene illustrato come usare la comprensione del contenuto per analizzare una registrazione delle chiamate. Invece di ascoltare l'intera chiamata, è possibile eseguire l'analizzatore audio predefinito per estrarre informazioni dall'audio. Al termine dell'analisi, è possibile visualizzare una trascrizione scritta della chiamata.

Screenshot del portale classico di Foundry con l'audio analizzato tramite Comprensione dei contenuti di Azure.

Nei risultati restituiti è possibile visualizzare informazioni specifiche dalla chiamata. Come per altri analizzatori nella comprensione del contenuto, i risultati sono in formato JSON per un'ulteriore elaborazione.

Screenshot del portale di Foundry classico in cui viene analizzato l'audio e viene restituito JSON.

Estrazione di dati strutturati dal video

Azure Content Understanding supporta anche l'analisi video. Ad esempio, è possibile analizzare una video conferenza registrata per estrarre i dettagli della partecipazione, della posizione e di altre informazioni.

Esaminiamo prima di tutto un'immagine dalla fotocamera della sala riunioni. Si supponga di aver definito lo schema seguente:

  • Posizione
  • Partecipanti in presenza
  • Partecipanti remoti
  • Totale partecipanti

È possibile usare Azure Content Understanding per analizzare un'immagine dalla fotocamera della sala riunioni:

Fotografia di una persona in una sala riunioni che partecipa a una chiamata con tre partecipanti remoti.

Dopo aver applicato lo schema all'immagine, Azure Content Understanding ha restituito dati strutturati:

  • Posizione: Sala riunioni
  • Partecipanti in presenza: 1
  • Partecipanti remoti: 3
  • Totale partecipanti: 4

Prendere in considerazione ciò che è possibile aggiungere allo schema per una registrazione video della riunione. È possibile includere i conteggi delle presenze a intervalli di tempo diversi, i dettagli di chi ha parlato durante la chiamata e ciò che hanno detto, un riepilogo della discussione e un elenco di azioni assegnate dalla riunione.

Creazione di un'applicazione client con analizzatori audio o video

Per analizzare l'audio o il video a livello di codice, è possibile creare un'applicazione client leggera usando l'API Content Understanding.

Di seguito viene illustrato un esempio relativo all'uso di Python SDK. Quando si esegue il codice seguente, analizza un file audio usando un analizzatore predefinito. L'analizzatore predefinito viene identificato come prebuilt-audioSearch.

import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"]  # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]

client = ContentUnderstandingClient(
    endpoint=endpoint,
    credential=AzureKeyCredential(key)
)

# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"

# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
    {"url": "https://<your-host>/samples/voicemail.wav"}
]

# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)

# Wait for completion (SDK polls under the hood)
result = poller.result()

# Inspect the structured output (JSON-like objects)
for content in result.contents:
    # Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
    print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
    print(getattr(content, "markdown", None))

    print("\n=== EXTRACTED FIELDS ===")
    print(getattr(content, "fields", None))

L'analisi audio e video con la comprensione dei contenuti in Microsoft Foundry apre un'intera gamma di opportunità per sbloccare il potenziale dei dati aziendali in qualsiasi formato. Provare quindi Content Understanding per se stessi.