Extrair informações de áudio e vídeo

4 minutos

Dica

Consulte a guia Texto e imagens para obter mais detalhes!

As informações comerciais são cada vez mais encontradas em formatos multimídia, como arquivos de áudio e vídeo. Por exemplo, as empresas geralmente registram chamadas para analisá-las mais tarde. O crescimento da videoconferência significa que informações úteis geralmente são capturadas em reuniões gravadas. O Azure Content Understanding dá suporte à extração e análise de dados de áudio e vídeo.

Extraindo dados estruturados do áudio

Você pode usar o Reconhecimento de Conteúdo do Azure para fornecer transcrições, resumos e outros insights importantes de arquivos de áudio.

Suponha que você queira que a IA resuma seu correio de voz. Você pode definir um esquema de insights importantes a serem extraídos de cada chamada gravada, desta forma:

Chamador
Resumo da mensagem
Ações solicitadas
Número de retorno de chamada
Detalhes de contato alternativos

Agora suponha que um chamador deixe a seguinte mensagem de voz:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Usar o Azure Content Understanding para analisar a gravação de áudio e aplicar seu esquema produz os seguintes resultados:

Chamador: Ava da Contoso
Resumo da mensagem: Ava da Contoso ligou para acompanhar uma reunião e mencionou que eles podem atender às expectativas de preço. Eles solicitaram um retorno de chamada ou um email para discutir as próximas etapas.
Ações solicitadas: retorne ou envie um email para discutir as próximas etapas.
Número de retorno de chamada: 555-12345
Detalhes de contato alternativos: Ava@contoso.com

Analisando áudio no portal do Foundry

Assim como acontece com a análise de documentos, usar o Content Understanding no novo portal do Foundry é uma maneira rápida de validar que o analisador retorna os campos esperados antes de automatizar o fluxo de trabalho no código.

No portal, você pode:

Selecione um analisador de áudio ou vídeo e execute-o em um arquivo de mídia.
Revise as saídas como transcrições (para áudio) e insights extraídos com base no seu esquema.
Exiba os resultados JSON retornados para processamento adicional em sistemas downstream.

Vamos dar uma olhada em como podemos usar a compreensão de conteúdo para analisar uma gravação de chamada. Em vez de ouvir a chamada inteira, você pode executar o analisador de áudio predefinido para extrair informações do áudio. Quando a análise for concluída, você poderá ver uma transcrição por escrito da chamada.

Nos resultados retornados, você pode ver informações específicas da chamada. Assim como acontece com outros analisadores no entendimento de conteúdo, os resultados estão no formato JSON para processamento adicional.

Extraindo dados estruturados do vídeo

O Azure Content Understanding também dá suporte à análise de vídeo. Por exemplo, você pode analisar uma videoconferência gravada para extrair detalhes de presença, localização e outras informações.

Vamos primeiro examinar uma imagem da câmera da sala de conferência. Suponha que você tenha definido o seguinte esquema:

Localização
Participantes pessoais
Participantes remotos
Total de participantes

Você pode usar o Azure Content Understanding para analisar uma imagem da câmera da sala de conferência:

Fotografia de uma pessoa em uma sala de conferência em uma chamada com três participantes remotos.

Depois de aplicar o esquema à imagem, o Azure Content Understanding retornou dados estruturados:

Local: Sala de conferência
Participantes pessoais: 1
Participantes remotos: 3
Total de participantes: 4

Considere o que você pode adicionar ao esquema para uma gravação de vídeo da reunião. Você pode incluir contagens de presença em vários intervalos de tempo, detalhes de quem falou durante a chamada e o que eles disseram, um resumo da discussão e uma lista de ações atribuídas da reunião.

Criando um aplicativo cliente com analisadores de áudio ou vídeo

Para analisar áudio ou vídeo programaticamente, você pode criar um aplicativo cliente leve usando a API de Reconhecimento de Conteúdo.

Vamos dar uma olhada em um exemplo usando o SDK do Python. Quando você executa o código a seguir, ele analisa um arquivo de áudio usando um analisador predefinido. O analisador predefinido é identificado como prebuilt-audioSearch.

import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"]  # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]

client = ContentUnderstandingClient(
    endpoint=endpoint,
    credential=AzureKeyCredential(key)
)

# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"

# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
    {"url": "https://<your-host>/samples/voicemail.wav"}
]

# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)

# Wait for completion (SDK polls under the hood)
result = poller.result()

# Inspect the structured output (JSON-like objects)
for content in result.contents:
    # Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
    print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
    print(getattr(content, "markdown", None))

    print("\n=== EXTRACTED FIELDS ===")
    print(getattr(content, "fields", None))

A análise de áudio e vídeo com compreensão de conteúdo no Microsoft Foundry abre uma série de oportunidades para desbloquear o potencial dos dados empresariais em qualquer formato. Em seguida, experimente o Content Understanding para si mesmo.

Comentários

Esta página foi útil?