Extrair informações de áudio e vídeo
Dica
Consulte a guia Texto e imagens para obter mais detalhes!
As informações comerciais são cada vez mais encontradas em formatos multimídia, como arquivos de áudio e vídeo. Por exemplo, as empresas geralmente registram chamadas para analisá-las mais tarde. O crescimento da videoconferência significa que informações úteis geralmente são capturadas em reuniões gravadas. O Azure Content Understanding dá suporte à extração e análise de dados de áudio e vídeo.
Extraindo dados estruturados do áudio
Você pode usar o Reconhecimento de Conteúdo do Azure para fornecer transcrições, resumos e outros insights importantes de arquivos de áudio.
Suponha que você queira que a IA resuma seu correio de voz. Você pode definir um esquema de insights importantes a serem extraídos de cada chamada gravada, desta forma:
- Chamador
- Resumo da mensagem
- Ações solicitadas
- Número de retorno de chamada
- Detalhes de contato alternativos
Agora suponha que um chamador deixe a seguinte mensagem de voz:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
Usar o Azure Content Understanding para analisar a gravação de áudio e aplicar seu esquema produz os seguintes resultados:
- Chamador: Ava da Contoso
- Resumo da mensagem: Ava da Contoso ligou para acompanhar uma reunião e mencionou que eles podem atender às expectativas de preço. Eles solicitaram um retorno de chamada ou um email para discutir as próximas etapas.
- Ações solicitadas: retorne ou envie um email para discutir as próximas etapas.
- Número de retorno de chamada: 555-12345
- Detalhes de contato alternativos: Ava@contoso.com
Analisando áudio no portal do Foundry
Assim como acontece com a análise de documentos, usar o Content Understanding no novo portal do Foundry é uma maneira rápida de validar que o analisador retorna os campos esperados antes de automatizar o fluxo de trabalho no código.
No portal, você pode:
- Selecione um analisador de áudio ou vídeo e execute-o em um arquivo de mídia.
- Revise as saídas como transcrições (para áudio) e insights extraídos com base no seu esquema.
- Exiba os resultados JSON retornados para processamento adicional em sistemas downstream.
Vamos dar uma olhada em como podemos usar a compreensão de conteúdo para analisar uma gravação de chamada. Em vez de ouvir a chamada inteira, você pode executar o analisador de áudio predefinido para extrair informações do áudio. Quando a análise for concluída, você poderá ver uma transcrição por escrito da chamada.
Nos resultados retornados, você pode ver informações específicas da chamada. Assim como acontece com outros analisadores no entendimento de conteúdo, os resultados estão no formato JSON para processamento adicional.
Extraindo dados estruturados do vídeo
O Azure Content Understanding também dá suporte à análise de vídeo. Por exemplo, você pode analisar uma videoconferência gravada para extrair detalhes de presença, localização e outras informações.
Vamos primeiro examinar uma imagem da câmera da sala de conferência. Suponha que você tenha definido o seguinte esquema:
- Localização
- Participantes pessoais
- Participantes remotos
- Total de participantes
Você pode usar o Azure Content Understanding para analisar uma imagem da câmera da sala de conferência:
Depois de aplicar o esquema à imagem, o Azure Content Understanding retornou dados estruturados:
- Local: Sala de conferência
- Participantes pessoais: 1
- Participantes remotos: 3
- Total de participantes: 4
Considere o que você pode adicionar ao esquema para uma gravação de vídeo da reunião. Você pode incluir contagens de presença em vários intervalos de tempo, detalhes de quem falou durante a chamada e o que eles disseram, um resumo da discussão e uma lista de ações atribuídas da reunião.
Criando um aplicativo cliente com analisadores de áudio ou vídeo
Para analisar áudio ou vídeo programaticamente, você pode criar um aplicativo cliente leve usando a API de Reconhecimento de Conteúdo.
Vamos dar uma olhada em um exemplo usando o SDK do Python. Quando você executa o código a seguir, ele analisa um arquivo de áudio usando um analisador predefinido. O analisador predefinido é identificado como prebuilt-audioSearch.
import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential
# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"] # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]
client = ContentUnderstandingClient(
endpoint=endpoint,
credential=AzureKeyCredential(key)
)
# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"
# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
{"url": "https://<your-host>/samples/voicemail.wav"}
]
# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)
# Wait for completion (SDK polls under the hood)
result = poller.result()
# Inspect the structured output (JSON-like objects)
for content in result.contents:
# Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
print(getattr(content, "markdown", None))
print("\n=== EXTRACTED FIELDS ===")
print(getattr(content, "fields", None))
A análise de áudio e vídeo com compreensão de conteúdo no Microsoft Foundry abre uma série de oportunidades para desbloquear o potencial dos dados empresariais em qualquer formato. Em seguida, experimente o Content Understanding para si mesmo.