Compreensão de Conteúdo Azure em soluções de vídeo Foundry Tools

Importante

Versões de API em pré-visualização 2024-12-01-preview e 2025-05-01-preview serão descontinuadas até 15 de julho de 2026. Se ainda estiveres a usar uma API de pré-visualização, atualiza o teu código para direcionar a versão mais recente da API 2025-11-01 (GA).

As versões das APIs 2024-12-01-preview e 2025-05-01-preview estão em prévia pública. Estas prévias são fornecidas sem um acordo de nível de serviço e não são recomendadas para cargas de trabalho em produção. Para mais informações, consulte Termos Suplementares de Utilização para Versões de Pré-visualização do Microsoft Azure e Adendo de Proteção de Dados de Produtos e Serviços da Microsoft ("DPA").

O Azure Content Understanding permite-lhe gerar um conjunto padrão de metadados de vídeo e criar campos personalizados para o seu caso de uso específico usando modelos generativos. O Content Understanding ajuda-o a gerir, categorizar, recuperar e construir fluxos de trabalho para ativos de vídeo. Melhora a sua biblioteca de ativos multimédia, suporta funcionalidades como geração de destaques, categoriza conteúdos e facilita aplicações como geração aumentada por recuperação (RAG).

Ilustração do Conteúdo Compreender o fluxo de processamento de vídeo.

O analisador de vídeo pré-construído (prebuilt-videoAnalysis) gera saída pronta para RAG. No Markdown, gera o seguinte:

  • Transcrição: Transcrições em linha no formato padrão WEBVTT
  • Fotogramas-Chave: Miniaturas de fotogramas-chave ordenadas permitem uma análise mais profunda

E o esquema JSON contém mais detalhes da análise visual.

  • Descrição: Descrições de segmentos em linguagem natural com contexto visual e de fala
  • Segmentação: Segmentação automática de cenas que divide o vídeo em blocos lógicos com base nas categorias que defines

Este formato pode ser integrado diretamente num repositório vetorial para habilitar um fluxo de trabalho de um agente ou RAG — não é necessário pós-processamento.

A partir daí podes personalizar o analisador para um controlo mais detalhado da saída. Podes definir campos e segmentos personalizados. A personalização permite-lhe usar todo o poder dos modelos generativos para extrair insights profundos dos detalhes visuais e sonoros do vídeo.

Por exemplo, a personalização permite-lhe:

  • Defina campos personalizados: para identificar que produtos e marcas são vistos ou mencionados no vídeo.
  • Gerar segmentos personalizados: segmentar uma transmissão de notícias em capítulos com base nos temas ou notícias discutidas.
  • Identifique pessoas proeminentes usando descrição facial: permitindo que um cliente identifique celebridades em imagens com nome e título com base no conhecimento mundial do modelo generativo, por exemplo, Satya Nadella.

Porque usar Compreensão de Conteúdo para vídeo?

A compreensão de conteúdo para vídeo tem um amplo potencial de utilização. Por exemplo, pode personalizar metadados para marcar cenas específicas num vídeo de formação, facilitando assim a localização e revisita de secções importantes. Também pode usar a personalização de metadados para identificar a colocação de produtos em vídeos promocionais, o que ajuda as equipas de marketing a analisar a exposição da marca. Outros casos de uso incluem:

  • Media de transmissão e entretenimento: Gerir grandes bibliotecas de séries, filmes e excertos gerando metadados detalhados para cada ativo.
  • Educação e e-Learning: Indexe e recupere momentos específicos em vídeos educativos ou palestras.
  • Formação corporativa: Organize vídeos de formação por temas-chave, cenas ou momentos importantes.
  • Marketing e publicidade: Analise vídeos promocionais para extrair colocações de produtos, aparições de marcas e mensagens-chave.

Exemplo de analisador de vídeo pré-montado

Com o analisador de vídeo pré-construído (prebuilt-videoSearch), pode carregar um vídeo e obter um ativo de conhecimento imediatamente utilizável. O serviço agrupa o conteúdo em Markdown e JSON ricamente formatados. Este processo permite que o seu índice de pesquisa ou agente de chat absorva o conteúdo sem código de cola personalizado.

  1. Por exemplo, chame o analisador concebido para geração aumentada por recuperação para vídeo prebuilt-videoSearch. Consulte o quickstart da API REST para mais detalhes.

  2. Analisar um vídeo publicitário de 30 segundos produz o seguinte resultado:

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Tutorial

Veja o seguinte guia para o RAG on Video using Content Understanding:

RAG em vídeo usando Azure Content Understanding

Capacidades

Nota

As capacidades de identificação facial e agrupamento estão disponíveis apenas na versão de pré-visualização da API e não estão incluídas na versão GA.

Duas fases transformam o vídeo bruto em insights estruturados. O diagrama seguinte mostra como a extração de conteúdo alimenta a extração em campo.

Captura de ecrã do fluxo do analisador de vídeo.

O serviço opera em duas fases. A primeira etapa, extração de conteúdo, envolve a recolha de metadados fundamentais, como transcrições e imagens. A segunda fase, extração de campos, utiliza um modelo generativo para produzir campos personalizados e realizar segmentação.

Capacidades de extração de conteúdos

A primeira etapa consiste em extrair um primeiro conjunto de detalhes — quem está a falar e onde estão os cortes. Cria uma base sólida de metadados sobre a qual etapas posteriores podem operar.

  • Transcrição: Converte áudio conversacional em transcrições baseadas em texto pesquisáveis e analisáveis em formato WebVTT. Os timestamps ao nível da frase estão disponíveis se "returnDetails": true estiver definido. O Content Understanding suporta o conjunto completo de Azure Speech nas linguagens de voz para texto do Foundry Tools. Os detalhes do suporte linguístico para vídeo são os mesmos que para áudio, vejaAudio Language Handling para mais detalhes. Os seguintes detalhes da transcrição são importantes a considerar:

    • Diarização: Distingue entre intervenientes numa conversação no resultado, atribuindo partes da transcrição a falantes específicos.

    • Transcrição multilíngue: Gera transcrições multilíngues. O idioma/localidade é aplicado a cada frase na transcrição. Frases são produzidas quando "returnDetails": true está definido. Desviando-se da deteção de línguas, esta funcionalidade é ativada quando nenhuma língua/local é especificado ou a linguagem está definida para auto.

      Nota

      Quando se utiliza transcrição multilíngue, quaisquer ficheiros com locais não suportados produzem um resultado baseado no local suportado mais próximo, o que provavelmente está incorreto. Este resultado é um comportamento conhecido. Evite problemas de qualidade de transcrição garantindo que configura as localizações adequadas caso não utilize uma configuração regional suportada por transcrição multilíngue!

    • Extração de fotogramas-chave: Extrai fotogramas-chave dos vídeos para representar cada plano completamente, garantindo que cada plano tem frames-chave suficientes para permitir que a extração de campo funcione eficazmente.

    • Deteção de planos: Identifica segmentos do vídeo alinhados com os limites dos planos sempre que possível, permitindo uma edição e remontagem precisas do conteúdo com cortes exatamente nos pontos existentes. A saída é uma lista de carimbos temporais em milissegundos em cameraShotTimesMs. A saída só é devolvida quando "returnDetails": true está definida.

Extração de campo e segmentação

De seguida, as camadas do modelo generativo atribuem significado — etiquetando cenas, resumindo ações e cortando as metragens em segmentos de acordo com a sua solicitação. Esta ação é onde os prompts se transformam em dados estruturados.

Campos personalizados

Molda o resultado para corresponder ao vocabulário do teu negócio. Use um fieldSchema objeto onde cada entrada defina o nome, tipo e descrição de um campo. Em tempo de execução, o modelo generativo preenche esses campos para cada segmento.

  • Gestão de ativos de media:

    • Categoria de Vídeo: Ajuda editores e produtores a organizar o conteúdo, classificando-o como Notícias, Desporto, Entrevista, Documentário ou Publicidade. Útil para etiquetagem de metadados e para filtragem e recuperação de conteúdos mais rápidas.
    • Esquema de cores: Transmite ambiente e atmosfera, essenciais para a consistência narrativa e o envolvimento do espectador. Identificar temas de cor ajuda a encontrar clips correspondentes para edição de vídeo acelerada.
  • Publicidade:

    • Marca: Identifica a presença da marca, crítica para analisar o impacto do anúncio, visibilidade da marca e associação a produtos. Esta capacidade permite aos anunciantes avaliar a proeminência da marca e garantir o cumprimento das diretrizes de branding.
    • Categorias de anúncios: Categoriza os tipos de anúncios por indústria, tipo de produto ou segmento de audiência, o que apoia estratégias de publicidade direcionada, categorização e análise de desempenho.

Exemplo:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Campos de descrição de face

Nota

Esta funcionalidade tem acesso limitado; os clientes precisam de solicitar a desativação do desfoque facial para modelos Azure OpenAI através de um pedido de suporte Azure. Saiba mais Gerir um pedido de suporte do Azure.

A capacidade de extração de campo pode ser opcionalmente melhorada para fornecer descrições detalhadas dos rostos no vídeo. Esta capacidade inclui atributos como pelos faciais, expressões faciais e a presença de celebridades, que podem ser cruciais para vários fins analíticos e de indexação. Para ativar as capacidades de descrição facial, defina disableFaceBlurring : true na configuração do analisador.

Exemplos:

  • Campo de exemplo: cabelo facialDescrição: Descreve o tipo de pelos faciais (por exemplo, beard, mustache, clean-shaven)
  • Campo de exemplo: nomeDePessoaProeminente: Fornece o nome, se possível, de uma celebridade no vídeo (por exemplo, Satya Nadella)
  • Campo de exemplo: rostoSorrindoFranzindo: Fornece uma descrição de se a pessoa está sorrindo ou franzindo o sobrolho

Modo de segmentação

Nota

Definir segmentação irá usar o modelo generativo, consumindo tokens mesmo que não existam campos definidos.

O Content Understanding oferece duas formas de cortar um vídeo, permitindo-lhe obter o resultado necessário para vídeos completos ou clipes curtos. Pode usar estas opções definindo a enableSegment propriedade num analisador personalizado.

  • Vídeo completoenableSegment : false O serviço trata o ficheiro de vídeo completo como um único segmento e extrai metadados ao longo de toda a sua duração.

    Casos de uso:

    • Verificações de conformidade que procuram questões específicas de segurança de marca em qualquer parte de um anúncio
    • Resumos descritivos completos
  • Segmentação personalizadaenableSegment : true Descreve a lógica em linguagem natural e o modelo cria segmentos para corresponder. Defina contentCategories com uma cadeia de caracteres que descreva como você gostaria que o vídeo fosse segmentado. O Custom permite segmentos de duração variável, de segundos a minutos, dependendo do prompt. Nesta versão, o vídeo só suporta um contentCategories objeto.

    Exemplo: Divide uma transmissão de notícias em notícias.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Principais benefícios

A Compreensão de Conteúdos oferece vários benefícios chave quando comparada com outras soluções de análise de vídeo:

  • Análise multiframe baseada em segmentos: Identifique ações, eventos, tópicos e temas analisando múltiplos fotogramas de cada segmento de vídeo, em vez de fotogramas individuais.
  • Personalização: Personalize os campos e a segmentação que gera, modificando o esquema de acordo com o seu caso de uso específico.
  • Modelos generativos: Descreve em linguagem natural que conteúdo queres extrair, e o Content Understanding usa modelos generativos para extrair esses metadados.
  • Pré-processamento otimizado: Realizar vários passos de pré-processamento de extração de conteúdo, como transcrição e deteção de cenas, otimizados para fornecer contexto rico a modelos generativos de IA.

Restrições e limitações técnicas

Limitações específicas do processamento de vídeo a ter em conta:

  • Amostragem de frames (~ 1 FPS): O analisador inspeciona cerca de um frame por segundo. Movimentos rápidos ou eventos capturados em um único quadro podem ser perdidos.
  • Resolução dos fotogramas (512 × 512 px): Os fotogramas amostrados são redimensionados para 512 píxeis quadrados. Texto pequeno ou objetos distantes podem ser perdidos.
  • Fala: Apenas as palavras faladas são transcritas. A música, os efeitos sonoros e o ruído ambiente são ignorados.

Requisitos de entrada

Para formatos suportados, veja quotas e limites de serviço.

Línguas e regiões suportadas

Consulte Apoio à língua e à região.

Privacidade e segurança dos dados

Como em todas as ferramentas da Foundry, consulte a documentação Dados, proteção e privacidade da Microsoft.

Importante

Se processar Dados Biométricos (por exemplo, ativar a Descrição Facial), deve cumprir todos os requisitos de notificação, consentimento e eliminação previstos nas leis aplicáveis. Consulte Dados e Privacidade para Face.