Modelos de geração de vídeo

Concluído

Dica

Consulte a guia Texto e imagens para obter mais detalhes!

Além das imagens estáticas, esperamos cada vez mais consumir conteúdo visual como vídeo.

Usando modelos de geração de vídeo do Foundry

O Microsoft Foundry inclui modelos de geração de vídeo, que você pode usar para criar conteúdo de vídeo original.

Captura de tela do catálogo de modelos do Foundry com três modelos de geração de vídeo exibidos.

Os modelos de geração de vídeo na Foundry incluem:

  • Sora 1: Sora é o primeiro modelo de texto em vídeo do OpenAI disponibilizado no Microsoft Foundry. Ele gera clipes de vídeo curtos de prompts de texto e também pode usar imagens como entrada para orientar a criação de vídeo. O Sora 1 dá suporte a várias resoluções e durações e é exposto por meio do Serviço OpenAI do Azure e do Foundry Video Playground para experimentação.

Usos típicos:

  • Vídeos conceituais e storyboards
  • Animações curtas de descrições de texto
  • Protótipo visual para fluxos de trabalho criativos

Sora 2 (versão prévia pública): Sora 2 é o modelo de geração de vídeo de última geração no Foundry e representa uma atualização significativa em relação ao Sora 1. Ele dá suporte a várias modalidades, incluindo: texto → vídeo, imagem → vídeo, vídeo → vídeo (remix). O Sora 2 também apresenta a geração de áudio, realismo aprimorado e recursos de remixagem que permitem edições direcionadas em vez de regenerar um vídeo inteiro. Ele está disponível por meio da API do Azure OpenAI v1 e do Foundry Video Playground, com proteções internas de IA responsável.

Usos típicos:

  • Vídeos promocionais e de marketing
  • Versões prévias e trailers de conceito cinematográfico
  • Conteúdo de mídia educacional e imersivo

Observação

É importante ressaltar que os modelos sora são atualmente os únicos modelos nativos de geração de vídeo fornecidos diretamente por meio da Foundry. Outros modelos de Foundry podem ser multimodal (texto, imagem, áudio), mas não geram saída de vídeo. Tanto o Sora 1 quanto o Sora 2 incluem restrições de IA responsável, como limites para pessoas reais, caracteres protegidos por direitos autorais e determinados tipos de conteúdo.

Geração de vídeo no playground da Foundry

Depois de implantar um modelo de geração de vídeo apropriado, você pode testá-lo no playground do portal do Foundry. No playground, você também pode especificar parâmetros como dimensões de vídeo e duração.

Captura de tela do modelo Sora no Foundry Playground com parâmetros e um prompt (instrução).

Seus prompts para o modelo de geração de vídeo devem incluir uma descrição do conteúdo no vídeo desejado. Após alguns minutos, o modelo produz um vídeo.

Você pode dar uma olhada no código de exemplo no playground (ambiente de teste).

Captura de tela do modelo Sora no Foundry Playground com código de exemplo.

O código de exemplo usa a Interface REST para geração de vídeo.

Usando a interface REST para geração de vídeo

Você pode usar a interface REST do Foundry para solicitar um trabalho de geração de vídeo e recuperar o MP4 concluído programaticamente. A geração de vídeo programática permite automatizar o processo de geração de vídeo.

Observação

Uma API REST (API de Transferência de Estado Representacional) é uma interface da Web que permite que os programas se comuniquem usando HTTP. Um SDK como um kit de ferramentas amigável para desenvolvedores criado com base nessa interface. Você sempre pode trabalhar com a API REST subjacente, especialmente se um SDK na linguagem de programação com a qual você está familiarizado não existir. Você pode usar curl (abreviação de URL do Cliente) para chamar ou conversar com a API REST. Curl é uma ferramenta de linha de comando usada para enviar e receber dados pela Internet. Em seu núcleo, curl: faz solicitações HTTP (e outros protocolos), envia dados para um servidor e recebe e imprime a resposta do servidor.

A geração de vídeo é intensiva em recursos e normalmente é executada como um trabalho assíncrono.

Assíncrono significa que você:

  1. Criar um trabalho
  2. Sondar o status do trabalho
  3. Baixe o vídeo depois que o trabalho for concluído.

Os tempos de geração de vídeo geralmente são de 1 a 5 minutos, dependendo das configurações. Para executar um trabalho assíncrono usando a interface REST do Foundry, você precisa:

  • Um recurso do OpenAI do Azure/Foundry em uma região com suporte e uma implantação do Sora (implante o Sora dos Modelos + pontos de extremidade do Foundry).
  • Um método de autorização: chave de API ou ID do Microsoft Entra

Vamos dar uma olhada no uso da API do Azure OpenAI v1 com o modelo Sora 2.

A API do Sora 2 fornece pontos de extremidade distintos para:

  • Iniciando um trabalho de renderização
  • Sondagem do status do trabalho
  • Baixando o vídeo

1. Criar um trabalho de vídeo

No exemplo, o script inicia um trabalho de renderização assíncrona e retorna uma resposta que inclui uma ID de vídeo para sondagem.

Observação

Bash é um shell de linha de comando e linguagem de script. Curl é um comando que você executa dentro do Bash.

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos" \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -d '{
    "model": "sora-2",
    "prompt": "A cinematic close-up of raindrops sliding down a neon-lit window at night.",
    "size": "1280x720",
    "seconds": "8"
  }'

2. Sondar o status do trabalho até ser concluído

No exemplo, o script sonda o ponto de extremidade até que o trabalho atinja completed (ou failed).

curl -X GET "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}" \
  -H "api-key: $AZURE_OPENAI_API_KEY"

3. Baixe o vídeo concluído

O vídeo é baixado somente depois que o status é completed.

curl -L "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}/content?variant=video" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  --output output.mp4

Os modelos de vídeo estão melhorando o tempo todo, e o Microsoft Foundry facilita a integração deles em soluções criativas. Em seguida, experimente modelos com capacidade de visão, geração de imagem e geração de vídeo no Foundry por si mesmo.