Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A API Realtime Azure OpenAI GPT para fala e áudio faz parte da família de modelos GPT-4o que suporta interações conversacionais de baixa latência, "entrada de voz, saída de voz".
Pode usar a API em tempo real via WebRTC, SIP ou WebSocket para enviar entrada de áudio ao modelo e receber respostas áudio em tempo real.
Siga as instruções deste artigo para começar a usar a API em tempo real através do WebSockets. Usa a API em tempo real via WebSockets em situações de servidor para servidor onde baixa latência não é obrigatória.
Dica
Na maioria dos casos, utilize-se a API em tempo real via WebRTC para streaming de áudio em tempo real em aplicações do lado do cliente, como aplicações web ou aplicações móveis. O WebRTC foi concebido para streaming de áudio em tempo real e baixa latência, sendo a melhor escolha para a maioria dos cenários.
Use a tabela seguinte para o ajudar a escolher o protocolo certo para o seu cenário:
| Protocolo | Melhor para | Latência | Complexidade |
|---|---|---|---|
| WebRTC | Aplicações do lado do cliente (web, móvel) | Mais baixo (~50-100ms) | Mais alto |
| WebSocket | Servidor para servidor, processamento em lote | Moderado (~100-300ms) | Mais Baixo |
| SIP | Integração de telefonia | Variações | O mais alto |
Pré-requisitos
Antes de poder usar áudio em tempo real GPT, precisa de:
- Uma subscrição do Azure. Crie um gratuitamente.
- Um recurso da Microsoft Foundry. Crie o recurso numa das regiões suportadas. Para os passos de configuração, veja Criar um recurso Microsoft Foundry.
- Uma implementação de um modelo GPT em tempo real numa região suportada, conforme descrito na secção de modelos suportados deste artigo.
- No portal da Foundry, carregue o seu projeto. Selecione Construir no menu superior direito, depois selecione o separador Modelos no painel esquerdo e selecione Implementar um modelo base. Procura o modelo que queres e seleciona Implementar na página do modelo.
-
Bibliotecas obrigatórias:
- Python:
pip install websockets azure-identity - JavaScript/Node.js:
npm install ws @azure/identity
- Python:
Modelos suportados
Os modelos GPT em tempo real estão disponíveis para implementações globais nas regiões East US 2 e Suécia Central.
-
gpt-4o-mini-realtime-preview(2024-12-17) -
gpt-4o-realtime-preview(2024-12-17) -
gpt-realtime(2025-08-28) -
gpt-realtime-mini(2025-10-06) -
gpt-realtime-mini(2025-12-15) -
gpt-realtime-1.5(2026-02-23)
Para mais informações sobre modelos suportados, consulte a documentação de modelos e versões.
Ligação e autenticação
A API Realtime (via /realtime) é construída sobre a API WebSockets para facilitar a comunicação em streaming totalmente assíncrona entre o utilizador final e o modelo.
A API em tempo real é acedida através de uma ligação WebSocket segura ao endpoint /realtime do seu recurso Azure OpenAI.
Pode construir um URI de pedido completo concatenando:
- O protocolo seguro WebSocket (
wss://). - O nome de host do endpoint do recurso Azure OpenAI, por exemplo,
my-aoai-resource.openai.azure.com - O caminho da API:
openai/v1/realtimepara GA, ouopenai/realtimepara pré-visualização. - Um parâmetro de consulta
modelcom o nome da sua implementação do modelogpt-realtime,gpt-realtime-1.5, ougpt-realtime-mini. -
(Apenas versão de pré-visualização) Um
api-versionparâmetro de string de consulta para uma versão de API suportada, como2025-04-01-previewe umdeploymentparâmetro de consulta em vez demodel.
O exemplo seguinte é um URI de pedido bem estruturado /realtime:
wss://my-eastus2-openai-resource.openai.azure.com/openai/v1/realtime?model=gpt-realtime-deployment-name
Nota
A API GA usa o /openai/v1/realtime path com model= como parâmetro de consulta. A API de pré-visualização utiliza /openai/realtime com os parâmetros api-version= e deployment=. Usar o caminho errado ou misturar formatos GA/pré-visualização resulta num erro 404.
Para autenticar:
-
Microsoft Entra (recomendado): Use autenticação baseada em token com a API
/realtimepara um recurso Azure OpenAI com identidade gerida ativada. Aplique um token de autenticação recuperado usando umBearertoken com oAuthorizationcabeçalho. -
Chave API: An
api-keypode ser fornecida de duas formas:- Usar um
api-keycabeçalho de ligação na ligação pré-handshake. Esta opção não está disponível num ambiente de navegador. - Usando um
api-keyparâmetro de string de consulta no URI do pedido. Os parâmetros da string de consulta são encriptados quando se utiliza HTTPS/WSS.
- Usar um
API em tempo real via arquitetura WebSockets
Uma vez estabelecida e autenticada a sessão de ligação WebSocket a /realtime, a interação funcional ocorre através de eventos para enviar e receber mensagens WebSocket. Estes eventos assumem cada um a forma de um objeto JSON.
Os eventos podem ser enviados e recebidos em paralelo e as aplicações devem geralmente tratá-los simultaneamente e de forma assíncrona.
- Um chamador do lado do cliente estabelece uma ligação a
/realtime, que inicia um novosession. - A
sessioncria automaticamente um padrãoconversation. Múltiplas conversas simultâneas não são suportadas. - Acumula
conversationsinais de entrada até que oresponseseja iniciado, seja através de um evento direto pelo chamador ou automaticamente por deteção de atividade de voz (VAD). - Cada um
responseconsiste numa ou maisitems, que podem encapsular mensagens, chamadas de funções e outras informações. - Cada mensagem
itemtemcontent_part, permitindo que múltiplas modalidades (texto e áudio) sejam representadas num único item. - O
sessiongere a configuração do tratamento da entrada do chamador (por exemplo, áudio do utilizador) e do tratamento comum da geração de saídas. - Cada chamador iniciado
response.createpode sobrepor parte do comportamento de saídaresponse, se desejar. - Criadas
itempelo servidor e ascontent_partnas mensagens podem ser preenchidas de forma assíncrona e em paralelo. Por exemplo, receber áudio, texto e informações funcionais em simultâneo, em formato round robin.
Experimenta o início rápido
Agora que já fez os passos acima, pode seguir as instruções no quickstart da API Realtime para começar com a API Realtime através do WebSockets.
Conteúdo relacionado
- Experimente o início rápido de áudio em tempo real
- Consulte a referência da API em tempo real
- Saiba mais sobre Azure OpenAI
c0