Naslaginformatie over voice live-API `2025-10-01`

De Voice Live-API biedt realtime bidirectionele communicatie voor spraaktoepassingen met behulp van WebSocket-verbindingen. Deze API ondersteunt geavanceerde functies, waaronder spraakherkenning, tekst-naar-spraaksynthese, avatarstreaming, animatiegegevens en uitgebreide mogelijkheden voor audioverwerking.

De API maakt gebruik van gebeurtenissen in JSON-indeling die via WebSocket-verbindingen worden verzonden om gesprekken, audiostreams, avatarinteracties en realtime antwoorden te beheren. Gebeurtenissen worden gecategoriseerd in clientgebeurtenissen (verzonden van client naar server) en servergebeurtenissen (verzonden van server naar client).

Key Features

Realtime audioverwerking: ondersteuning voor meerdere audio-indelingen, waaronder PCM16 met verschillende samplefrequenties en G.711 codecs
Geavanceerde spraakopties: OpenAI-stemmen, aangepaste Stemmen van Azure, Standaardstemmen van Azure en persoonlijke Stemmen van Azure
Avatar-integratie: avatarstreaming op basis van WebRTC met video, animatie en blendshapes
Intelligente schakeldetectie: meerdere VAD-opties, waaronder semantische VAD van Azure en detectie aan de serverzijde
Audioverbetering: ingebouwde ruisonderdrukking en echo-annulering
Functie aanroepen: Integratie van hulpprogramma's voor verbeterde gespreksmogelijkheden
Flexibel sessiebeheer: configureerbare uitvoermodaliteiten, instructies en antwoordparameters

Client Events

De Voice Live-API ondersteunt de volgende clientgebeurtenissen die van de client naar de server kunnen worden verzonden:

Event	Description
session.update	De sessieconfiguratie bijwerken, inclusief spraak- en uitvoermodaliteiten, draaidetectie en andere instellingen
session.avatar.connect	Avatar-verbinding tot stand brengen door client-SDP voor WebRTC-onderhandeling te bieden
input_audio_buffer.append	Audiobytes toevoegen aan de invoeraudiobuffer
input_audio_buffer.commit	De invoeraudiobuffer doorvoeren voor verwerking
input_audio_buffer.clear	De audiobuffer voor invoer wissen
conversation.item.create	Een nieuw item toevoegen aan de gesprekscontext
conversation.item.retrieve	Een specifiek item ophalen uit het gesprek
conversation.item.truncate	Een audiobericht van een assistent afkappen
conversation.item.delete	Een item uit het gesprek verwijderen
response.create	De server opdracht geven om een antwoord te maken via modeldeductie
response.cancel	Een actieve reactie annuleren

session.update

Werk de configuratie van de sessie bij. Deze gebeurtenis kan op elk gewenst moment worden verzonden om instellingen zoals spraak, uitvoermodaliteiten, draaidetectie, hulpprogramma's en andere sessieparameters te wijzigen. Zodra een sessie is geïnitialiseerd met een bepaald model, kan deze niet meer worden gewijzigd in een ander model.

Event Structure

{
  "type": "session.update",
  "session": {
    "modalities": ["text", "audio"],
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "instructions": "You are a helpful assistant. Be concise and friendly.",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_sampling_rate": 24000,
    "turn_detection": {
      "type": "azure_semantic_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "max_response_output_tokens": "inf"
  }
}

Properties

Field	Type	Description
type	string	Moet `"session.update"` zijn
session	RealtimeRequestSession	Sessieconfiguratieobject met velden die moeten worden bijgewerkt

Voorbeeld met Azure Custom Voice

{
  "type": "session.update",
  "session": {
    "voice": {
      "type": "azure-custom",
      "name": "my-custom-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012",
      "temperature": 0.7,
      "style": "cheerful"
    },
    "input_audio_noise_reduction": {
      "type": "azure_deep_noise_suppression"
    },
    "avatar": {
      "character": "lisa",
      "customized": false,
      "video": {
        "resolution": {
          "width": 1920,
          "height": 1080
        },
        "bitrate": 2000000
      }
    }
  }
}

session.avatar.connect

Maak een avatarverbinding door de SDP -aanbieding (Session Description Protocol) van de client op te geven voor webRTC-mediaonderhandeling. Deze gebeurtenis is vereist bij het gebruik van avatarfuncties.

Event Structure

{
  "type": "session.avatar.connect",
  "client_sdp": "<client_sdp>"
}

Properties

Field	Type	Description
type	string	Moet `"session.avatar.connect"` zijn
client_sdp	string	De SDP-aanbieding van de client voor het tot stand maken van webRTC-verbindingen, gecodeerd met base64

input_audio_buffer.append

Voeg audiobytes toe aan de audiobuffer voor invoer.

Event Structure

{
  "type": "input_audio_buffer.append",
  "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}

Properties

Field	Type	Description
type	string	Moet `"input_audio_buffer.append"` zijn
audio	string	Met Base64 gecodeerde audiogegevens

input_audio_buffer.commit

Voer de invoeraudiobuffer door voor verwerking.

Event Structure

{
  "type": "input_audio_buffer.commit"
}

Properties

Field	Type	Description
type	string	Moet `"input_audio_buffer.commit"` zijn

input_audio_buffer.clear

Wis de invoeraudiobuffer.

Event Structure

{
  "type": "input_audio_buffer.clear"
}

Properties

Field	Type	Description
type	string	Moet `"input_audio_buffer.clear"` zijn

conversation.item.create

Voeg een nieuw item toe aan de gesprekscontext. Dit kan berichten, functieoproepen en antwoorden van functieoproepen zijn. Items kunnen worden ingevoegd op specifieke posities in de gespreksgeschiedenis.

Event Structure

{
  "type": "conversation.item.create",
  "previous_item_id": "item_ABC123",
  "item": {
    "id": "item_DEF456",
    "type": "message",
    "role": "user",
    "content": [
      {
        "type": "input_text",
        "text": "Hello, how are you?"
      }
    ]
  }
}

Properties

Field	Type	Description
type	string	Moet `"conversation.item.create"` zijn
previous_item_id	string	Optional. Id van het item waarna u dit item wilt invoegen. Als dit niet is opgegeven, voegt u deze toe aan het einde
item	RealtimeConversationRequestItem	Het item dat moet worden toegevoegd aan het gesprek

Voorbeeld met audio-inhoud

{
  "type": "conversation.item.create",
  "item": {
    "type": "message",
    "role": "user",
    "content": [
      {
        "type": "input_audio",
        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
        "transcript": "Hello there"
      }
    ]
  }
}

Voorbeeld met uitvoer van functieoproep

{
  "type": "conversation.item.create",
  "item": {
    "type": "function_call_output",
    "call_id": "call_123",
    "output": "{\"location\": \"San Francisco\", \"temperature\": \"70\"}"
  }
}

Voorbeeld met MCP-goedkeuringsantwoord

{
  "type": "conversation.item.create",
  "item": {
    "type": "mcp_approval_response",
    "approval_request_id": "mcp_approval_req_456",
    "approve": true,
  }
}

conversation.item.retrieve

Een specifiek item ophalen uit de gespreksgeschiedenis. Dit is handig voor het inspecteren van verwerkte audio na ruisonderdrukking en VAD.

Event Structure

{
  "type": "conversation.item.retrieve",
  "item_id": "item_ABC123"
}

Properties

Field	Type	Description
type	string	Moet `"conversation.item.retrieve"` zijn
item_id	string	De id van het item dat moet worden opgehaald

conversation.item.truncate

De audio-inhoud van een assistentbericht afkappen. Dit is handig voor het stoppen van afspelen op een specifiek punt en het synchroniseren van het begrip van de server met de status van de client.

Event Structure

{
  "type": "conversation.item.truncate",
  "item_id": "item_ABC123",
  "content_index": 0,
  "audio_end_ms": 5000
}

Properties

Field	Type	Description
type	string	Moet `"conversation.item.truncate"` zijn
item_id	string	De id van het assistentberichtitem dat moet worden afgekapt
content_index	integer	De index van het inhoudsonderdeel dat moet worden afgekapt
audio_end_ms	integer	De duur totdat de audio wordt afgekapt, in milliseconden

conversation.item.delete

Een item verwijderen uit de gespreksgeschiedenis.

Event Structure

{
  "type": "conversation.item.delete",
  "item_id": "item_ABC123"
}

Properties

Field	Type	Description
type	string	Moet `"conversation.item.delete"` zijn
item_id	string	De id van het item dat moet worden verwijderd

response.create

Geef de server de opdracht om een antwoord te maken via modeldeductie. Met deze gebeurtenis kunt u antwoordspecifieke configuratie opgeven die de standaardinstellingen voor sessies overschrijft.

Event Structure

{
  "type": "response.create",
  "response": {
    "modalities": ["text", "audio"],
    "instructions": "Be extra helpful and detailed.",
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "output_audio_format": "pcm16",
    "temperature": 0.7,
    "max_response_output_tokens": 1000
  }
}

Properties

Field	Type	Description
type	string	Moet `"response.create"` zijn
response	RealtimeResponseOptions	Optionele antwoordconfiguratie die de standaardinstellingen voor sessies overschrijft

Voorbeeld met keuze van hulpprogramma

{
  "type": "response.create",
  "response": {
    "modalities": ["text"],
    "tools": [
      {
        "type": "function",
        "name": "get_current_time",
        "description": "Get the current time",
        "parameters": {
          "type": "object",
          "properties": {}
        }
      }
    ],
    "tool_choice": "get_current_time",
    "temperature": 0.3
  }
}

Voorbeeld met animatie

{
  "type": "response.create",
  "response": {
    "modalities": ["audio", "animation"],
    "animation": {
      "model_name": "default",
      "outputs": ["blendshapes", "viseme_id"]
    },
    "voice": {
      "type": "azure-custom",
      "name": "my-expressive-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012",
      "style": "excited"
    }
  }
}

response.cancel

Annuleer een reactie die wordt uitgevoerd. Hierdoor wordt het genereren van reacties en gerelateerde audio-uitvoer onmiddellijk gestopt.

Event Structure

{
  "type": "response.cancel"
}

Properties

Field	Type	Description
type	string	Moet `"response.cancel"` zijn

input_audio_buffer.append

De client input_audio_buffer.append gebeurtenis wordt gebruikt om audiobytes toe te voegen aan de invoeraudiobuffer. De audiobuffer is tijdelijke opslag waarnaar u kunt schrijven en later doorvoeren.

In de modus Server VAD (Spraakactiviteitsdetectie) wordt de audiobuffer gebruikt om spraak te detecteren en bepaalt de server wanneer deze moet worden doorgevoerd. Wanneer server-VAD is uitgeschakeld, kan de client kiezen hoeveel audio in elke gebeurtenis moet worden geplaatst tot maximaal 15 MiB. Als u bijvoorbeeld kleinere segmenten van de client streamt, kan de VAD sneller reageren.

In tegenstelling tot de meeste andere client gebeurtenissen, verzendt de server geen bevestigingsreactie naar de client input_audio_buffer.append gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.append",
  "audio": "<audio>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `input_audio_buffer.append`.
audio	string	Met Base64 gecodeerde audiobytes. Deze waarde moet de indeling hebben die is opgegeven door het `input_audio_format` veld in de sessieconfiguratie.

input_audio_buffer.clear

De client input_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de buffer te wissen.

De server reageert met een input_audio_buffer.cleared gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.clear"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `input_audio_buffer.clear`.

input_audio_buffer.commit

De client-gebeurtenis input_audio_buffer.commit wordt gebruikt om de audiobuffer voor gebruikersinvoer door te voeren, waardoor er een nieuw gebruikersberichtitem in het gesprek wordt gemaakt. Audio wordt getranscribeerd als input_audio_transcription deze is geconfigureerd voor de sessie.

Wanneer de client zich in de VAD-modus van de server bevindt, hoeft deze gebeurtenis niet te worden verzonden. De server voert de audiobuffer automatisch door. Zonder server-VAD moet de client de audiobuffer doorvoeren om een gebruikersberichtitem te maken. Deze client gebeurtenis produceert een fout als de invoer audiobuffer leeg is.

Als u de invoeraudiobuffer doorvoert, wordt er geen antwoord van het model gemaakt.

De server reageert met een input_audio_buffer.committed gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.commit"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `input_audio_buffer.commit`.

Server Events

De Voice Live-API verzendt de volgende servergebeurtenissen om de status, antwoorden en gegevens te communiceren met de client:

Event	Description
error	Geeft aan dat er een fout is opgetreden tijdens de verwerking
warning	Geeft aan dat er een waarschuwing is opgetreden die de gespreksstroom niet onderbreekt
session.created	Verzonden wanneer een nieuwe sessie tot stand is gebracht
session.updated	Verzonden wanneer sessieconfiguratie wordt bijgewerkt
session.avatar.connecting	Geeft aan dat de avatar WebRTC-verbinding tot stand is gebracht
conversation.item.created	Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek
conversation.item.retrieved	Antwoord op conversation.item.retrieve-aanvraag
conversation.item.truncated	Bevestigt afkapping van items
conversation.item.deleted	Verwijdering van item bevestigen
conversation.item.input_audio_transcription.completed	Audiotranscriptie van invoer is voltooid
conversation.item.input_audio_transcription.delta	Audiotranscriptie van streaming-invoer
conversation.item.input_audio_transcription.failed	Audiotranscriptie van invoer is mislukt
input_audio_buffer.committed	Invoeraudiobuffer was voor verwerking
input_audio_buffer.cleared	Invoeraudiobuffer is gewist
input_audio_buffer.speech_started	Spraak gedetecteerd in invoeraudiobuffer (VAD)
input_audio_buffer.speech_stopped	Spraak is beëindigd in de audiobuffer voor invoer (VAD)
response.created	Nieuwe reactiegeneratie is gestart
response.done	Het genereren van antwoorden is voltooid
response.output_item.added	Nieuw uitvoeritem toegevoegd aan antwoord
response.output_item.done	Het uitvoeritem is voltooid
response.content_part.added	Nieuw inhoudsonderdeel toegevoegd aan uitvoeritem
response.content_part.done	Het inhoudsonderdeel is voltooid
response.text.delta	Tekstinhoud streamen van het model
response.text.done	Tekstinhoud is voltooid
response.audio_transcript.delta	Audiotranscriptie streamen
response.audio_transcript.done	Audiotranscriptie is voltooid
response.audio.delta	Audio-inhoud streamen vanuit het model
response.audio.done	Audio-inhoud is voltooid
response.animation_blendshapes.delta	Streaming-animatie-blendshapes-gegevens
response.animation_blendshapes.done	De gegevens van animatie-blendshapes zijn voltooid
response.audio_timestamp.delta	Informatie over het streamen van audiotijdstempel
response.audio_timestamp.done	Informatie over de tijdstempel van audio is voltooid
response.animation_viseme.delta	Streaminganimatievisugegevens
response.animation_viseme.done	Animatievisulaatgegevens zijn voltooid
response.function_call_arguments.delta	Argumenten voor aanroepen van streamingfuncties
response.function_call_arguments.done	Argumenten voor functieoproep zijn voltooid
mcp_list_tools.in_progress	Vermelding van MCP-hulpprogramma's wordt uitgevoerd
mcp_list_tools.completed	McP-hulpprogrammalijst is voltooid
mcp_list_tools.failed	Vermelding van MCP-hulpprogramma's is mislukt
response.mcp_call_arguments.delta	McP-aanroepargumenten streamen
response.mcp_call_arguments.done	MCP-aanroepargumenten zijn voltooid
response.mcp_call.in_progress	MCP-aanroep wordt uitgevoerd
response.mcp_call.completed	MCP-aanroep is voltooid
response.mcp_call.failed	MCP-aanroep is mislukt

session.created

Verzonden wanneer een nieuwe sessie tot stand is gebracht. Dit is de eerste gebeurtenis die is ontvangen nadat u verbinding hebt gemaakt met de API.

Event Structure

{
  "type": "session.created",
  "session": {
    "id": "sess_ABC123DEF456",
    "object": "realtime.session",
    "model": "gpt-realtime",
    "modalities": ["text", "audio"],
    "instructions": "You are a helpful assistant.",
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_sampling_rate": 24000,
    "turn_detection": {
      "type": "azure_semantic_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "max_response_output_tokens": "inf"
  }
}

Properties

Field	Type	Description
type	string	Moet `"session.created"` zijn
session	RealtimeResponseSession	Het gemaakte sessieobject

session.updated

Verzonden wanneer de sessieconfiguratie is bijgewerkt als reactie op een session.update client gebeurtenis.

Event Structure

{
  "type": "session.updated",
  "session": {
    "id": "sess_ABC123DEF456",
    "voice": {
      "type": "azure-custom",
      "name": "my-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012"
    },
    "temperature": 0.7,
    "avatar": {
      "character": "lisa",
      "customized": false
    }
  }
}

Properties

Field	Type	Description
type	string	Moet `"session.updated"` zijn
session	RealtimeResponseSession	Het bijgewerkte sessieobject

session.avatar.connecting

Geeft aan dat er een avatar WebRTC-verbinding tot stand is gebracht. Deze gebeurtenis wordt verzonden als reactie op een session.avatar.connect client gebeurtenis.

Event Structure

{
  "type": "session.avatar.connecting",
  "server_sdp": "<server_sdp>"
}

Properties

Field	Type	Description
type	string	Moet `"session.avatar.connecting"` zijn

conversation.item.created

Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek, via een client-gebeurtenis conversation.item.create of automatisch tijdens het genereren van reacties.

Event Structure

{
  "type": "conversation.item.created",
  "previous_item_id": "item_ABC123",
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "user",
    "content": [
      {
        "type": "input_text",
        "text": "Hello, how are you?"
      }
    ]
  }
}

Properties

Field	Type	Description
type	string	Moet `"conversation.item.created"` zijn
previous_item_id	string	Id van het item waarna dit item is ingevoegd
item	RealtimeConversationResponseItem	Het gemaakte gespreksitem

Voorbeeld met audio-item

{
  "type": "conversation.item.created",
  "item": {
    "id": "item_GHI789",
    "type": "message",
    "status": "completed",
    "role": "user",
    "content": [
      {
        "type": "input_audio",
        "audio": null,
        "transcript": "What's the weather like today?"
      }
    ]
  }
}

conversation.item.retrieved

Verzonden als reactie op een conversation.item.retrieve client gebeurtenis, waarbij het aangevraagde gespreksitem wordt opgegeven.

Event Structure

{
  "type": "conversation.item.retrieved",
  "item": {
    "id": "item_ABC123",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "assistant",
    "content": [
      {
        "type": "audio",
        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
        "transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
      }
    ]
  }
}

Properties

Field	Type	Description
type	string	Moet `"conversation.item.retrieved"` zijn
item	RealtimeConversationResponseItem	Het opgehaalde gespreksitem

conversation.item.truncated

De servergebeurtenis conversation.item.truncated wordt geretourneerd wanneer de client een eerder audioberichtitem met een assistent afkapt met een conversation.item.truncate gebeurtenis. Deze gebeurtenis wordt gebruikt om het begrip van de audio van de server te synchroniseren met het afspelen van de client.

Met deze gebeurtenis wordt de audio afgekapt en wordt de transcriptie van de tekst aan de serverzijde verwijderd om ervoor te zorgen dat er geen tekst is in de context waarover de gebruiker niet weet.

Event structure

{
  "type": "conversation.item.truncated",
  "item_id": "<item_id>",
  "content_index": 0,
  "audio_end_ms": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `conversation.item.truncated`.
item_id	string	De id van het berichtitem van de assistent dat is afgekapt.
content_index	integer	De index van het inhoudsonderdeel dat is afgekapt.
audio_end_ms	integer	De duur totdat de audio is afgekapt, in milliseconden.

conversation.item.deleted

Verzonden als reactie op een conversation.item.delete clientgebeurtenis, waarbij wordt bevestigd dat het opgegeven item uit het gesprek is verwijderd.

Event Structure

{
  "type": "conversation.item.deleted",
  "item_id": "item_ABC123"
}

Properties

Field	Type	Description
type	string	Moet `"conversation.item.deleted"` zijn
item_id	string	Id van het verwijderde item

response.created

Verzonden wanneer een nieuwe reactiegeneratie begint. Dit is de eerste gebeurtenis in een reactievolgorde.

Event Structure

{
  "type": "response.created",
  "response": {
    "id": "resp_ABC123",
    "object": "realtime.response",
    "status": "in_progress",
    "status_details": null,
    "output": [],
    "usage": {
      "total_tokens": 0,
      "input_tokens": 0,
      "output_tokens": 0
    }
  }
}

Properties

Field	Type	Description
type	string	Moet `"response.created"` zijn
response	RealtimeResponse	Het antwoordobject dat is gemaakt

response.done

Verzonden wanneer het genereren van antwoorden is voltooid. Deze gebeurtenis bevat het laatste antwoord met alle uitvoeritems en gebruiksstatistieken.

Event Structure

{
  "type": "response.done",
  "response": {
    "id": "resp_ABC123",
    "object": "realtime.response",
    "status": "completed",
    "status_details": null,
    "output": [
      {
        "id": "item_DEF456",
        "object": "realtime.item",
        "type": "message",
        "status": "completed",
        "role": "assistant",
        "content": [
          {
            "type": "text",
            "text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
          }
        ]
      }
    ],
    "usage": {
      "total_tokens": 87,
      "input_tokens": 52,
      "output_tokens": 35,
      "input_token_details": {
        "cached_tokens": 0,
        "text_tokens": 45,
        "audio_tokens": 7
      },
      "output_token_details": {
        "text_tokens": 15,
        "audio_tokens": 20
      }
    }
  }
}

Properties

Field	Type	Description
type	string	Moet `"response.done"` zijn
response	RealtimeResponse	Het voltooide antwoordobject

response.output_item.added

Verzonden wanneer er tijdens het genereren een nieuw uitvoeritem wordt toegevoegd aan het antwoord.

Event Structure

{
  "type": "response.output_item.added",
  "response_id": "resp_ABC123",
  "output_index": 0,
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "in_progress",
    "role": "assistant",
    "content": []
  }
}

Properties

Field	Type	Description
type	string	Moet `"response.output_item.added"` zijn
response_id	string	Id van het antwoord waartoe dit item behoort
output_index	integer	Index van het item in de uitvoermatrix van het antwoord
item	RealtimeConversationResponseItem	Het uitvoeritem dat is toegevoegd

response.output_item.done

Verzonden wanneer een uitvoeritem is voltooid.

Event Structure

{
  "type": "response.output_item.done",
  "response_id": "resp_ABC123",
  "output_index": 0,
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "assistant",
    "content": [
      {
        "type": "text",
        "text": "Hello! I'm doing well, thank you for asking."
      }
    ]
  }
}

Properties

Field	Type	Description
type	string	Moet `"response.output_item.done"` zijn
response_id	string	Id van het antwoord waartoe dit item behoort
output_index	integer	Index van het item in de uitvoermatrix van het antwoord
item	RealtimeConversationResponseItem	Het voltooide uitvoeritem

response.content_part.added

De servergebeurtenis response.content_part.added wordt geretourneerd wanneer een nieuw inhoudsonderdeel wordt toegevoegd aan een assistentberichtitem tijdens het genereren van het antwoord.

Event Structure

{
  "type": "response.content_part.added",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "part": {
    "type": "text",
    "text": ""
  }
}

Properties

Field	Type	Description
type	string	Moet `"response.content_part.added"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item waartoe dit inhoudsonderdeel behoort
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van dit inhoudsonderdeel in het item
part	RealtimeContentPart	Het inhoudsonderdeel dat is toegevoegd

response.content_part.done

De servergebeurtenis response.content_part.done wordt geretourneerd wanneer een inhoudsonderdeel klaar is met streamen in een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event Structure

{
  "type": "response.content_part.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "part": {
    "type": "text",
    "text": "Hello! I'm doing well, thank you for asking."
  }
}

Properties

Field	Type	Description
type	string	Moet `"response.content_part.done"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item waartoe dit inhoudsonderdeel behoort
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van dit inhoudsonderdeel in het item
part	RealtimeContentPart	Het voltooide inhoudsonderdeel

response.text.delta

Tekstinhoud streamen vanuit het model. Incrementeel verzonden naarmate het model tekst genereert.

Event Structure

{
  "type": "response.text.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "Hello! I'm"
}

Properties

Field	Type	Description
type	string	Moet `"response.text.delta"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
delta	string	Incrementele tekstinhoud

response.text.done

Verzonden wanneer het genereren van tekstinhoud is voltooid.

Event Structure

{
  "type": "response.text.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}

Properties

Field	Type	Description
type	string	Moet `"response.text.done"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
text	string	De volledige tekstinhoud

response.audio.delta

Audio-inhoud streamen van het model. Audio wordt geleverd als base64-gecodeerde gegevens.

Event Structure

{
  "type": "response.audio.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}

Properties

Field	Type	Description
type	string	Moet `"response.audio.delta"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
delta	string	Segment met base64-gecodeerde audiogegevens

response.audio.done

Verzonden wanneer het genereren van audio-inhoud is voltooid.

Event Structure

{
  "type": "response.audio.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Properties

Field	Type	Description
type	string	Moet `"response.audio.done"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel

response.audio_transcript.delta

Streamingtranscriptie van de gegenereerde audio-inhoud.

Event Structure

{
  "type": "response.audio_transcript.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "Hello! I'm doing"
}

Properties

Field	Type	Description
type	string	Moet `"response.audio_transcript.delta"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
delta	string	Incrementele transcriptietekst

response.audio_transcript.done

Verzonden wanneer het genereren van audiotranscripties is voltooid.

Event Structure

{
  "type": "response.audio_transcript.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}

Properties

Field	Type	Description
type	string	Moet `"response.audio_transcript.done"` zijn
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
transcript	string	De volledige transcriptietekst

conversation.item.input_audio_transcription.completed

De server conversation.item.input_audio_transcription.completed gebeurtenis is het resultaat van audiotranscriptie voor spraak die naar de audiobuffer is geschreven.

Transcriptie begint wanneer de invoeraudiobuffer wordt doorgevoerd door de client of server (in server_vad de modus). Transcriptie wordt asynchroon uitgevoerd bij het maken van een antwoord, zodat deze gebeurtenis vóór of na de reactie-gebeurtenissen kan komen.

Realtime-API-modellen accepteren audio direct, en daarom is invoertranscriptie een apart proces dat wordt uitgevoerd op een afzonderlijk spraakherkenningsmodel, zoals whisper-1. Het transcript kan dus enigszins afwijken van de interpretatie van het model en moet worden behandeld als een ruwe handleiding.

Event structure

{
  "type": "conversation.item.input_audio_transcription.completed",
  "item_id": "<item_id>",
  "content_index": 0,
  "transcript": "<transcript>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `conversation.item.input_audio_transcription.completed`.
item_id	string	De id van het gebruikersberichtitem met de audio.
content_index	integer	De index van het inhoudsonderdeel met de audio.
transcript	string	De getranscribeerde tekst.

conversation.item.input_audio_transcription.delta

De servergebeurtenis conversation.item.input_audio_transcription.delta wordt geretourneerd wanneer audiotranscriptie voor invoer is geconfigureerd en er een transcriptieaanvraag voor een gebruikersbericht wordt uitgevoerd. Deze gebeurtenis biedt gedeeltelijke transcriptieresultaten zodra ze beschikbaar komen.

Event structure

{
  "type": "conversation.item.input_audio_transcription.delta",
  "item_id": "<item_id>",
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `conversation.item.input_audio_transcription.delta`.
item_id	string	De id van het item van het gebruikersbericht.
content_index	integer	De index van het inhoudsonderdeel met de audio.
delta	string	De incrementele transcriptietekst.

conversation.item.input_audio_transcription.failed

De servergebeurtenis conversation.item.input_audio_transcription.failed wordt geretourneerd wanneer de invoer van audiotranscriptie is geconfigureerd en een transcriptieaanvraag voor een gebruikersbericht is mislukt. Deze gebeurtenis staat los van andere error gebeurtenissen, zodat de client het gerelateerde item kan identificeren.

Event structure

{
  "type": "conversation.item.input_audio_transcription.failed",
  "item_id": "<item_id>",
  "content_index": 0,
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `conversation.item.input_audio_transcription.failed`.
item_id	string	De id van het item van het gebruikersbericht.
content_index	integer	De index van het inhoudsonderdeel met de audio.
error	object	Details van de transcriptiefout. Zie geneste eigenschappen in de volgende tabel.

Error properties

Field	Type	Description
type	string	Het type fout.
code	string	Foutcode, indien van toepassing.
message	string	Een door mensen leesbaar foutbericht.
param	string	Parameter met betrekking tot de fout, indien van toepassing.

response.animation_blendshapes.delta

De servergebeurtenis response.animation_blendshapes.delta wordt geretourneerd wanneer het model animatie-blendshapes-gegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele blendshapes-gegevens zodra deze beschikbaar zijn.

Event structure

{
  "type": "response.animation_blendshapes.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "frame_index": 0,
  "frames": [
    [0.0, 0.1, 0.2, ..., 1.0]
    ...
  ]
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.animation_blendshapes.delta`.
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
frame_index	integer	Index van het eerste frame in deze batch frames
frames	matrix van matrix van float	Matrix van blendshapeframes, elk frame is een matrix van blendshape-waarden

response.animation_blendshapes.done

De servergebeurtenis response.animation_blendshapes.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-blendshapes-gegevens als onderdeel van een antwoord.

Event structure

{
  "type": "response.animation_blendshapes.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.animation_blendshapes.done`.
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord

response.audio_timestamp.delta

De servergebeurtenis response.audio_timestamp.delta wordt geretourneerd wanneer het model audiotijdstempelgegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele tijdstempelgegevens voor uitvoeraudio en tekstuitlijning zodra deze beschikbaar is.

Event structure

{
  "type": "response.audio_timestamp.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "audio_offset_ms": 0,
  "audio_duration_ms": 500,
  "text": "Hello",
  "timestamp_type": "word"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.audio_timestamp.delta`.
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
audio_offset_ms	integer	Audio-offset in milliseconden vanaf het begin van de audio
audio_duration_ms	integer	Duur van het audiosegment in milliseconden
text	string	Het tekstsegment dat overeenkomt met dit audiotijdstempel
timestamp_type	string	Het type tijdstempel, momenteel wordt alleen 'woord' ondersteund

response.audio_timestamp.done

Verzonden wanneer het genereren van audiotijdstempels is voltooid.

Event Structure

{
  "type": "response.audio_timestamp.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.audio_timestamp.done`.
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel

response.animation_viseme.delta

De servergebeurtenis response.animation_viseme.delta wordt geretourneerd wanneer het model animatievisemegegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele visemegegevens zodra deze beschikbaar zijn.

Event Structure

{
  "type": "response.animation_viseme.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "audio_offset_ms": 0,
  "viseme_id": 1
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.animation_viseme.delta`.
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel
audio_offset_ms	integer	Audio-offset in milliseconden vanaf het begin van de audio
viseme_id	integer	De viseme-id die overeenkomt met de mondvorm voor animatie

response.animation_viseme.done

De servergebeurtenis response.animation_viseme.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-visemegegevens als onderdeel van een antwoord.

Event Structure

{
  "type": "response.animation_viseme.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.animation_viseme.done`.
response_id	string	Id van het antwoord
item_id	string	Id van het item
output_index	integer	Index van het item in het antwoord
content_index	integer	Index van het inhoudsonderdeel

error

De servergebeurtenis error wordt geretourneerd wanneer er een fout optreedt, wat een clientprobleem of een serverprobleem kan zijn. De meeste fouten kunnen worden hersteld en de sessie blijft geopend.

Event structure

{
  "type": "error",
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>",
    "event_id": "<event_id>"
  }
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `error`.
error	object	Details van de fout. Zie geneste eigenschappen in de volgende tabel.

Error properties

Field	Type	Description
type	string	Het type fout. 'invalid_request_error' en 'server_error' zijn bijvoorbeeld fouttypen.
code	string	Foutcode, indien van toepassing.
message	string	Een door mensen leesbaar foutbericht.
param	string	Parameter met betrekking tot de fout, indien van toepassing.
event_id	string	De id van de client gebeurtenis die de fout heeft veroorzaakt, indien van toepassing.

warning

De servergebeurtenis warning wordt geretourneerd wanneer er een waarschuwing optreedt die de gespreksstroom niet onderbreekt. Waarschuwingen zijn informatief en de sessie wordt normaal voortgezet.

Event structure

{
  "type": "warning",
  "warning": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `warning`.
warning	object	Details van de waarschuwing. Zie geneste eigenschappen in de volgende tabel.

Warning properties

Field	Type	Description
message	string	Een leesbaar waarschuwingsbericht.
code	string	Optional. Waarschuwingscode, indien van toepassing.
param	string	Optional. Parameter met betrekking tot de waarschuwing, indien van toepassing.

input_audio_buffer.cleared

De servergebeurtenis input_audio_buffer.cleared wordt geretourneerd wanneer de client de invoeraudiobuffer wist met een input_audio_buffer.clear gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.cleared"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `input_audio_buffer.cleared`.

input_audio_buffer.committed

De servergebeurtenis input_audio_buffer.committed wordt geretourneerd wanneer een invoeraudiobuffer wordt doorgevoerd door de client of automatisch in de server-VAD-modus. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt. Er wordt dus ook een conversation.item.created gebeurtenis naar de client verzonden.

Event structure

{
  "type": "input_audio_buffer.committed",
  "previous_item_id": "<previous_item_id>",
  "item_id": "<item_id>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `input_audio_buffer.committed`.
previous_item_id	string	De id van het voorgaande item waarna het nieuwe item wordt ingevoegd.
item_id	string	De id van het gebruikersberichtitem dat is gemaakt.

input_audio_buffer.speech_started

De servergebeurtenis input_audio_buffer.speech_started wordt geretourneerd in server_vad de modus wanneer spraak wordt gedetecteerd in de audiobuffer. Deze gebeurtenis kan zich voordoen wanneer audio aan de buffer wordt toegevoegd (tenzij spraak al is gedetecteerd).

Note

De client kan deze gebeurtenis gebruiken om het afspelen van audio te onderbreken of visuele feedback te geven aan de gebruiker.

De client verwacht een input_audio_buffer.speech_stopped gebeurtenis te ontvangen wanneer spraak stopt. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt. De item_id is ook opgenomen in de input_audio_buffer.speech_stopped gebeurtenis, tenzij de client de audiobuffer handmatig doorvoert tijdens vad-activering.

Event structure

{
  "type": "input_audio_buffer.speech_started",
  "audio_start_ms": 0,
  "item_id": "<item_id>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `input_audio_buffer.speech_started`.
audio_start_ms	integer	Milliseconden vanaf het begin van alle audio die tijdens de sessie naar de buffer is geschreven toen spraak voor het eerst werd gedetecteerd. Deze eigenschap komt overeen met het begin van de audio die naar het model wordt verzonden en bevat dus de `prefix_padding_ms` geconfigureerde in de sessie.
item_id	string	De id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt.

input_audio_buffer.speech_stopped

De servergebeurtenis input_audio_buffer.speech_stopped wordt geretourneerd in server_vad de modus wanneer de server het einde van de spraak in de audiobuffer detecteert.

De server verzendt ook een conversation.item.created gebeurtenis met het gebruikersberichtitem dat is gemaakt op basis van de audiobuffer.

Event structure

{
  "type": "input_audio_buffer.speech_stopped",
  "audio_end_ms": 0,
  "item_id": "<item_id>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `input_audio_buffer.speech_stopped`.
audio_end_ms	integer	Milliseconden sinds de sessie is gestart toen spraak werd gestopt. Deze eigenschap komt overeen met het einde van de audio die naar het model wordt verzonden en bevat dus de `min_silence_duration_ms` geconfigureerde in de sessie.
item_id	string	De id van het gebruikersberichtitem dat is gemaakt.

rate_limits.updated

De server rate_limits.updated gebeurtenis wordt verzonden aan het begin van een reactie om de bijgewerkte frequentielimieten aan te geven.

Wanneer een antwoord wordt gemaakt, zijn sommige tokens gereserveerd voor de uitvoertokens. De frequentielimieten die hier worden weergegeven, weerspiegelen die reservering, die vervolgens dienovereenkomstig wordt aangepast zodra het antwoord is voltooid.

Event structure

{
  "type": "rate_limits.updated",
  "rate_limits": [
    {
      "name": "<name>",
      "limit": 0,
      "remaining": 0,
      "reset_seconds": 0
    }
  ]
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `rate_limits.updated`.
rate_limits	matrix van RealtimeRateLimitsItem	De lijst met frequentielimietgegevens.

response.audio.delta

De servergebeurtenis response.audio.delta wordt geretourneerd wanneer de door het model gegenereerde audio wordt bijgewerkt.

Event structure

{
  "type": "response.audio.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.audio.delta`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item.
output_index	integer	De index van het uitvoeritem in het antwoord.
content_index	integer	De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta	string	Met Base64 gecodeerde audiogegevens delta.

response.audio.done

De servergebeurtenis response.audio.done wordt geretourneerd wanneer de door het model gegenereerde audio wordt uitgevoerd.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.audio.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.audio.done`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item.
output_index	integer	De index van het uitvoeritem in het antwoord.
content_index	integer	De index van het inhoudsonderdeel in de inhoudsmatrix van het item.

response.audio_transcript.delta

De servergebeurtenis response.audio_transcript.delta wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer wordt bijgewerkt.

Event structure

{
  "type": "response.audio_transcript.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.audio_transcript.delta`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item.
output_index	integer	De index van het uitvoeritem in het antwoord.
content_index	integer	De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta	string	De transcript delta.

response.audio_transcript.done

De servergebeurtenis response.audio_transcript.done wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.audio_transcript.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "transcript": "<transcript>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.audio_transcript.done`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item.
output_index	integer	De index van het uitvoeritem in het antwoord.
content_index	integer	De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
transcript	string	Het laatste transcript van de audio.

response.function_call_arguments.delta

De servergebeurtenis response.function_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten worden bijgewerkt.

Event structure

{
  "type": "response.function_call_arguments.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "delta": "<delta>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.function_call_arguments.delta`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item van de functie-aanroep.
output_index	integer	De index van het uitvoeritem in het antwoord.
call_id	string	De id van de functie-aanroep.
delta	string	De argumenten verschillen als een JSON-tekenreeks.

response.function_call_arguments.done

De servergebeurtenis response.function_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten klaar zijn met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.function_call_arguments.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "arguments": "<arguments>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.function_call_arguments.done`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item van de functie-aanroep.
output_index	integer	De index van het uitvoeritem in het antwoord.
call_id	string	De id van de functie-aanroep.
arguments	string	De laatste argumenten als een JSON-tekenreeks.

mcp_list_tools.in_progress

De servergebeurtenis mcp_list_tools.in_progress wordt geretourneerd wanneer de service begint met het weergeven van beschikbare hulpprogramma's van een mcp-server.

Event structure

{
  "type": "mcp_list_tools.in_progress",
  "item_id": "<mcp_list_tools_item_id>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `mcp_list_tools.in_progress`.
item_id	string	De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

mcp_list_tools.completed

De servergebeurtenis mcp_list_tools.completed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server heeft voltooid.

Event structure

{
  "type": "mcp_list_tools.completed",
  "item_id": "<mcp_list_tools_item_id>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `mcp_list_tools.completed`.
item_id	string	De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

mcp_list_tools.failed

De servergebeurtenis mcp_list_tools.failed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server niet kan vermelden.

Event structure

{
  "type": "mcp_list_tools.failed",
  "item_id": "<mcp_list_tools_item_id>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `mcp_list_tools.failed`.
item_id	string	De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

response.mcp_call_arguments.delta

De servergebeurtenis response.mcp_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten worden bijgewerkt.

Event structure

{
  "type": "response.mcp_call_arguments.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "delta": "<delta>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.mcp_call_arguments.delta`.
response_id	string	De id van het antwoord.
item_id	string	De id van het aanroepitem van het mcp-hulpprogramma.
output_index	integer	De index van het uitvoeritem in het antwoord.
delta	string	De argumenten verschillen als een JSON-tekenreeks.

response.mcp_call_arguments.done

De servergebeurtenis response.mcp_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten klaar zijn met streamen.

Event structure

{
  "type": "response.mcp_call_arguments.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "arguments": "<arguments>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.mcp_call_arguments.done`.
response_id	string	De id van het antwoord.
item_id	string	De id van het aanroepitem van het mcp-hulpprogramma.
output_index	integer	De index van het uitvoeritem in het antwoord.
arguments	string	De laatste argumenten als een JSON-tekenreeks.

response.mcp_call.in_progress

De servergebeurtenis response.mcp_call.in_progress wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep wordt gestart met verwerken.

Event structure

{
  "type": "response.mcp_call.in_progress",
  "item_id": "<item_id>",
  "output_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.mcp_call.in_progress`.
item_id	string	De id van het aanroepitem van het mcp-hulpprogramma.
output_index	integer	De index van het uitvoeritem in het antwoord.

response.mcp_call.completed

De servergebeurtenis response.mcp_call.completed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep is voltooid.

Event structure

{
  "type": "response.mcp_call.completed",
  "item_id": "<item_id>",
  "output_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.mcp_call.completed`.
item_id	string	De id van het aanroepitem van het mcp-hulpprogramma.
output_index	integer	De index van het uitvoeritem in het antwoord.

response.mcp_call.failed

De servergebeurtenis response.mcp_call.failed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep mislukt.

Event structure

{
  "type": "response.mcp_call.failed",
  "item_id": "<item_id>",
  "output_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.mcp_call.failed`.
item_id	string	De id van het aanroepitem van het mcp-hulpprogramma.
output_index	integer	De index van het uitvoeritem in het antwoord.

response.output_item.added

De servergebeurtenis response.output_item.added wordt geretourneerd wanneer er een nieuw item wordt gemaakt tijdens het genereren van het antwoord.

Event structure

{
  "type": "response.output_item.added",
  "response_id": "<response_id>",
  "output_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.output_item.added`.
response_id	string	De id van het antwoord waartoe het item behoort.
output_index	integer	De index van het uitvoeritem in het antwoord.
item	RealtimeConversationResponseItem	Het item dat is toegevoegd.

response.output_item.done

De servergebeurtenis response.output_item.done wordt geretourneerd wanneer een item klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.output_item.done",
  "response_id": "<response_id>",
  "output_index": 0
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.output_item.done`.
response_id	string	De id van het antwoord waartoe het item behoort.
output_index	integer	De index van het uitvoeritem in het antwoord.
item	RealtimeConversationResponseItem	Het item dat is gestreamd.

response.text.delta

De servergebeurtenis response.text.delta wordt geretourneerd wanneer de door het model gegenereerde tekst wordt bijgewerkt. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Event structure

{
  "type": "response.text.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.text.delta`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item.
output_index	integer	De index van het uitvoeritem in het antwoord.
content_index	integer	De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta	string	De tekst delta.

response.text.done

De servergebeurtenis response.text.done wordt geretourneerd wanneer de door het model gegenereerde tekst wordt gestreamd. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.text.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "text": "<text>"
}

Properties

Field	Type	Description
type	string	Het gebeurtenistype moet zijn `response.text.done`.
response_id	string	De id van het antwoord.
item_id	string	De id van het item.
output_index	integer	De index van het uitvoeritem in het antwoord.
content_index	integer	De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
text	string	De uiteindelijke tekstinhoud.

Components

Audio Formats

RealtimeAudioFormat

Basisaudio-indeling die wordt gebruikt voor invoeraudio.

Allowed Values:

pcm16 - 16-bits PCM-audio-indeling
g711_ulaw - G.711 μ-law audio-indeling
g711_alaw - G.711 A-law audio-indeling

RealtimeOutputAudioFormat

Audio-indeling die wordt gebruikt voor uitvoeraudio met specifieke samplingfrequenties.

Allowed Values:

pcm16 - 16-bits PCM-audio-indeling met standaardsamplingfrequentie (24kHz)
pcm16_8000hz - 16-bits PCM-audio-indeling met een samplingfrequentie van 8 kHz
pcm16_16000hz - 16-bits PCM-audio-indeling met een samplingfrequentie van 16kHz
g711_ulaw - G.711 μ-law audioformaat (mu-law) met een samplingfrequentie van 8kHz
g711_alaw - G.711 A-law audio-indeling bij 8kHz samplingfrequentie

RealtimeAudioInputTranscriptionSettings

Configuratie voor audiotranscriptie van invoer.

Field	Type	Description
model	string	Het transcriptiemodel. Ondersteund met `gpt-realtime` en `gpt-realtime-mini`: `whisper-1`, `gpt-4o-transcribe`, `gpt-4o-mini-transcribe`, `gpt-4o-transcribe-diarize` Ondersteund met alle andere modellen en agents: `azure-speech`
language	string	Optionele taalcode in BCP-47 (bijvoorbeeld `en-US`) of ISO-639-1 (bijvoorbeeld `en`) of meerdere talen met automatische detectie (bijvoorbeeld `en,zh`). Zie ondersteunde talen voor spraak-naar-tekst in Azure voor aanbevolen gebruik van deze instelling.
custom_speech	object	Optionele configuratie voor aangepaste spraakmodellen, alleen geldig voor `azure-speech` het model.
phrase_list	string[]	Optionele lijst met woordgroepentips voor herkenning van vooroordelen, alleen geldig voor `azure-speech` het model.
prompt	string	Optionele prompttekst om transcriptie te begeleiden, alleen geldig voor `whisper-1`, `gpt-4o-transcribegpt-4o-mini-transcribe` en `gpt-4o-transcribe-diarize` modellen.

RealtimeInputAudioNoiseReductionSettings

Dit kan het volgende zijn:

Een RealtimeOpenAINoiseReductieobject
Een RealtimeAzureDeepNoiseSuppression-object

RealtimeOpenAINoiseReduction

OpenAI-ruisreductieconfiguratie met expliciet typeveld, alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.

Field	Type	Description
type	string	`near_field` of `far_field`

RealtimeAzureDeepNoiseSuppression

Configuratie voor geluidsruisonderdrukking voor invoer.

Field	Type	Description
type	string	Moet `"azure_deep_noise_suppression"` zijn

RealtimeInputAudioEchoCancellationSettings

Echo-annuleringsconfiguratie voor audioverwerking aan de serverzijde.

Field	Type	Description
type	string	Moet `"server_echo_cancellation"` zijn

Voice Configuration

RealtimeVoice

Samenvoeging van alle ondersteunde spraakconfiguraties.

Dit kan het volgende zijn:

Een RealtimeOpenAIVoice-object
Een RealtimeAzureVoice-object

RealtimeOpenAIVoice

OpenAI-spraakconfiguratie met expliciet typeveld.

Field	Type	Description
type	string	Moet `"openai"` zijn
name	string	OpenAI-stemnaam: , , , , , `alloy`, `ashballadcoralechosageshimmerversemarincedar`

RealtimeAzureVoice

Basis voor Azure-spraakconfiguraties. Dit is een gediscrimineerde samenvoeging met verschillende typen:

RealtimeAzureStandardVoice

Standaard spraakconfiguratie van Azure.

Field	Type	Description
type	string	Moet `"azure-standard"` zijn
name	string	Spraaknaam (mag niet leeg zijn)
temperature	number	Optional. Temperatuur tussen 0,0 en 1.0
custom_lexicon_url	string	Optional. URL naar aangepast lexicon
custom_text_normalization_url	string	Optional. URL naar aangepaste tekstnormalisatie
prefer_locales	string[]	Optional. Preferred locales Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt. Als u de prefer_locales `["en-GB", "es-ES"]`instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locale	string	Optional. Locale specification Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel bijvoorbeeld de landinstelling in op `en-US`TTS, dan gebruikt TTS altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
style	string	Optional. Voice style
pitch	string	Optional. Pitch adjustment
rate	string	Optional. Aanpassing van spraaksnelheid
volume	string	Optional. Volume adjustment

RealtimeAzureCustomVoice

Aangepaste spraakconfiguratie van Azure (voorkeur voor aangepaste stemmen).

Field	Type	Description
type	string	Moet `"azure-custom"` zijn
name	string	Spraaknaam (mag niet leeg zijn)
endpoint_id	string	Eindpunt-id (mag niet leeg zijn)
temperature	number	Optional. Temperatuur tussen 0,0 en 1.0
custom_lexicon_url	string	Optional. URL naar aangepast lexicon
custom_text_normalization_url	string	Optional. URL naar aangepaste tekstnormalisatie
prefer_locales	string[]	Optional. Preferred locales Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt. Als u de prefer_locales `["en-GB", "es-ES"]`instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locale	string	Optional. Locale specification Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling `en-US`bijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
style	string	Optional. Voice style
pitch	string	Optional. Pitch adjustment
rate	string	Optional. Aanpassing van spraaksnelheid
volume	string	Optional. Volume adjustment

Example:

{
  "type": "azure-custom",
  "name": "my-custom-voice",
  "endpoint_id": "12345678-1234-1234-1234-123456789012",
  "temperature": 0.7,
  "style": "cheerful",
  "locale": "en-US"
}

RealtimeAzurePersonalVoice

Persoonlijke spraakconfiguratie van Azure.

Field	Type	Description
type	string	Moet `"azure-personal"` zijn
name	string	Spraaknaam (mag niet leeg zijn)
temperature	number	Optional. Temperatuur tussen 0,0 en 1.0
model	string	Onderliggend basismodel: `DragonLatestNeural`, `DragonHDOmniLatestNeuralMAI-Voice-1`
custom_lexicon_url	string	Optional. URL naar aangepast lexicon
custom_text_normalization_url	string	Optional. URL naar aangepaste tekstnormalisatie
prefer_locales	string[]	Optional. Preferred locales Voorkeur voor landinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt. Als u de prefer_locales `["en-GB", "es-ES"]`instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locale	string	Optional. Locale specification Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling `en-US`bijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
pitch	string	Optional. Pitch adjustment
rate	string	Optional. Aanpassing van spraaksnelheid
volume	string	Optional. Volume adjustment

Turn Detection

RealtimeTurnDetection

Configuratie voor turndetectie. Dit is een gediscrimineerde vereniging die meerdere VAD-typen ondersteunt.

RealtimeServerVAD

Basis-VAD-schakeldetectie.

Field	Type	Description
type	string	Moet `"server_vad"` zijn
threshold	float	Optional. Activeringsdrempel (0.0-1.0) (standaard: 0,5)
prefix_padding_ms	integer	Optional. Audioopvulling voordat spraak wordt gestart (standaard: 300)
silence_duration_ms	integer	Optional. Stilteduur voor het detecteren van spraakeinde (standaard: 500)
speech_duration_ms	integer	Optional. Minimale spraakduur (standaard: 200)
end_of_utterance_detection	RealtimeEOUDetection	Optional. Configuratie voor detectie van end-of-utterance
create_response	boolean	Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response	boolean	Optional. Onderbreking van barge in- of uitschakelen (standaard: true).
auto_truncate	boolean	Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)

RealtimeOpenAISemanticVAD

OpenAI semantische VAD-configuratie die gebruikmaakt van een model om te bepalen wanneer de gebruiker klaar is met spreken. Alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.

Field	Type	Description
type	string	Moet `"semantic_vad"` zijn
eagerness	string	Optional. Dit is een manier om te bepalen hoe geneigd het model is om de gebruiker te onderbreken door de maximale wachttijd in te stellen. In de transcriptiemodus, zelfs als het model niet reageert, is dit van invloed op de manier waarop de audio wordt gesegmenteerd. De volgende waarden zijn toegestaan: - `auto` (standaard) is gelijk aan `medium`, - `low` laat de gebruiker de tijd nemen om te spreken, - `high` zal de audio zo snel mogelijk in stukken verdelen. Als u wilt dat het model vaker reageert in de gespreksmodus, of als u sneller transcriptiegebeurtenissen wilt ontvangen in de transcriptiemodus, kunt u het eagerness-niveau instellen op `high`. Als u daarentegen de gebruiker ononderbroken wilt laten spreken in de gespreksmodus, of als u grotere transcriptiefragmenten in de transcriptiemodus wilt, kunt u de bereidheid instellen op `low`.
create_response	boolean	Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response	boolean	Optional. Onderbreking van barge in- of uitschakelen (standaard: true).

RealtimeAzureSemanticVAD

Azure-semantische VAD, die bepaalt wanneer de gebruiker begint en spreekt met behulp van een semantisch spraakmodel, wat robuustere detectie biedt in luidruchtige omgevingen.

Field	Type	Description
type	string	Moet `"azure_semantic_vad"` zijn
threshold	float	Optional. Activeringsdrempel (standaard: 0.5)
prefix_padding_ms	integer	Optional. Audioopvulling vóór spraak (standaard: 300)
silence_duration_ms	integer	Optional. Stilteduur voor spraakeinde (standaard: 500)
end_of_utterance_detection	RealtimeEOUDetection	Optional. Configuratie van EOU-detectie
speech_duration_ms	integer	Optional. Minimale spraakduur (standaard: 80)
remove_filler_words	boolean	Optional. Opvulwoorden verwijderen (standaard: onwaar)
languages	string[]	Optional. Supports English. Andere talen worden genegeerd (standaard: geen).
create_response	boolean	Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response	boolean	Optional. Onderbreking van barge in- of uitschakelen (standaard: true).
auto_truncate	boolean	Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)

RealtimeAzureSemanticVADMultilingual

Azure semantische VAD (standaardvariant).

Field	Type	Description
type	string	Moet `"azure_semantic_vad_multilingual"` zijn
threshold	float	Optional. Activeringsdrempel (standaard: 0.5)
prefix_padding_ms	integer	Optional. Audioopvulling vóór spraak (standaard: 300)
silence_duration_ms	integer	Optional. Stilteduur voor spraakeinde (standaard: 500)
end_of_utterance_detection	RealtimeEOUDetection	Optional. Configuratie van EOU-detectie
speech_duration_ms	integer	Optional. Minimale spraakduur (standaard: 80)
remove_filler_words	boolean	Optional. Opvulwoorden verwijderen (standaard: onwaar)
languages	string[]	Optional. Ondersteunt Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi. Andere talen worden genegeerd (standaard: geen).
create_response	boolean	Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response	boolean	Optional. Onderbreking van barge in- of uitschakelen (standaard: true).
auto_truncate	boolean	Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)

RealtimeEOUDetection

Azure End-of-Utterance (EOU) kan aangeven wanneer de eindgebruiker stopte met spreken terwijl natuurlijke pauzes mogelijk zijn. De detectie van het einde van een uiting kan voortijdige beurt-eind-signalen aanzienlijk verminderen zonder merkbare latentie voor de gebruiker toe te voegen.

Field	Type	Description
model	string	Kan ondersteuning bieden `semantic_detection_v1` voor Engels of `semantic_detection_v1_multilingual` ondersteuning bieden voor Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi
threshold_level	string	Optional. Detectiedrempelniveau (`low`, `mediumhigh` en`default`), de standaardwaarde is gelijk aan `medium` de instelling. Met een lagere instelling is de kans groter dat de zin is voltooid.
timeout_ms	number	Optional. Maximale tijd in milliseconden om te wachten op meer spraak van de gebruiker. De standaardwaarde is 1000 ms.

Avatar Configuration

RealtimeAvatarConfig

Configuratie voor avatarstreaming en gedrag.

Field	Type	Description
ice_servers	RealtimeIceServer[]	Optional. ICE-servers voor WebRTC
character	string	Tekennaam of id voor de avatar
style	string	Optional. Avatarstijl (emotionele toon, spreekstijl)
customized	boolean	Of de avatar is aangepast
video	RealtimeVideoParams	Optional. Video configuration
scene	RealtimeAvatarScene	Optional. Configuratie voor het zoomniveau, de positie, de draaiing en de bewegingsamplitude van de avatar in het videoframe
output_protocol	string	Optional. Outputprotocol voor avatarstreaming. De standaardwaarde is `webrtc`
output_audit_audio	boolean	Optional. Wanneer deze optie is ingeschakeld, stuurt u auditaudio door via WebSocket voor controle-/foutopsporingsdoeleinden, zelfs wanneer avatar-uitvoer wordt geleverd via WebRTC. De standaardwaarde is `false`

RealtimeIceServer

ICE-serverconfiguratie voor webRTC-verbindingsonderhandeling.

Field	Type	Description
urls	string[]	ICE-server-URL's (TURN- of STUN-eindpunten)
username	string	Optional. Gebruikersnaam voor verificatie
credential	string	Optional. Referentie voor verificatie

RealtimeVideoParams

Parameters voor videostreaming voor avatar.

Field	Type	Description
bitrate	integer	Optional. Bitrate in bits per seconde (standaard: 2000000)
codec	string	Optional. Videocodec, momenteel alleen `h264` (standaard: `h264`)
crop	RealtimeVideoCrop	Optional. Cropping settings
resolution	RealtimeVideoResolution	Optional. Resolution settings

RealtimeVideoCrop

Definitie van rechthoek bijsnijden van video.

Field	Type	Description
top_left	integer[]	Linkerbovenhoek [x, y], niet-negatieve gehele getallen
bottom_right	integer[]	Rechterbenedenhoek [x, y], niet-negatieve gehele getallen

RealtimeVideoResolution

Specificatie van videoresolutie.

Field	Type	Description
width	integer	Breedte in pixels (moet 0 zijn > )
height	integer	Hoogte in pixels (moet 0 zijn > )

RealtimeAvatarScene

Configuratie voor het zoomniveau, positie, draaiing en bewegingsamplitude van avatar in het videoframe.

Field	Type	Description
zoom	number	Optional. Zoomniveau van de avatar. Bereik is (0, +∞). Waarden kleiner dan 1 uitzoomen, waarden groter dan 1 inzoomen. De standaardwaarde is 0
position_x	number	Optional. Horizontale positie van de avatar. Bereik is [-1, 1], als een verhouding van de breedte van het frame. Negatieve waarden worden naar links verplaatst, positieve waarden naar rechts gaan. De standaardwaarde is 0
position_y	number	Optional. Verticale positie van de avatar. Bereik is [-1, 1], als een verhouding van de framehoogte. Negatieve waarden worden omhoog verplaatst, positieve waarden omlaag gaan. De standaardwaarde is 0
rotation_x	number	Optional. Draaien rond de X-as (pitch). Het bereik is [-π, π] in radialen. Negatieve waarden draaien omhoog, positieve waarden draaien omlaag. De standaardwaarde is 0
rotation_y	number	Optional. Draaien rond de Y-as (yaw). Het bereik is [-π, π] in radialen. Negatieve waarden draaien links, positieve waarden draaien naar rechts. De standaardwaarde is 0
rotation_z	number	Optional. Draaien rond de Z-as (roll). Het bereik is [-π, π] in radialen. Negatieve waarden draaien anticlockwise, positieve waarden draaien rechtsom. De standaardwaarde is 0
amplitude	number	Optional. Amplitude van de avatarbeweging. Bereik is (0, 1]. Waarden in (0, 1) gemiddelde verminderde amplitude, 1 betekent volledige amplitude. De standaardwaarde is 0

Animation Configuration

RealtimeAnimation

Configuratie voor animatie-uitvoer, waaronder blendshapes en visemes.

Field	Type	Description
model_name	string	Optional. Naam animatiemodel (standaard: `"default"`)
outputs	RealtimeAnimationOutputType[]	Optional. Uitvoertypen (standaard: `["blendshapes"]`)

RealtimeAnimationOutputType

Typen animatiegegevens die moeten worden uitgevoerd.

Allowed Values:

blendshapes - Gegevens van gezichtsmixvormen
viseme_id - Gegevens van Viseme-id

Session Configuration

RealtimeRequestSession

Sessieconfiguratieobject gebruikt in session.update gebeurtenissen.

Field	Type	Description
model	string	Optional. Modelnaam die moet worden gebruikt
modalities	RealtimeModality[]	Optional. De ondersteunde uitvoermodaliteiten voor de sessie. Zo is 'modaliteiten': ["text", "audio"] de standaardinstelling waarmee zowel tekst- als audio-uitvoermodaliteiten mogelijk zijn. Als u alleen tekstuitvoer wilt inschakelen, stelt u 'modaliteiten' in: ["text"]. Als u avataruitvoer wilt inschakelen, stelt u 'modaliteiten' in: ["text", "audio", "avatar"]. U kunt alleen audio niet inschakelen.
animation	RealtimeAnimation	Optional. Animation configuration
voice	RealtimeVoice	Optional. Voice configuration
instructions	string	Optional. Systeeminstructies voor het model. De instructies kunnen de uitvoeraudio begeleiden als OpenAI-stemmen worden gebruikt, maar mogelijk niet van toepassing zijn op Azure-stemmen.
input_audio_sampling_rate	integer	Optional. Invoergeluidsamplingfrequentie in Hz (standaard: 24000 voor `pcm16`, 8000 voor `g711_ulaw` en `g711_alaw`)
input_audio_format	RealtimeAudioFormat	Optional. Audio-indeling voor invoer (standaard: `pcm16`)
output_audio_format	RealtimeOutputAudioFormat	Optional. Audio-indeling voor uitvoer (standaard: `pcm16`)
input_audio_noise_reduction	RealtimeInputAudioNoiseReductionSettings	Configuratie voor geluidsruisonderdrukking voor invoer. Dit kan worden ingesteld op null om uit te schakelen. Ruisreductiefilters verwerken de audio voordat deze aan de invoeraudiobuffer wordt toegevoegd en naar VAD en het model wordt verzonden. Het filteren van de audio kan de VAD verbeteren en de nauwkeurigheid van draaidetectie (fout-positieven verminderen) en modelprestaties verbeteren door de perceptie van de invoeraudio te verbeteren. Deze eigenschap kan null worden gebruikt.
input_audio_echo_cancellation	RealtimeInputAudioEchoCancellationSettings	Configuratie voor het annuleren van audio-echo-invoer. Dit kan worden ingesteld op null om uit te schakelen. Deze echoannulering aan de servicezijde kan helpen de kwaliteit van de invoeraudio te verbeteren door de impact van echo en reverberatie te verminderen. Deze eigenschap kan null worden gebruikt.
input_audio_transcription	RealtimeAudioInputTranscriptionSettings	De configuratie voor audiotranscriptie van invoer. De configuratie is standaard null (uit). Transcriptie van invoeraudio is niet systeemeigen voor het model, omdat het model rechtstreeks audio verbruikt. Transcriptie wordt asynchroon uitgevoerd via het `/audio/transcriptions` eindpunt en moet worden behandeld als richtlijnen voor invoeraudio-inhoud in plaats van precies wat het model heeft gehoord. Voor aanvullende richtlijnen voor de transcriptieservice kan de client desgewenst de taal instellen en vragen om transcriptie. Deze eigenschap kan null worden gebruikt.
turn_detection	RealtimeTurnDetection	De instellingen voor draaidetectie voor de sessie. Dit kan worden ingesteld op null om uit te schakelen.
tools	matrix van RealtimeTool	De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice	RealtimeToolChoice	De keuze voor het hulpprogramma voor de sessie. Toegestane waarden: `auto`, `none`en `required`. Anders kunt u de naam opgeven van de functie die u wilt gebruiken.
temperature	number	De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens	geheel getal of "inf"	Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen. Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan. Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in `"max_response_output_tokens": 1000`. Als u het maximum aantal tokens wilt toestaan, stelt u het in `"max_response_output_tokens": "inf"`. Standaardwaarde is `"inf"`.
reasoning_effort	ReasoningEffort	Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg het Azure Foundry-document voor meer informatie. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.
avatar	RealtimeAvatarConfig	Optional. Avatar configuration
output_audio_timestamp_types	RealtimeAudioTimestampType[]	Optional. Tijdstempeltypen voor uitvoeraudio

RealtimeModality

Ondersteunde sessie-uitvoermodaliteiten.

Allowed Values:

text - Tekstuitvoer
audio - Audio-uitvoer
animation - Animatie-uitvoer
avatar - Avatar video-uitvoer

RealtimeAudioTimestampType

Typen uitvoertijdstempels die worden ondersteund in audioantwoordinhoud.

Allowed Values:

word - Tijdstempels per woord in de uitvoeraudio

ReasoningEffort

Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.

Allowed Values:

none - Geen redeneringsinspanning
minimal - Minimale redeneringsinspanning
low - Lage redeneringsinspanning - snellere antwoorden met minder redenering
medium - Gemiddelde redeneringsinspanning - evenwicht tussen snelheid en redeneringsdiepte
high - Hoge redeneringsinspanning - grondigere redenering, kan langer duren
xhigh - Extra hoge redeneringsinspanning - maximale redeneringsdiepte

Tool Configuration

We ondersteunen twee typen hulpprogramma's: functie-aanroepen en MCP-hulpprogramma's waarmee u verbinding kunt maken met een mcp-server.

RealtimeTool

Hulpprogrammadefinitie voor het aanroepen van functies.

Field	Type	Description
type	string	Moet `"function"` zijn
name	string	Function name
description	string	Richtlijnen voor functiebeschrijving en gebruik
parameters	object	Functieparameters als JSON-schemaobject

RealtimeToolChoice

Strategie voor selectie van hulpprogramma's.

Dit kan het volgende zijn:

"auto" - Laat het model kiezen
"none" - Gebruik geen hulpprogramma's
"required" - Moet een hulpprogramma gebruiken
{ "type": "function", "name": "function_name" } - Specifieke functie gebruiken

MCPTool

CONFIGURATIE van MCP-hulpprogramma's.

Field	Type	Description
type	string	Moet `"mcp"` zijn
server_label	string	Required. Het label van de MCP-server.
server_url	string	Required. De server-URL van de MCP-server.
allowed_tools	string[]	Optional. De lijst met toegestane namen van hulpprogramma's. Als dit niet is opgegeven, zijn alle hulpprogramma's toegestaan.
headers	object	Optional. Extra headers die moeten worden opgenomen in MCP-aanvragen.
authorization	string	Optional. Autorisatietoken voor MCP-aanvragen.
require_approval	tekenreeks of woordenlijst	Optional. Als deze optie is ingesteld op een tekenreeks, moet de waarde zijn `never` of `always`. Als deze optie is ingesteld op een woordenlijst, moet deze een indeling `{"never": ["<tool_name_1>", "<tool_name_2>"], "always": ["<tool_name_3>"]}`hebben. De standaardwaarde is `always`. Als dit is ingesteld `always`op, vereist de uitvoering van het hulpprogramma goedkeuring, wordt mcp_approval_request verzonden naar de client wanneer het mcp-argument is voltooid en wordt alleen uitgevoerd wanneer mcp_approval_response met `approve=true` is ontvangen. Wanneer dit is ingesteld `never`, wordt het hulpprogramma automatisch uitgevoerd zonder goedkeuring.

RealtimeConversationResponseItem

Dit is een samenvoegtype dat een van de volgende opties kan zijn:

RealtimeConversationUserMessageItem

Gebruikersberichtitem.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"message"` zijn
object	string	Moet `"conversation.item"` zijn
role	string	Moet `"user"` zijn
content	RealtimeInputTextContentPart	De inhoud van het bericht.
status	RealtimeItemStatus	De status van het item.

RealtimeConversationAssistantMessageItem

Berichtitem assistent.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"message"` zijn
object	string	Moet `"conversation.item"` zijn
role	string	Moet `"assistant"` zijn
content	RealtimeOutputTextContentPart[] of RealtimeOutputAudioContentPart[]	De inhoud van het bericht.
status	RealtimeItemStatus	De status van het item.

RealtimeConversationSystemMessageItem

Systeemberichtitem.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"message"` zijn
object	string	Moet `"conversation.item"` zijn
role	string	Moet `"system"` zijn
content	RealtimeInputTextContentPart[]	De inhoud van het bericht.
status	RealtimeItemStatus	De status van het item.

RealtimeConversationFunctionCallItem

Aanvraagitem voor functieoproep.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"function_call"` zijn
object	string	Moet `"conversation.item"` zijn
name	string	De naam van de functie die moet worden aangeroepen.
arguments	string	De argumenten voor de functie-aanroep als een JSON-tekenreeks.
call_id	string	De unieke id van de functie-aanroep.
status	RealtimeItemStatus	De status van het item.

RealtimeConversationFunctionCallOutputItem

Antwoorditem van functieoproep.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"function_call_output"` zijn
object	string	Moet `"conversation.item"` zijn
name	string	De naam van de functie die is aangeroepen.
output	string	De uitvoer van de functie-aanroep.
call_id	string	De unieke id van de functie-aanroep.
status	RealtimeItemStatus	De status van het item.

RealtimeConversationMCPListToolsItem

McP-lijsthulpprogramma's antwoorditem.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"mcp_list_tools"` zijn
server_label	string	Het label van de MCP-server.

RealtimeConversationMCPCallItem

MCP-oproepantwoorditem.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"mcp_call"` zijn
server_label	string	Het label van de MCP-server.
name	string	De naam van het hulpprogramma dat moet worden aangeroepen.
approval_request_id	string	De goedkeuringsaanvraag-id voor de MCP-aanroep.
arguments	string	De argumenten voor de MCP-aanroep.
output	string	De uitvoer van de MCP-aanroep.
error	object	De foutdetails als de MCP-aanroep is mislukt.

RealtimeConversationMCPApprovalRequestItem

MCP-goedkeuringsaanvraagitem.

Field	Type	Description
id	string	De unieke id van het item.
type	string	Moet `"mcp_approval_request"` zijn
server_label	string	Het label van de MCP-server.
name	string	De naam van het hulpprogramma dat moet worden aangeroepen.
arguments	string	De argumenten voor de MCP-aanroep.

RealtimeItemStatus

Status van gespreksitems.

Allowed Values:

in_progress - Momenteel verwerkt
completed -Voltooid
incomplete - Onvolledig (onderbroken of mislukt)

RealtimeContentPart

Inhoudsonderdeel binnen een bericht.

RealtimeInputTextContentPart

Tekstinhoudsonderdeel.

Field	Type	Description
type	string	Moet `"input_text"` zijn
text	string	De tekstinhoud

RealtimeOutputTextContentPart

Tekstinhoudsonderdeel.

Field	Type	Description
type	string	Moet `"text"` zijn
text	string	De tekstinhoud

RealtimeInputAudioContentPart

Audio-inhoudsonderdeel.

Field	Type	Description
type	string	Moet `"input_audio"` zijn
audio	string	Optional. Met Base64 gecodeerde audiogegevens
transcript	string	Optional. Audio transcript

RealtimeOutputAudioContentPart

Audio-inhoudsonderdeel.

Field	Type	Description
type	string	Moet `"audio"` zijn
audio	string	Met Base64 gecodeerde audiogegevens
transcript	string	Optional. Audio transcript

Response Objects

RealtimeResponse

Antwoordobject dat een modeldeductieantwoord vertegenwoordigt.

Field	Type	Description
id	string	Optional. Response ID
object	string	Optional. Altijd `"realtime.response"`
status	RealtimeResponseStatus	Optional. Response status
status_details	RealtimeResponseStatusDetails	Optional. Status details
output	RealtimeConversationResponseItem[]	Optional. Output items
usage	RealtimeUsage	Optional. Gebruiksstatistieken van tokens
conversation_id	string	Optional. Gekoppelde gespreks-id
voice	RealtimeVoice	Optional. Spraak die wordt gebruikt voor antwoord
modalities	string[]	Optional. Gebruikte uitvoermodaliteiten
output_audio_format	RealtimeOutputAudioFormat	Optional. Gebruikte audio-indeling
temperature	number	Optional. Temperature used
max_response_output_tokens	geheel getal of "inf"	Optional. Maximum aantal gebruikte tokens

RealtimeResponseStatus

Antwoordstatuswaarden.

Allowed Values:

in_progress - Antwoord wordt gegenereerd
completed - Antwoord is voltooid
cancelled - Antwoord is geannuleerd
incomplete - Antwoord onvolledig (onderbroken)
failed - Antwoord mislukt met fout

RealtimeUsage

Gebruiksstatistieken van tokens.

Field	Type	Description
total_tokens	integer	Totaal aantal gebruikte tokens
input_tokens	integer	Gebruikte invoertokens
output_tokens	integer	Gegenereerde uitvoertokens
input_token_details	TokenDetails	Uitsplitsing van invoertokens
output_token_details	TokenDetails	Uitsplitsing van uitvoertokens

TokenDetails

Gedetailleerde uitsplitsing van tokengebruik.

Field	Type	Description
cached_tokens	integer	Optional. Gebruikte tokens in cache
text_tokens	integer	Optional. Gebruikte teksttokens
audio_tokens	integer	Optional. Gebruikte audiotokens

Error Handling

RealtimeErrorDetails

Foutinformatieobject.

Field	Type	Description
type	string	Fouttype (bijvoorbeeld `"invalid_request_error"`, `"server_error"`)
code	string	Optional. Specifieke foutcode
message	string	Beschrijving van door mensen leesbare fout
param	string	Optional. Parameter met betrekking tot de fout
event_id	string	Optional. Id van de client gebeurtenis die de fout heeft veroorzaakt

RealtimeConversationRequestItem

U gebruikt het RealtimeConversationRequestItem object om een nieuw item in het gesprek te maken via de gebeurtenis conversation.item.create .

Dit is een samenvoegtype dat een van de volgende opties kan zijn:

RealtimeSystemMessageItem

Een systeemberichtitem.

Field	Type	Description
type	string	Het type item. Toegestane waarden: `message`
role	string	De rol van het bericht. Toegestane waarden: `system`
content	matrix van RealtimeInputTextContentPart	De inhoud van het bericht.
id	string	De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeUserMessageItem

Een gebruikersberichtitem.

Field	Type	Description
type	string	Het type item. Toegestane waarden: `message`
role	string	De rol van het bericht. Toegestane waarden: `user`
content	matrix van RealtimeInputTextContentPart of RealtimeInputAudioContentPart	De inhoud van het bericht.
id	string	De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeAssistantMessageItem

Een assistentberichtitem.

Field	Type	Description
type	string	Het type item. Toegestane waarden: `message`
role	string	De rol van het bericht. Toegestane waarden: `assistant`
content	matrix van RealtimeOutputTextContentPart	De inhoud van het bericht.

RealtimeFunctionCallItem

Een functie-aanroepitem.

Field	Type	Description
type	string	Het type item. Toegestane waarden: `function_call`
name	string	De naam van de functie die moet worden aangeroepen.
arguments	string	De argumenten van de functie-aanroep als een JSON-tekenreeks.
call_id	string	De id van het item van de functie-aanroep.
id	string	De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeFunctionCallOutputItem

Een uitvoeritem van een functie-aanroep.

Field	Type	Description
type	string	Het type item. Toegestane waarden: `function_call_output`
call_id	string	De id van het item van de functie-aanroep.
output	string	De uitvoer van de functie-aanroep, dit is een vrije-vormtekenreeks met het functieresultaat, maar kan ook leeg zijn.
id	string	De unieke id van het item. Als de client geen id opgeeft, genereert de server er een.

RealtimeMCPApprovalResponseItem

Een MCP-goedkeuringsantwoorditem.

Field	Type	Description
type	string	Het type item. Toegestane waarden: `mcp_approval_response`
approve	boolean	Of de MCP-aanvraag is goedgekeurd.
approval_request_id	string	De id van de MCP-goedkeuringsaanvraag.
id	string	De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeFunctionTool

De definitie van een functiehulpprogramma dat wordt gebruikt door het realtime-eindpunt.

Field	Type	Description
type	string	Het type hulpprogramma. Toegestane waarden: `function`
name	string	De naam van de functie.
description	string	De beschrijving van de functie, inclusief gebruiksrichtlijnen. Gebruik deze functie bijvoorbeeld om de huidige tijd op te halen.
parameters	object	De parameters van de functie in de vorm van een JSON-object.

RealtimeItemStatus

Allowed Values:

in_progress
completed
incomplete

RealtimeResponseAudioContentPart

Field	Type	Description
type	string	Het type inhoudsonderdeel. Toegestane waarden: `audio`
transcript	string	Het transcript van de audio. Deze eigenschap kan null worden gebruikt.

RealtimeResponseFunctionCallItem

Field	Type	Description
type	string	Het type item. Toegestane waarden: `function_call`
name	string	De naam van het item van de functie-aanroep.
call_id	string	De id van het item van de functie-aanroep.
arguments	string	De argumenten van het functie-aanroepitem.
status	RealtimeItemStatus	De status van het item.

RealtimeResponseFunctionCallOutputItem

Field	Type	Description
type	string	Het type item. Toegestane waarden: `function_call_output`
call_id	string	De id van het item van de functie-aanroep.
output	string	De uitvoer van het functie-aanroepitem.

RealtimeResponseOptions

Field	Type	Description
modalities	array	De uitvoermodaliteiten voor het antwoord. Toegestane waarden: `text`, `audio` Is bijvoorbeeld `"modalities": ["text", "audio"]` de standaardinstelling waarmee zowel tekst- als audio-uitvoermodaliteiten mogelijk zijn. Als u alleen tekstuitvoer wilt inschakelen, stelt u in `"modalities": ["text"]`. U kunt alleen audio niet inschakelen.
instructions	string	De instructies (het systeembericht) om de antwoorden van het model te begeleiden.
voice	RealtimeVoice	De stem die wordt gebruikt voor het modelantwoord voor de sessie. Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
tools	matrix van RealtimeTool	De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice	RealtimeToolChoice	De keuze voor het hulpprogramma voor de sessie.
temperature	number	De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens	geheel getal of "inf"	Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen. Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan. Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in `"max_response_output_tokens": 1000`. Als u het maximum aantal tokens wilt toestaan, stelt u het in `"max_response_output_tokens": "inf"`. Standaardwaarde is `"inf"`.
reasoning_effort	ReasoningEffort	Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.
conversation	string	Hiermee bepaalt u aan welk gesprek het antwoord wordt toegevoegd. De ondersteunde waarden zijn `auto` en `none`. De `auto` waarde (of deze eigenschap niet instellen) zorgt ervoor dat de inhoud van het antwoord wordt toegevoegd aan het standaardgesprek van de sessie. Stel deze eigenschap in om `none` een out-of-band-antwoord te maken waarin items niet worden toegevoegd aan het standaardgesprek. Standaard ingesteld op `"auto"`
metadata	map	Set van maximaal 16 sleutel-waardeparen die aan een object kunnen worden gekoppeld. Dit kan handig zijn voor het opslaan van aanvullende informatie over het object in een gestructureerde indeling. Sleutels mogen maximaal 64 tekens lang zijn en waarden mogen maximaal 512 tekens lang zijn. Bijvoorbeeld: `metadata: { topic: "classification" }`

RealtimeResponseSession

Het RealtimeResponseSession object vertegenwoordigt een sessie in de Realtime-API. Deze wordt gebruikt in een aantal van de server gebeurtenissen, zoals:

session.created
session.updated

Field	Type	Description
object	string	Het sessieobject. Toegestane waarden: `realtime.session`
id	string	De unieke id van de sessie.
model	string	Het model dat wordt gebruikt voor de sessie.
modalities	array	De uitvoermodaliteiten voor de sessie. Toegestane waarden: `text`, `audio` Is bijvoorbeeld `"modalities": ["text", "audio"]` de standaardinstelling waarmee zowel tekst- als audio-uitvoermodaliteiten mogelijk zijn. Als u alleen tekstuitvoer wilt inschakelen, stelt u in `"modalities": ["text"]`. U kunt alleen audio niet inschakelen.
instructions	string	De instructies (het systeembericht) om de tekst- en audioreacties van het model te begeleiden. Hier volgen enkele voorbeelden van instructies voor het begeleiden van inhoud en indeling van tekst- en audioantwoorden: `"instructions": "be succinct"` `"instructions": "act friendly"` `"instructions": "here are examples of good responses"` Hier volgen enkele voorbeeldinstructies om het audiogedrag te begeleiden: `"instructions": "talk quickly"` `"instructions": "inject emotion into your voice"` `"instructions": "laugh frequently"` Hoewel het model deze instructies mogelijk niet altijd volgt, bieden ze richtlijnen voor het gewenste gedrag.
voice	RealtimeVoice	De stem die wordt gebruikt voor het modelantwoord voor de sessie. Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
input_audio_sampling_rate	integer	De samplingfrequentie voor de invoeraudio.
input_audio_format	RealtimeAudioFormat	De indeling voor de invoeraudio.
output_audio_format	RealtimeAudioFormat	De indeling voor de uitvoeraudio.
input_audio_transcription	RealtimeAudioInputTranscriptionSettings	De instellingen voor transcriptie van audio-invoer. Deze eigenschap kan null worden gebruikt.
turn_detection	RealtimeTurnDetection	De instellingen voor draaidetectie voor de sessie. Deze eigenschap kan null worden gebruikt.
tools	matrix van RealtimeTool	De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice	RealtimeToolChoice	De keuze voor het hulpprogramma voor de sessie.
temperature	number	De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens	geheel getal of "inf"	Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen. Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan. Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in `"max_response_output_tokens": 1000`. Als u het maximum aantal tokens wilt toestaan, stelt u het in `"max_response_output_tokens": "inf"`.

RealtimeResponseStatusDetails

Field	Type	Description
type	RealtimeResponseStatus	De status van het antwoord.

RealtimeRateLimitsItem

Field	Type	Description
name	string	De eigenschapsnaam van de frequentielimiet waarover dit item informatie bevat.
limit	integer	De maximaal geconfigureerde limiet voor deze eigenschap voor frequentielimiet.
remaining	integer	Het resterende quotum dat beschikbaar is voor de geconfigureerde limiet voor deze frequentielimieteigenschap.
reset_seconds	number	De resterende tijd, in seconden, totdat deze frequentielimieteigenschap opnieuw wordt ingesteld.

De snelstartgids Voice Live uitproberen
De quickstart voor Voice Live-agents uitproberen
Meer informatie over het gebruik van de Voice Live-API

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-30

Naslaginformatie over voice live-API 2025-10-01

Key Features

Client Events

session.update

Event Structure

Properties

Voorbeeld met Azure Custom Voice

session.avatar.connect

Event Structure

Properties

input_audio_buffer.append

Event Structure

Properties

input_audio_buffer.commit

Event Structure

Properties

input_audio_buffer.clear

Event Structure

Properties

conversation.item.create

Event Structure

Properties

Voorbeeld met audio-inhoud

Voorbeeld met uitvoer van functieoproep

Voorbeeld met MCP-goedkeuringsantwoord

conversation.item.retrieve

Event Structure

Properties

conversation.item.truncate

Event Structure

Properties

conversation.item.delete

Event Structure

Properties

response.create

Event Structure

Properties

Voorbeeld met keuze van hulpprogramma

Voorbeeld met animatie

response.cancel

Event Structure

Properties

input_audio_buffer.append

Event structure

Properties

input_audio_buffer.clear

Event structure

Properties

input_audio_buffer.commit

Event structure

Properties

Server Events

session.created

Event Structure

Properties

session.updated

Event Structure

Properties

session.avatar.connecting

Event Structure

Properties

conversation.item.created

Event Structure

Properties

Voorbeeld met audio-item

conversation.item.retrieved

Event Structure

Properties

conversation.item.truncated

Event structure

Properties

conversation.item.deleted

Event Structure

Properties

response.created

Event Structure

Properties

response.done

Event Structure

Properties

Naslaginformatie over voice live-API `2025-10-01`