Naslaginformatie over voice live-API 2025-10-01

De Voice Live-API biedt realtime bidirectionele communicatie voor spraaktoepassingen met behulp van WebSocket-verbindingen. Deze API ondersteunt geavanceerde functies, waaronder spraakherkenning, tekst-naar-spraaksynthese, avatarstreaming, animatiegegevens en uitgebreide mogelijkheden voor audioverwerking.

De API maakt gebruik van gebeurtenissen in JSON-indeling die via WebSocket-verbindingen worden verzonden om gesprekken, audiostreams, avatarinteracties en realtime antwoorden te beheren. Gebeurtenissen worden gecategoriseerd in clientgebeurtenissen (verzonden van client naar server) en servergebeurtenissen (verzonden van server naar client).

Key Features

  • Realtime audioverwerking: ondersteuning voor meerdere audio-indelingen, waaronder PCM16 met verschillende samplefrequenties en G.711 codecs
  • Geavanceerde spraakopties: OpenAI-stemmen, aangepaste Stemmen van Azure, Standaardstemmen van Azure en persoonlijke Stemmen van Azure
  • Avatar-integratie: avatarstreaming op basis van WebRTC met video, animatie en blendshapes
  • Intelligente schakeldetectie: meerdere VAD-opties, waaronder semantische VAD van Azure en detectie aan de serverzijde
  • Audioverbetering: ingebouwde ruisonderdrukking en echo-annulering
  • Functie aanroepen: Integratie van hulpprogramma's voor verbeterde gespreksmogelijkheden
  • Flexibel sessiebeheer: configureerbare uitvoermodaliteiten, instructies en antwoordparameters

Client Events

De Voice Live-API ondersteunt de volgende clientgebeurtenissen die van de client naar de server kunnen worden verzonden:

Event Description
session.update De sessieconfiguratie bijwerken, inclusief spraak- en uitvoermodaliteiten, draaidetectie en andere instellingen
session.avatar.connect Avatar-verbinding tot stand brengen door client-SDP voor WebRTC-onderhandeling te bieden
input_audio_buffer.append Audiobytes toevoegen aan de invoeraudiobuffer
input_audio_buffer.commit De invoeraudiobuffer doorvoeren voor verwerking
input_audio_buffer.clear De audiobuffer voor invoer wissen
conversation.item.create Een nieuw item toevoegen aan de gesprekscontext
conversation.item.retrieve Een specifiek item ophalen uit het gesprek
conversation.item.truncate Een audiobericht van een assistent afkappen
conversation.item.delete Een item uit het gesprek verwijderen
response.create De server opdracht geven om een antwoord te maken via modeldeductie
response.cancel Een actieve reactie annuleren

session.update

Werk de configuratie van de sessie bij. Deze gebeurtenis kan op elk gewenst moment worden verzonden om instellingen zoals spraak, uitvoermodaliteiten, draaidetectie, hulpprogramma's en andere sessieparameters te wijzigen. Zodra een sessie is geïnitialiseerd met een bepaald model, kan deze niet meer worden gewijzigd in een ander model.

Event Structure

{
  "type": "session.update",
  "session": {
    "modalities": ["text", "audio"],
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "instructions": "You are a helpful assistant. Be concise and friendly.",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_sampling_rate": 24000,
    "turn_detection": {
      "type": "azure_semantic_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "max_response_output_tokens": "inf"
  }
}

Properties

Field Type Description
type string Moet "session.update" zijn
session RealtimeRequestSession Sessieconfiguratieobject met velden die moeten worden bijgewerkt

Voorbeeld met Azure Custom Voice

{
  "type": "session.update",
  "session": {
    "voice": {
      "type": "azure-custom",
      "name": "my-custom-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012",
      "temperature": 0.7,
      "style": "cheerful"
    },
    "input_audio_noise_reduction": {
      "type": "azure_deep_noise_suppression"
    },
    "avatar": {
      "character": "lisa",
      "customized": false,
      "video": {
        "resolution": {
          "width": 1920,
          "height": 1080
        },
        "bitrate": 2000000
      }
    }
  }
}

session.avatar.connect

Maak een avatarverbinding door de SDP -aanbieding (Session Description Protocol) van de client op te geven voor webRTC-mediaonderhandeling. Deze gebeurtenis is vereist bij het gebruik van avatarfuncties.

Event Structure

{
  "type": "session.avatar.connect",
  "client_sdp": "<client_sdp>"
}

Properties

Field Type Description
type string Moet "session.avatar.connect" zijn
client_sdp string De SDP-aanbieding van de client voor het tot stand maken van webRTC-verbindingen, gecodeerd met base64

input_audio_buffer.append

Voeg audiobytes toe aan de audiobuffer voor invoer.

Event Structure

{
  "type": "input_audio_buffer.append",
  "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}

Properties

Field Type Description
type string Moet "input_audio_buffer.append" zijn
audio string Met Base64 gecodeerde audiogegevens

input_audio_buffer.commit

Voer de invoeraudiobuffer door voor verwerking.

Event Structure

{
  "type": "input_audio_buffer.commit"
}

Properties

Field Type Description
type string Moet "input_audio_buffer.commit" zijn

input_audio_buffer.clear

Wis de invoeraudiobuffer.

Event Structure

{
  "type": "input_audio_buffer.clear"
}

Properties

Field Type Description
type string Moet "input_audio_buffer.clear" zijn

conversation.item.create

Voeg een nieuw item toe aan de gesprekscontext. Dit kan berichten, functieoproepen en antwoorden van functieoproepen zijn. Items kunnen worden ingevoegd op specifieke posities in de gespreksgeschiedenis.

Event Structure

{
  "type": "conversation.item.create",
  "previous_item_id": "item_ABC123",
  "item": {
    "id": "item_DEF456",
    "type": "message",
    "role": "user",
    "content": [
      {
        "type": "input_text",
        "text": "Hello, how are you?"
      }
    ]
  }
}

Properties

Field Type Description
type string Moet "conversation.item.create" zijn
previous_item_id string Optional. Id van het item waarna u dit item wilt invoegen. Als dit niet is opgegeven, voegt u deze toe aan het einde
item RealtimeConversationRequestItem Het item dat moet worden toegevoegd aan het gesprek

Voorbeeld met audio-inhoud

{
  "type": "conversation.item.create",
  "item": {
    "type": "message",
    "role": "user",
    "content": [
      {
        "type": "input_audio",
        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
        "transcript": "Hello there"
      }
    ]
  }
}

Voorbeeld met uitvoer van functieoproep

{
  "type": "conversation.item.create",
  "item": {
    "type": "function_call_output",
    "call_id": "call_123",
    "output": "{\"location\": \"San Francisco\", \"temperature\": \"70\"}"
  }
}

Voorbeeld met MCP-goedkeuringsantwoord

{
  "type": "conversation.item.create",
  "item": {
    "type": "mcp_approval_response",
    "approval_request_id": "mcp_approval_req_456",
    "approve": true,
  }
}

conversation.item.retrieve

Een specifiek item ophalen uit de gespreksgeschiedenis. Dit is handig voor het inspecteren van verwerkte audio na ruisonderdrukking en VAD.

Event Structure

{
  "type": "conversation.item.retrieve",
  "item_id": "item_ABC123"
}

Properties

Field Type Description
type string Moet "conversation.item.retrieve" zijn
item_id string De id van het item dat moet worden opgehaald

conversation.item.truncate

De audio-inhoud van een assistentbericht afkappen. Dit is handig voor het stoppen van afspelen op een specifiek punt en het synchroniseren van het begrip van de server met de status van de client.

Event Structure

{
  "type": "conversation.item.truncate",
  "item_id": "item_ABC123",
  "content_index": 0,
  "audio_end_ms": 5000
}

Properties

Field Type Description
type string Moet "conversation.item.truncate" zijn
item_id string De id van het assistentberichtitem dat moet worden afgekapt
content_index integer De index van het inhoudsonderdeel dat moet worden afgekapt
audio_end_ms integer De duur totdat de audio wordt afgekapt, in milliseconden

conversation.item.delete

Een item verwijderen uit de gespreksgeschiedenis.

Event Structure

{
  "type": "conversation.item.delete",
  "item_id": "item_ABC123"
}

Properties

Field Type Description
type string Moet "conversation.item.delete" zijn
item_id string De id van het item dat moet worden verwijderd

response.create

Geef de server de opdracht om een antwoord te maken via modeldeductie. Met deze gebeurtenis kunt u antwoordspecifieke configuratie opgeven die de standaardinstellingen voor sessies overschrijft.

Event Structure

{
  "type": "response.create",
  "response": {
    "modalities": ["text", "audio"],
    "instructions": "Be extra helpful and detailed.",
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "output_audio_format": "pcm16",
    "temperature": 0.7,
    "max_response_output_tokens": 1000
  }
}

Properties

Field Type Description
type string Moet "response.create" zijn
response RealtimeResponseOptions Optionele antwoordconfiguratie die de standaardinstellingen voor sessies overschrijft

Voorbeeld met keuze van hulpprogramma

{
  "type": "response.create",
  "response": {
    "modalities": ["text"],
    "tools": [
      {
        "type": "function",
        "name": "get_current_time",
        "description": "Get the current time",
        "parameters": {
          "type": "object",
          "properties": {}
        }
      }
    ],
    "tool_choice": "get_current_time",
    "temperature": 0.3
  }
}

Voorbeeld met animatie

{
  "type": "response.create",
  "response": {
    "modalities": ["audio", "animation"],
    "animation": {
      "model_name": "default",
      "outputs": ["blendshapes", "viseme_id"]
    },
    "voice": {
      "type": "azure-custom",
      "name": "my-expressive-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012",
      "style": "excited"
    }
  }
}

response.cancel

Annuleer een reactie die wordt uitgevoerd. Hierdoor wordt het genereren van reacties en gerelateerde audio-uitvoer onmiddellijk gestopt.

Event Structure

{
  "type": "response.cancel"
}

Properties

Field Type Description
type string Moet "response.cancel" zijn

input_audio_buffer.append

De client input_audio_buffer.append gebeurtenis wordt gebruikt om audiobytes toe te voegen aan de invoeraudiobuffer. De audiobuffer is tijdelijke opslag waarnaar u kunt schrijven en later doorvoeren.

In de modus Server VAD (Spraakactiviteitsdetectie) wordt de audiobuffer gebruikt om spraak te detecteren en bepaalt de server wanneer deze moet worden doorgevoerd. Wanneer server-VAD is uitgeschakeld, kan de client kiezen hoeveel audio in elke gebeurtenis moet worden geplaatst tot maximaal 15 MiB. Als u bijvoorbeeld kleinere segmenten van de client streamt, kan de VAD sneller reageren.

In tegenstelling tot de meeste andere client gebeurtenissen, verzendt de server geen bevestigingsreactie naar de client input_audio_buffer.append gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.append",
  "audio": "<audio>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn input_audio_buffer.append.
audio string Met Base64 gecodeerde audiobytes. Deze waarde moet de indeling hebben die is opgegeven door het input_audio_format veld in de sessieconfiguratie.

input_audio_buffer.clear

De client input_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de buffer te wissen.

De server reageert met een input_audio_buffer.cleared gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.clear"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn input_audio_buffer.clear.

input_audio_buffer.commit

De client-gebeurtenis input_audio_buffer.commit wordt gebruikt om de audiobuffer voor gebruikersinvoer door te voeren, waardoor er een nieuw gebruikersberichtitem in het gesprek wordt gemaakt. Audio wordt getranscribeerd als input_audio_transcription deze is geconfigureerd voor de sessie.

Wanneer de client zich in de VAD-modus van de server bevindt, hoeft deze gebeurtenis niet te worden verzonden. De server voert de audiobuffer automatisch door. Zonder server-VAD moet de client de audiobuffer doorvoeren om een gebruikersberichtitem te maken. Deze client gebeurtenis produceert een fout als de invoer audiobuffer leeg is.

Als u de invoeraudiobuffer doorvoert, wordt er geen antwoord van het model gemaakt.

De server reageert met een input_audio_buffer.committed gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.commit"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn input_audio_buffer.commit.

Server Events

De Voice Live-API verzendt de volgende servergebeurtenissen om de status, antwoorden en gegevens te communiceren met de client:

Event Description
error Geeft aan dat er een fout is opgetreden tijdens de verwerking
warning Geeft aan dat er een waarschuwing is opgetreden die de gespreksstroom niet onderbreekt
session.created Verzonden wanneer een nieuwe sessie tot stand is gebracht
session.updated Verzonden wanneer sessieconfiguratie wordt bijgewerkt
session.avatar.connecting Geeft aan dat de avatar WebRTC-verbinding tot stand is gebracht
conversation.item.created Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek
conversation.item.retrieved Antwoord op conversation.item.retrieve-aanvraag
conversation.item.truncated Bevestigt afkapping van items
conversation.item.deleted Verwijdering van item bevestigen
conversation.item.input_audio_transcription.completed Audiotranscriptie van invoer is voltooid
conversation.item.input_audio_transcription.delta Audiotranscriptie van streaming-invoer
conversation.item.input_audio_transcription.failed Audiotranscriptie van invoer is mislukt
input_audio_buffer.committed Invoeraudiobuffer was voor verwerking
input_audio_buffer.cleared Invoeraudiobuffer is gewist
input_audio_buffer.speech_started Spraak gedetecteerd in invoeraudiobuffer (VAD)
input_audio_buffer.speech_stopped Spraak is beëindigd in de audiobuffer voor invoer (VAD)
response.created Nieuwe reactiegeneratie is gestart
response.done Het genereren van antwoorden is voltooid
response.output_item.added Nieuw uitvoeritem toegevoegd aan antwoord
response.output_item.done Het uitvoeritem is voltooid
response.content_part.added Nieuw inhoudsonderdeel toegevoegd aan uitvoeritem
response.content_part.done Het inhoudsonderdeel is voltooid
response.text.delta Tekstinhoud streamen van het model
response.text.done Tekstinhoud is voltooid
response.audio_transcript.delta Audiotranscriptie streamen
response.audio_transcript.done Audiotranscriptie is voltooid
response.audio.delta Audio-inhoud streamen vanuit het model
response.audio.done Audio-inhoud is voltooid
response.animation_blendshapes.delta Streaming-animatie-blendshapes-gegevens
response.animation_blendshapes.done De gegevens van animatie-blendshapes zijn voltooid
response.audio_timestamp.delta Informatie over het streamen van audiotijdstempel
response.audio_timestamp.done Informatie over de tijdstempel van audio is voltooid
response.animation_viseme.delta Streaminganimatievisugegevens
response.animation_viseme.done Animatievisulaatgegevens zijn voltooid
response.function_call_arguments.delta Argumenten voor aanroepen van streamingfuncties
response.function_call_arguments.done Argumenten voor functieoproep zijn voltooid
mcp_list_tools.in_progress Vermelding van MCP-hulpprogramma's wordt uitgevoerd
mcp_list_tools.completed McP-hulpprogrammalijst is voltooid
mcp_list_tools.failed Vermelding van MCP-hulpprogramma's is mislukt
response.mcp_call_arguments.delta McP-aanroepargumenten streamen
response.mcp_call_arguments.done MCP-aanroepargumenten zijn voltooid
response.mcp_call.in_progress MCP-aanroep wordt uitgevoerd
response.mcp_call.completed MCP-aanroep is voltooid
response.mcp_call.failed MCP-aanroep is mislukt

session.created

Verzonden wanneer een nieuwe sessie tot stand is gebracht. Dit is de eerste gebeurtenis die is ontvangen nadat u verbinding hebt gemaakt met de API.

Event Structure

{
  "type": "session.created",
  "session": {
    "id": "sess_ABC123DEF456",
    "object": "realtime.session",
    "model": "gpt-realtime",
    "modalities": ["text", "audio"],
    "instructions": "You are a helpful assistant.",
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_sampling_rate": 24000,
    "turn_detection": {
      "type": "azure_semantic_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "max_response_output_tokens": "inf"
  }
}

Properties

Field Type Description
type string Moet "session.created" zijn
session RealtimeResponseSession Het gemaakte sessieobject

session.updated

Verzonden wanneer de sessieconfiguratie is bijgewerkt als reactie op een session.update client gebeurtenis.

Event Structure

{
  "type": "session.updated",
  "session": {
    "id": "sess_ABC123DEF456",
    "voice": {
      "type": "azure-custom",
      "name": "my-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012"
    },
    "temperature": 0.7,
    "avatar": {
      "character": "lisa",
      "customized": false
    }
  }
}

Properties

Field Type Description
type string Moet "session.updated" zijn
session RealtimeResponseSession Het bijgewerkte sessieobject

session.avatar.connecting

Geeft aan dat er een avatar WebRTC-verbinding tot stand is gebracht. Deze gebeurtenis wordt verzonden als reactie op een session.avatar.connect client gebeurtenis.

Event Structure

{
  "type": "session.avatar.connecting",
  "server_sdp": "<server_sdp>"
}

Properties

Field Type Description
type string Moet "session.avatar.connecting" zijn

conversation.item.created

Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek, via een client-gebeurtenis conversation.item.create of automatisch tijdens het genereren van reacties.

Event Structure

{
  "type": "conversation.item.created",
  "previous_item_id": "item_ABC123",
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "user",
    "content": [
      {
        "type": "input_text",
        "text": "Hello, how are you?"
      }
    ]
  }
}

Properties

Field Type Description
type string Moet "conversation.item.created" zijn
previous_item_id string Id van het item waarna dit item is ingevoegd
item RealtimeConversationResponseItem Het gemaakte gespreksitem

Voorbeeld met audio-item

{
  "type": "conversation.item.created",
  "item": {
    "id": "item_GHI789",
    "type": "message",
    "status": "completed",
    "role": "user",
    "content": [
      {
        "type": "input_audio",
        "audio": null,
        "transcript": "What's the weather like today?"
      }
    ]
  }
}

conversation.item.retrieved

Verzonden als reactie op een conversation.item.retrieve client gebeurtenis, waarbij het aangevraagde gespreksitem wordt opgegeven.

Event Structure

{
  "type": "conversation.item.retrieved",
  "item": {
    "id": "item_ABC123",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "assistant",
    "content": [
      {
        "type": "audio",
        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
        "transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
      }
    ]
  }
}

Properties

Field Type Description
type string Moet "conversation.item.retrieved" zijn
item RealtimeConversationResponseItem Het opgehaalde gespreksitem

conversation.item.truncated

De servergebeurtenis conversation.item.truncated wordt geretourneerd wanneer de client een eerder audioberichtitem met een assistent afkapt met een conversation.item.truncate gebeurtenis. Deze gebeurtenis wordt gebruikt om het begrip van de audio van de server te synchroniseren met het afspelen van de client.

Met deze gebeurtenis wordt de audio afgekapt en wordt de transcriptie van de tekst aan de serverzijde verwijderd om ervoor te zorgen dat er geen tekst is in de context waarover de gebruiker niet weet.

Event structure

{
  "type": "conversation.item.truncated",
  "item_id": "<item_id>",
  "content_index": 0,
  "audio_end_ms": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn conversation.item.truncated.
item_id string De id van het berichtitem van de assistent dat is afgekapt.
content_index integer De index van het inhoudsonderdeel dat is afgekapt.
audio_end_ms integer De duur totdat de audio is afgekapt, in milliseconden.

conversation.item.deleted

Verzonden als reactie op een conversation.item.delete clientgebeurtenis, waarbij wordt bevestigd dat het opgegeven item uit het gesprek is verwijderd.

Event Structure

{
  "type": "conversation.item.deleted",
  "item_id": "item_ABC123"
}

Properties

Field Type Description
type string Moet "conversation.item.deleted" zijn
item_id string Id van het verwijderde item

response.created

Verzonden wanneer een nieuwe reactiegeneratie begint. Dit is de eerste gebeurtenis in een reactievolgorde.

Event Structure

{
  "type": "response.created",
  "response": {
    "id": "resp_ABC123",
    "object": "realtime.response",
    "status": "in_progress",
    "status_details": null,
    "output": [],
    "usage": {
      "total_tokens": 0,
      "input_tokens": 0,
      "output_tokens": 0
    }
  }
}

Properties

Field Type Description
type string Moet "response.created" zijn
response RealtimeResponse Het antwoordobject dat is gemaakt

response.done

Verzonden wanneer het genereren van antwoorden is voltooid. Deze gebeurtenis bevat het laatste antwoord met alle uitvoeritems en gebruiksstatistieken.

Event Structure

{
  "type": "response.done",
  "response": {
    "id": "resp_ABC123",
    "object": "realtime.response",
    "status": "completed",
    "status_details": null,
    "output": [
      {
        "id": "item_DEF456",
        "object": "realtime.item",
        "type": "message",
        "status": "completed",
        "role": "assistant",
        "content": [
          {
            "type": "text",
            "text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
          }
        ]
      }
    ],
    "usage": {
      "total_tokens": 87,
      "input_tokens": 52,
      "output_tokens": 35,
      "input_token_details": {
        "cached_tokens": 0,
        "text_tokens": 45,
        "audio_tokens": 7
      },
      "output_token_details": {
        "text_tokens": 15,
        "audio_tokens": 20
      }
    }
  }
}

Properties

Field Type Description
type string Moet "response.done" zijn
response RealtimeResponse Het voltooide antwoordobject

response.output_item.added

Verzonden wanneer er tijdens het genereren een nieuw uitvoeritem wordt toegevoegd aan het antwoord.

Event Structure

{
  "type": "response.output_item.added",
  "response_id": "resp_ABC123",
  "output_index": 0,
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "in_progress",
    "role": "assistant",
    "content": []
  }
}

Properties

Field Type Description
type string Moet "response.output_item.added" zijn
response_id string Id van het antwoord waartoe dit item behoort
output_index integer Index van het item in de uitvoermatrix van het antwoord
item RealtimeConversationResponseItem Het uitvoeritem dat is toegevoegd

response.output_item.done

Verzonden wanneer een uitvoeritem is voltooid.

Event Structure

{
  "type": "response.output_item.done",
  "response_id": "resp_ABC123",
  "output_index": 0,
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "assistant",
    "content": [
      {
        "type": "text",
        "text": "Hello! I'm doing well, thank you for asking."
      }
    ]
  }
}

Properties

Field Type Description
type string Moet "response.output_item.done" zijn
response_id string Id van het antwoord waartoe dit item behoort
output_index integer Index van het item in de uitvoermatrix van het antwoord
item RealtimeConversationResponseItem Het voltooide uitvoeritem

response.content_part.added

De servergebeurtenis response.content_part.added wordt geretourneerd wanneer een nieuw inhoudsonderdeel wordt toegevoegd aan een assistentberichtitem tijdens het genereren van het antwoord.

Event Structure

{
  "type": "response.content_part.added",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "part": {
    "type": "text",
    "text": ""
  }
}

Properties

Field Type Description
type string Moet "response.content_part.added" zijn
response_id string Id van het antwoord
item_id string Id van het item waartoe dit inhoudsonderdeel behoort
output_index integer Index van het item in het antwoord
content_index integer Index van dit inhoudsonderdeel in het item
part RealtimeContentPart Het inhoudsonderdeel dat is toegevoegd

response.content_part.done

De servergebeurtenis response.content_part.done wordt geretourneerd wanneer een inhoudsonderdeel klaar is met streamen in een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event Structure

{
  "type": "response.content_part.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "part": {
    "type": "text",
    "text": "Hello! I'm doing well, thank you for asking."
  }
}

Properties

Field Type Description
type string Moet "response.content_part.done" zijn
response_id string Id van het antwoord
item_id string Id van het item waartoe dit inhoudsonderdeel behoort
output_index integer Index van het item in het antwoord
content_index integer Index van dit inhoudsonderdeel in het item
part RealtimeContentPart Het voltooide inhoudsonderdeel

response.text.delta

Tekstinhoud streamen vanuit het model. Incrementeel verzonden naarmate het model tekst genereert.

Event Structure

{
  "type": "response.text.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "Hello! I'm"
}

Properties

Field Type Description
type string Moet "response.text.delta" zijn
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
delta string Incrementele tekstinhoud

response.text.done

Verzonden wanneer het genereren van tekstinhoud is voltooid.

Event Structure

{
  "type": "response.text.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}

Properties

Field Type Description
type string Moet "response.text.done" zijn
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
text string De volledige tekstinhoud

response.audio.delta

Audio-inhoud streamen van het model. Audio wordt geleverd als base64-gecodeerde gegevens.

Event Structure

{
  "type": "response.audio.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}

Properties

Field Type Description
type string Moet "response.audio.delta" zijn
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
delta string Segment met base64-gecodeerde audiogegevens

response.audio.done

Verzonden wanneer het genereren van audio-inhoud is voltooid.

Event Structure

{
  "type": "response.audio.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Properties

Field Type Description
type string Moet "response.audio.done" zijn
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel

response.audio_transcript.delta

Streamingtranscriptie van de gegenereerde audio-inhoud.

Event Structure

{
  "type": "response.audio_transcript.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "Hello! I'm doing"
}

Properties

Field Type Description
type string Moet "response.audio_transcript.delta" zijn
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
delta string Incrementele transcriptietekst

response.audio_transcript.done

Verzonden wanneer het genereren van audiotranscripties is voltooid.

Event Structure

{
  "type": "response.audio_transcript.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}

Properties

Field Type Description
type string Moet "response.audio_transcript.done" zijn
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
transcript string De volledige transcriptietekst

conversation.item.input_audio_transcription.completed

De server conversation.item.input_audio_transcription.completed gebeurtenis is het resultaat van audiotranscriptie voor spraak die naar de audiobuffer is geschreven.

Transcriptie begint wanneer de invoeraudiobuffer wordt doorgevoerd door de client of server (in server_vad de modus). Transcriptie wordt asynchroon uitgevoerd bij het maken van een antwoord, zodat deze gebeurtenis vóór of na de reactie-gebeurtenissen kan komen.

Realtime-API-modellen accepteren audio direct, en daarom is invoertranscriptie een apart proces dat wordt uitgevoerd op een afzonderlijk spraakherkenningsmodel, zoals whisper-1. Het transcript kan dus enigszins afwijken van de interpretatie van het model en moet worden behandeld als een ruwe handleiding.

Event structure

{
  "type": "conversation.item.input_audio_transcription.completed",
  "item_id": "<item_id>",
  "content_index": 0,
  "transcript": "<transcript>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.completed.
item_id string De id van het gebruikersberichtitem met de audio.
content_index integer De index van het inhoudsonderdeel met de audio.
transcript string De getranscribeerde tekst.

conversation.item.input_audio_transcription.delta

De servergebeurtenis conversation.item.input_audio_transcription.delta wordt geretourneerd wanneer audiotranscriptie voor invoer is geconfigureerd en er een transcriptieaanvraag voor een gebruikersbericht wordt uitgevoerd. Deze gebeurtenis biedt gedeeltelijke transcriptieresultaten zodra ze beschikbaar komen.

Event structure

{
  "type": "conversation.item.input_audio_transcription.delta",
  "item_id": "<item_id>",
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.delta.
item_id string De id van het item van het gebruikersbericht.
content_index integer De index van het inhoudsonderdeel met de audio.
delta string De incrementele transcriptietekst.

conversation.item.input_audio_transcription.failed

De servergebeurtenis conversation.item.input_audio_transcription.failed wordt geretourneerd wanneer de invoer van audiotranscriptie is geconfigureerd en een transcriptieaanvraag voor een gebruikersbericht is mislukt. Deze gebeurtenis staat los van andere error gebeurtenissen, zodat de client het gerelateerde item kan identificeren.

Event structure

{
  "type": "conversation.item.input_audio_transcription.failed",
  "item_id": "<item_id>",
  "content_index": 0,
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.failed.
item_id string De id van het item van het gebruikersbericht.
content_index integer De index van het inhoudsonderdeel met de audio.
error object Details van de transcriptiefout.

Zie geneste eigenschappen in de volgende tabel.

Error properties

Field Type Description
type string Het type fout.
code string Foutcode, indien van toepassing.
message string Een door mensen leesbaar foutbericht.
param string Parameter met betrekking tot de fout, indien van toepassing.

response.animation_blendshapes.delta

De servergebeurtenis response.animation_blendshapes.delta wordt geretourneerd wanneer het model animatie-blendshapes-gegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele blendshapes-gegevens zodra deze beschikbaar zijn.

Event structure

{
  "type": "response.animation_blendshapes.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "frame_index": 0,
  "frames": [
    [0.0, 0.1, 0.2, ..., 1.0]
    ...
  ]
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.animation_blendshapes.delta.
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
frame_index integer Index van het eerste frame in deze batch frames
frames matrix van matrix van float Matrix van blendshapeframes, elk frame is een matrix van blendshape-waarden

response.animation_blendshapes.done

De servergebeurtenis response.animation_blendshapes.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-blendshapes-gegevens als onderdeel van een antwoord.

Event structure

{
  "type": "response.animation_blendshapes.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.animation_blendshapes.done.
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord

response.audio_timestamp.delta

De servergebeurtenis response.audio_timestamp.delta wordt geretourneerd wanneer het model audiotijdstempelgegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele tijdstempelgegevens voor uitvoeraudio en tekstuitlijning zodra deze beschikbaar is.

Event structure

{
  "type": "response.audio_timestamp.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "audio_offset_ms": 0,
  "audio_duration_ms": 500,
  "text": "Hello",
  "timestamp_type": "word"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.audio_timestamp.delta.
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
audio_offset_ms integer Audio-offset in milliseconden vanaf het begin van de audio
audio_duration_ms integer Duur van het audiosegment in milliseconden
text string Het tekstsegment dat overeenkomt met dit audiotijdstempel
timestamp_type string Het type tijdstempel, momenteel wordt alleen 'woord' ondersteund

response.audio_timestamp.done

Verzonden wanneer het genereren van audiotijdstempels is voltooid.

Event Structure

{
  "type": "response.audio_timestamp.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.audio_timestamp.done.
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel

response.animation_viseme.delta

De servergebeurtenis response.animation_viseme.delta wordt geretourneerd wanneer het model animatievisemegegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele visemegegevens zodra deze beschikbaar zijn.

Event Structure

{
  "type": "response.animation_viseme.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "audio_offset_ms": 0,
  "viseme_id": 1
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.animation_viseme.delta.
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
audio_offset_ms integer Audio-offset in milliseconden vanaf het begin van de audio
viseme_id integer De viseme-id die overeenkomt met de mondvorm voor animatie

response.animation_viseme.done

De servergebeurtenis response.animation_viseme.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-visemegegevens als onderdeel van een antwoord.

Event Structure

{
  "type": "response.animation_viseme.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.animation_viseme.done.
response_id string Id van het antwoord
item_id string Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel

error

De servergebeurtenis error wordt geretourneerd wanneer er een fout optreedt, wat een clientprobleem of een serverprobleem kan zijn. De meeste fouten kunnen worden hersteld en de sessie blijft geopend.

Event structure

{
  "type": "error",
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>",
    "event_id": "<event_id>"
  }
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn error.
error object Details van de fout.

Zie geneste eigenschappen in de volgende tabel.

Error properties

Field Type Description
type string Het type fout. 'invalid_request_error' en 'server_error' zijn bijvoorbeeld fouttypen.
code string Foutcode, indien van toepassing.
message string Een door mensen leesbaar foutbericht.
param string Parameter met betrekking tot de fout, indien van toepassing.
event_id string De id van de client gebeurtenis die de fout heeft veroorzaakt, indien van toepassing.

warning

De servergebeurtenis warning wordt geretourneerd wanneer er een waarschuwing optreedt die de gespreksstroom niet onderbreekt. Waarschuwingen zijn informatief en de sessie wordt normaal voortgezet.

Event structure

{
  "type": "warning",
  "warning": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn warning.
warning object Details van de waarschuwing. Zie geneste eigenschappen in de volgende tabel.

Warning properties

Field Type Description
message string Een leesbaar waarschuwingsbericht.
code string Optional. Waarschuwingscode, indien van toepassing.
param string Optional. Parameter met betrekking tot de waarschuwing, indien van toepassing.

input_audio_buffer.cleared

De servergebeurtenis input_audio_buffer.cleared wordt geretourneerd wanneer de client de invoeraudiobuffer wist met een input_audio_buffer.clear gebeurtenis.

Event structure

{
  "type": "input_audio_buffer.cleared"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn input_audio_buffer.cleared.

input_audio_buffer.committed

De servergebeurtenis input_audio_buffer.committed wordt geretourneerd wanneer een invoeraudiobuffer wordt doorgevoerd door de client of automatisch in de server-VAD-modus. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt. Er wordt dus ook een conversation.item.created gebeurtenis naar de client verzonden.

Event structure

{
  "type": "input_audio_buffer.committed",
  "previous_item_id": "<previous_item_id>",
  "item_id": "<item_id>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn input_audio_buffer.committed.
previous_item_id string De id van het voorgaande item waarna het nieuwe item wordt ingevoegd.
item_id string De id van het gebruikersberichtitem dat is gemaakt.

input_audio_buffer.speech_started

De servergebeurtenis input_audio_buffer.speech_started wordt geretourneerd in server_vad de modus wanneer spraak wordt gedetecteerd in de audiobuffer. Deze gebeurtenis kan zich voordoen wanneer audio aan de buffer wordt toegevoegd (tenzij spraak al is gedetecteerd).

Note

De client kan deze gebeurtenis gebruiken om het afspelen van audio te onderbreken of visuele feedback te geven aan de gebruiker.

De client verwacht een input_audio_buffer.speech_stopped gebeurtenis te ontvangen wanneer spraak stopt. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt. De item_id is ook opgenomen in de input_audio_buffer.speech_stopped gebeurtenis, tenzij de client de audiobuffer handmatig doorvoert tijdens vad-activering.

Event structure

{
  "type": "input_audio_buffer.speech_started",
  "audio_start_ms": 0,
  "item_id": "<item_id>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn input_audio_buffer.speech_started.
audio_start_ms integer Milliseconden vanaf het begin van alle audio die tijdens de sessie naar de buffer is geschreven toen spraak voor het eerst werd gedetecteerd. Deze eigenschap komt overeen met het begin van de audio die naar het model wordt verzonden en bevat dus de prefix_padding_ms geconfigureerde in de sessie.
item_id string De id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt.

input_audio_buffer.speech_stopped

De servergebeurtenis input_audio_buffer.speech_stopped wordt geretourneerd in server_vad de modus wanneer de server het einde van de spraak in de audiobuffer detecteert.

De server verzendt ook een conversation.item.created gebeurtenis met het gebruikersberichtitem dat is gemaakt op basis van de audiobuffer.

Event structure

{
  "type": "input_audio_buffer.speech_stopped",
  "audio_end_ms": 0,
  "item_id": "<item_id>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn input_audio_buffer.speech_stopped.
audio_end_ms integer Milliseconden sinds de sessie is gestart toen spraak werd gestopt. Deze eigenschap komt overeen met het einde van de audio die naar het model wordt verzonden en bevat dus de min_silence_duration_ms geconfigureerde in de sessie.
item_id string De id van het gebruikersberichtitem dat is gemaakt.

rate_limits.updated

De server rate_limits.updated gebeurtenis wordt verzonden aan het begin van een reactie om de bijgewerkte frequentielimieten aan te geven.

Wanneer een antwoord wordt gemaakt, zijn sommige tokens gereserveerd voor de uitvoertokens. De frequentielimieten die hier worden weergegeven, weerspiegelen die reservering, die vervolgens dienovereenkomstig wordt aangepast zodra het antwoord is voltooid.

Event structure

{
  "type": "rate_limits.updated",
  "rate_limits": [
    {
      "name": "<name>",
      "limit": 0,
      "remaining": 0,
      "reset_seconds": 0
    }
  ]
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn rate_limits.updated.
rate_limits matrix van RealtimeRateLimitsItem De lijst met frequentielimietgegevens.

response.audio.delta

De servergebeurtenis response.audio.delta wordt geretourneerd wanneer de door het model gegenereerde audio wordt bijgewerkt.

Event structure

{
  "type": "response.audio.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.audio.delta.
response_id string De id van het antwoord.
item_id string De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta string Met Base64 gecodeerde audiogegevens delta.

response.audio.done

De servergebeurtenis response.audio.done wordt geretourneerd wanneer de door het model gegenereerde audio wordt uitgevoerd.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.audio.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.audio.done.
response_id string De id van het antwoord.
item_id string De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.

response.audio_transcript.delta

De servergebeurtenis response.audio_transcript.delta wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer wordt bijgewerkt.

Event structure

{
  "type": "response.audio_transcript.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.audio_transcript.delta.
response_id string De id van het antwoord.
item_id string De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta string De transcript delta.

response.audio_transcript.done

De servergebeurtenis response.audio_transcript.done wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.audio_transcript.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "transcript": "<transcript>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.audio_transcript.done.
response_id string De id van het antwoord.
item_id string De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
transcript string Het laatste transcript van de audio.

response.function_call_arguments.delta

De servergebeurtenis response.function_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten worden bijgewerkt.

Event structure

{
  "type": "response.function_call_arguments.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "delta": "<delta>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.function_call_arguments.delta.
response_id string De id van het antwoord.
item_id string De id van het item van de functie-aanroep.
output_index integer De index van het uitvoeritem in het antwoord.
call_id string De id van de functie-aanroep.
delta string De argumenten verschillen als een JSON-tekenreeks.

response.function_call_arguments.done

De servergebeurtenis response.function_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten klaar zijn met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.function_call_arguments.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "arguments": "<arguments>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.function_call_arguments.done.
response_id string De id van het antwoord.
item_id string De id van het item van de functie-aanroep.
output_index integer De index van het uitvoeritem in het antwoord.
call_id string De id van de functie-aanroep.
arguments string De laatste argumenten als een JSON-tekenreeks.

mcp_list_tools.in_progress

De servergebeurtenis mcp_list_tools.in_progress wordt geretourneerd wanneer de service begint met het weergeven van beschikbare hulpprogramma's van een mcp-server.

Event structure

{
  "type": "mcp_list_tools.in_progress",
  "item_id": "<mcp_list_tools_item_id>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn mcp_list_tools.in_progress.
item_id string De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

mcp_list_tools.completed

De servergebeurtenis mcp_list_tools.completed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server heeft voltooid.

Event structure

{
  "type": "mcp_list_tools.completed",
  "item_id": "<mcp_list_tools_item_id>"
}
Properties
Field Type Description
type string Het gebeurtenistype moet zijn mcp_list_tools.completed.
item_id string De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

mcp_list_tools.failed

De servergebeurtenis mcp_list_tools.failed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server niet kan vermelden.

Event structure

{
  "type": "mcp_list_tools.failed",
  "item_id": "<mcp_list_tools_item_id>"
}
Properties
Field Type Description
type string Het gebeurtenistype moet zijn mcp_list_tools.failed.
item_id string De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

response.mcp_call_arguments.delta

De servergebeurtenis response.mcp_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten worden bijgewerkt.

Event structure

{
  "type": "response.mcp_call_arguments.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "delta": "<delta>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.mcp_call_arguments.delta.
response_id string De id van het antwoord.
item_id string De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.
delta string De argumenten verschillen als een JSON-tekenreeks.

response.mcp_call_arguments.done

De servergebeurtenis response.mcp_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten klaar zijn met streamen.

Event structure

{
  "type": "response.mcp_call_arguments.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "arguments": "<arguments>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.mcp_call_arguments.done.
response_id string De id van het antwoord.
item_id string De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.
arguments string De laatste argumenten als een JSON-tekenreeks.

response.mcp_call.in_progress

De servergebeurtenis response.mcp_call.in_progress wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep wordt gestart met verwerken.

Event structure

{
  "type": "response.mcp_call.in_progress",
  "item_id": "<item_id>",
  "output_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.mcp_call.in_progress.
item_id string De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.

response.mcp_call.completed

De servergebeurtenis response.mcp_call.completed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep is voltooid.

Event structure

{
  "type": "response.mcp_call.completed",
  "item_id": "<item_id>",
  "output_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.mcp_call.completed.
item_id string De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.

response.mcp_call.failed

De servergebeurtenis response.mcp_call.failed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep mislukt.

Event structure

{
  "type": "response.mcp_call.failed",
  "item_id": "<item_id>",
  "output_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.mcp_call.failed.
item_id string De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.

response.output_item.added

De servergebeurtenis response.output_item.added wordt geretourneerd wanneer er een nieuw item wordt gemaakt tijdens het genereren van het antwoord.

Event structure

{
  "type": "response.output_item.added",
  "response_id": "<response_id>",
  "output_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.output_item.added.
response_id string De id van het antwoord waartoe het item behoort.
output_index integer De index van het uitvoeritem in het antwoord.
item RealtimeConversationResponseItem Het item dat is toegevoegd.

response.output_item.done

De servergebeurtenis response.output_item.done wordt geretourneerd wanneer een item klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.output_item.done",
  "response_id": "<response_id>",
  "output_index": 0
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.output_item.done.
response_id string De id van het antwoord waartoe het item behoort.
output_index integer De index van het uitvoeritem in het antwoord.
item RealtimeConversationResponseItem Het item dat is gestreamd.

response.text.delta

De servergebeurtenis response.text.delta wordt geretourneerd wanneer de door het model gegenereerde tekst wordt bijgewerkt. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Event structure

{
  "type": "response.text.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.text.delta.
response_id string De id van het antwoord.
item_id string De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta string De tekst delta.

response.text.done

De servergebeurtenis response.text.done wordt geretourneerd wanneer de door het model gegenereerde tekst wordt gestreamd. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Event structure

{
  "type": "response.text.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "text": "<text>"
}

Properties

Field Type Description
type string Het gebeurtenistype moet zijn response.text.done.
response_id string De id van het antwoord.
item_id string De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
text string De uiteindelijke tekstinhoud.

Components

Audio Formats

RealtimeAudioFormat

Basisaudio-indeling die wordt gebruikt voor invoeraudio.

Allowed Values:

  • pcm16 - 16-bits PCM-audio-indeling
  • g711_ulaw - G.711 μ-law audio-indeling
  • g711_alaw - G.711 A-law audio-indeling

RealtimeOutputAudioFormat

Audio-indeling die wordt gebruikt voor uitvoeraudio met specifieke samplingfrequenties.

Allowed Values:

  • pcm16 - 16-bits PCM-audio-indeling met standaardsamplingfrequentie (24kHz)
  • pcm16_8000hz - 16-bits PCM-audio-indeling met een samplingfrequentie van 8 kHz
  • pcm16_16000hz - 16-bits PCM-audio-indeling met een samplingfrequentie van 16kHz
  • g711_ulaw - G.711 μ-law audioformaat (mu-law) met een samplingfrequentie van 8kHz
  • g711_alaw - G.711 A-law audio-indeling bij 8kHz samplingfrequentie

RealtimeAudioInputTranscriptionSettings

Configuratie voor audiotranscriptie van invoer.

Field Type Description
model string Het transcriptiemodel.
Ondersteund met gpt-realtime en gpt-realtime-mini:
whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe, gpt-4o-transcribe-diarize
Ondersteund met alle andere modellen en agents: azure-speech
language string Optionele taalcode in BCP-47 (bijvoorbeeld en-US) of ISO-639-1 (bijvoorbeeld en) of meerdere talen met automatische detectie (bijvoorbeeld en,zh).

Zie ondersteunde talen voor spraak-naar-tekst in Azure voor aanbevolen gebruik van deze instelling.
custom_speech object Optionele configuratie voor aangepaste spraakmodellen, alleen geldig voor azure-speech het model.
phrase_list string[] Optionele lijst met woordgroepentips voor herkenning van vooroordelen, alleen geldig voor azure-speech het model.
prompt string Optionele prompttekst om transcriptie te begeleiden, alleen geldig voor whisper-1, gpt-4o-transcribegpt-4o-mini-transcribe en gpt-4o-transcribe-diarize modellen.

RealtimeInputAudioNoiseReductionSettings

Dit kan het volgende zijn:

RealtimeOpenAINoiseReduction

OpenAI-ruisreductieconfiguratie met expliciet typeveld, alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.

Field Type Description
type string near_field of far_field

RealtimeAzureDeepNoiseSuppression

Configuratie voor geluidsruisonderdrukking voor invoer.

Field Type Description
type string Moet "azure_deep_noise_suppression" zijn

RealtimeInputAudioEchoCancellationSettings

Echo-annuleringsconfiguratie voor audioverwerking aan de serverzijde.

Field Type Description
type string Moet "server_echo_cancellation" zijn

Voice Configuration

RealtimeVoice

Samenvoeging van alle ondersteunde spraakconfiguraties.

Dit kan het volgende zijn:

RealtimeOpenAIVoice

OpenAI-spraakconfiguratie met expliciet typeveld.

Field Type Description
type string Moet "openai" zijn
name string OpenAI-stemnaam: , , , , , alloy, ashballadcoralechosageshimmerversemarincedar

RealtimeAzureVoice

Basis voor Azure-spraakconfiguraties. Dit is een gediscrimineerde samenvoeging met verschillende typen:

RealtimeAzureStandardVoice

Standaard spraakconfiguratie van Azure.

Field Type Description
type string Moet "azure-standard" zijn
name string Spraaknaam (mag niet leeg zijn)
temperature number Optional. Temperatuur tussen 0,0 en 1.0
custom_lexicon_url string Optional. URL naar aangepast lexicon
custom_text_normalization_url string Optional. URL naar aangepaste tekstnormalisatie
prefer_locales string[] Optional. Preferred locales
Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt.
Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locale string Optional. Locale specification
Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel bijvoorbeeld de landinstelling in op en-USTTS, dan gebruikt TTS altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
style string Optional. Voice style
pitch string Optional. Pitch adjustment
rate string Optional. Aanpassing van spraaksnelheid
volume string Optional. Volume adjustment
RealtimeAzureCustomVoice

Aangepaste spraakconfiguratie van Azure (voorkeur voor aangepaste stemmen).

Field Type Description
type string Moet "azure-custom" zijn
name string Spraaknaam (mag niet leeg zijn)
endpoint_id string Eindpunt-id (mag niet leeg zijn)
temperature number Optional. Temperatuur tussen 0,0 en 1.0
custom_lexicon_url string Optional. URL naar aangepast lexicon
custom_text_normalization_url string Optional. URL naar aangepaste tekstnormalisatie
prefer_locales string[] Optional. Preferred locales
Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt.
Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locale string Optional. Locale specification
Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling en-USbijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
style string Optional. Voice style
pitch string Optional. Pitch adjustment
rate string Optional. Aanpassing van spraaksnelheid
volume string Optional. Volume adjustment

Example:

{
  "type": "azure-custom",
  "name": "my-custom-voice",
  "endpoint_id": "12345678-1234-1234-1234-123456789012",
  "temperature": 0.7,
  "style": "cheerful",
  "locale": "en-US"
}
RealtimeAzurePersonalVoice

Persoonlijke spraakconfiguratie van Azure.

Field Type Description
type string Moet "azure-personal" zijn
name string Spraaknaam (mag niet leeg zijn)
temperature number Optional. Temperatuur tussen 0,0 en 1.0
model string Onderliggend basismodel: DragonLatestNeural, DragonHDOmniLatestNeuralMAI-Voice-1
custom_lexicon_url string Optional. URL naar aangepast lexicon
custom_text_normalization_url string Optional. URL naar aangepaste tekstnormalisatie
prefer_locales string[] Optional. Preferred locales
Voorkeur voor landinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt.
Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locale string Optional. Locale specification
Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling en-USbijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
pitch string Optional. Pitch adjustment
rate string Optional. Aanpassing van spraaksnelheid
volume string Optional. Volume adjustment

Turn Detection

RealtimeTurnDetection

Configuratie voor turndetectie. Dit is een gediscrimineerde vereniging die meerdere VAD-typen ondersteunt.

RealtimeServerVAD

Basis-VAD-schakeldetectie.

Field Type Description
type string Moet "server_vad" zijn
threshold float Optional. Activeringsdrempel (0.0-1.0) (standaard: 0,5)
prefix_padding_ms integer Optional. Audioopvulling voordat spraak wordt gestart (standaard: 300)
silence_duration_ms integer Optional. Stilteduur voor het detecteren van spraakeinde (standaard: 500)
speech_duration_ms integer Optional. Minimale spraakduur (standaard: 200)
end_of_utterance_detection RealtimeEOUDetection Optional. Configuratie voor detectie van end-of-utterance
create_response boolean Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response boolean Optional. Onderbreking van barge in- of uitschakelen (standaard: true).
auto_truncate boolean Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)
RealtimeOpenAISemanticVAD

OpenAI semantische VAD-configuratie die gebruikmaakt van een model om te bepalen wanneer de gebruiker klaar is met spreken. Alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.

Field Type Description
type string Moet "semantic_vad" zijn
eagerness string Optional. Dit is een manier om te bepalen hoe geneigd het model is om de gebruiker te onderbreken door de maximale wachttijd in te stellen. In de transcriptiemodus, zelfs als het model niet reageert, is dit van invloed op de manier waarop de audio wordt gesegmenteerd.
De volgende waarden zijn toegestaan:
- auto (standaard) is gelijk aan medium,
- low laat de gebruiker de tijd nemen om te spreken,
- high zal de audio zo snel mogelijk in stukken verdelen.

Als u wilt dat het model vaker reageert in de gespreksmodus, of als u sneller transcriptiegebeurtenissen wilt ontvangen in de transcriptiemodus, kunt u het eagerness-niveau instellen op high.
Als u daarentegen de gebruiker ononderbroken wilt laten spreken in de gespreksmodus, of als u grotere transcriptiefragmenten in de transcriptiemodus wilt, kunt u de bereidheid instellen op low.
create_response boolean Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response boolean Optional. Onderbreking van barge in- of uitschakelen (standaard: true).
RealtimeAzureSemanticVAD

Azure-semantische VAD, die bepaalt wanneer de gebruiker begint en spreekt met behulp van een semantisch spraakmodel, wat robuustere detectie biedt in luidruchtige omgevingen.

Field Type Description
type string Moet "azure_semantic_vad" zijn
threshold float Optional. Activeringsdrempel (standaard: 0.5)
prefix_padding_ms integer Optional. Audioopvulling vóór spraak (standaard: 300)
silence_duration_ms integer Optional. Stilteduur voor spraakeinde (standaard: 500)
end_of_utterance_detection RealtimeEOUDetection Optional. Configuratie van EOU-detectie
speech_duration_ms integer Optional. Minimale spraakduur (standaard: 80)
remove_filler_words boolean Optional. Opvulwoorden verwijderen (standaard: onwaar)
languages string[] Optional. Supports English. Andere talen worden genegeerd (standaard: geen).
create_response boolean Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response boolean Optional. Onderbreking van barge in- of uitschakelen (standaard: true).
auto_truncate boolean Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)
RealtimeAzureSemanticVADMultilingual

Azure semantische VAD (standaardvariant).

Field Type Description
type string Moet "azure_semantic_vad_multilingual" zijn
threshold float Optional. Activeringsdrempel (standaard: 0.5)
prefix_padding_ms integer Optional. Audioopvulling vóór spraak (standaard: 300)
silence_duration_ms integer Optional. Stilteduur voor spraakeinde (standaard: 500)
end_of_utterance_detection RealtimeEOUDetection Optional. Configuratie van EOU-detectie
speech_duration_ms integer Optional. Minimale spraakduur (standaard: 80)
remove_filler_words boolean Optional. Opvulwoorden verwijderen (standaard: onwaar)
languages string[] Optional. Ondersteunt Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi. Andere talen worden genegeerd (standaard: geen).
create_response boolean Optional. Schakel in of uit of er een antwoord wordt gegenereerd (standaard: true).
interrupt_response boolean Optional. Onderbreking van barge in- of uitschakelen (standaard: true).
auto_truncate boolean Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)

RealtimeEOUDetection

Azure End-of-Utterance (EOU) kan aangeven wanneer de eindgebruiker stopte met spreken terwijl natuurlijke pauzes mogelijk zijn. De detectie van het einde van een uiting kan voortijdige beurt-eind-signalen aanzienlijk verminderen zonder merkbare latentie voor de gebruiker toe te voegen.

Field Type Description
model string Kan ondersteuning bieden semantic_detection_v1 voor Engels of semantic_detection_v1_multilingual ondersteuning bieden voor Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi
threshold_level string Optional. Detectiedrempelniveau (low, mediumhigh endefault), de standaardwaarde is gelijk aan medium de instelling. Met een lagere instelling is de kans groter dat de zin is voltooid.
timeout_ms number Optional. Maximale tijd in milliseconden om te wachten op meer spraak van de gebruiker. De standaardwaarde is 1000 ms.

Avatar Configuration

RealtimeAvatarConfig

Configuratie voor avatarstreaming en gedrag.

Field Type Description
ice_servers RealtimeIceServer[] Optional. ICE-servers voor WebRTC
character string Tekennaam of id voor de avatar
style string Optional. Avatarstijl (emotionele toon, spreekstijl)
customized boolean Of de avatar is aangepast
video RealtimeVideoParams Optional. Video configuration
scene RealtimeAvatarScene Optional. Configuratie voor het zoomniveau, de positie, de draaiing en de bewegingsamplitude van de avatar in het videoframe
output_protocol string Optional. Outputprotocol voor avatarstreaming. De standaardwaarde is webrtc
output_audit_audio boolean Optional. Wanneer deze optie is ingeschakeld, stuurt u auditaudio door via WebSocket voor controle-/foutopsporingsdoeleinden, zelfs wanneer avatar-uitvoer wordt geleverd via WebRTC. De standaardwaarde is false

RealtimeIceServer

ICE-serverconfiguratie voor webRTC-verbindingsonderhandeling.

Field Type Description
urls string[] ICE-server-URL's (TURN- of STUN-eindpunten)
username string Optional. Gebruikersnaam voor verificatie
credential string Optional. Referentie voor verificatie

RealtimeVideoParams

Parameters voor videostreaming voor avatar.

Field Type Description
bitrate integer Optional. Bitrate in bits per seconde (standaard: 2000000)
codec string Optional. Videocodec, momenteel alleen h264 (standaard: h264)
crop RealtimeVideoCrop Optional. Cropping settings
resolution RealtimeVideoResolution Optional. Resolution settings

RealtimeVideoCrop

Definitie van rechthoek bijsnijden van video.

Field Type Description
top_left integer[] Linkerbovenhoek [x, y], niet-negatieve gehele getallen
bottom_right integer[] Rechterbenedenhoek [x, y], niet-negatieve gehele getallen

RealtimeVideoResolution

Specificatie van videoresolutie.

Field Type Description
width integer Breedte in pixels (moet 0 zijn > )
height integer Hoogte in pixels (moet 0 zijn > )

RealtimeAvatarScene

Configuratie voor het zoomniveau, positie, draaiing en bewegingsamplitude van avatar in het videoframe.

Field Type Description
zoom number Optional. Zoomniveau van de avatar. Bereik is (0, +∞). Waarden kleiner dan 1 uitzoomen, waarden groter dan 1 inzoomen. De standaardwaarde is 0
position_x number Optional. Horizontale positie van de avatar. Bereik is [-1, 1], als een verhouding van de breedte van het frame. Negatieve waarden worden naar links verplaatst, positieve waarden naar rechts gaan. De standaardwaarde is 0
position_y number Optional. Verticale positie van de avatar. Bereik is [-1, 1], als een verhouding van de framehoogte. Negatieve waarden worden omhoog verplaatst, positieve waarden omlaag gaan. De standaardwaarde is 0
rotation_x number Optional. Draaien rond de X-as (pitch). Het bereik is [-π, π] in radialen. Negatieve waarden draaien omhoog, positieve waarden draaien omlaag. De standaardwaarde is 0
rotation_y number Optional. Draaien rond de Y-as (yaw). Het bereik is [-π, π] in radialen. Negatieve waarden draaien links, positieve waarden draaien naar rechts. De standaardwaarde is 0
rotation_z number Optional. Draaien rond de Z-as (roll). Het bereik is [-π, π] in radialen. Negatieve waarden draaien anticlockwise, positieve waarden draaien rechtsom. De standaardwaarde is 0
amplitude number Optional. Amplitude van de avatarbeweging. Bereik is (0, 1]. Waarden in (0, 1) gemiddelde verminderde amplitude, 1 betekent volledige amplitude. De standaardwaarde is 0

Animation Configuration

RealtimeAnimation

Configuratie voor animatie-uitvoer, waaronder blendshapes en visemes.

Field Type Description
model_name string Optional. Naam animatiemodel (standaard: "default")
outputs RealtimeAnimationOutputType[] Optional. Uitvoertypen (standaard: ["blendshapes"])

RealtimeAnimationOutputType

Typen animatiegegevens die moeten worden uitgevoerd.

Allowed Values:

  • blendshapes - Gegevens van gezichtsmixvormen
  • viseme_id - Gegevens van Viseme-id

Session Configuration

RealtimeRequestSession

Sessieconfiguratieobject gebruikt in session.update gebeurtenissen.

Field Type Description
model string Optional. Modelnaam die moet worden gebruikt
modalities RealtimeModality[] Optional. De ondersteunde uitvoermodaliteiten voor de sessie.

Zo is 'modaliteiten': ["text", "audio"] de standaardinstelling waarmee zowel tekst- als audio-uitvoermodaliteiten mogelijk zijn. Als u alleen tekstuitvoer wilt inschakelen, stelt u 'modaliteiten' in: ["text"]. Als u avataruitvoer wilt inschakelen, stelt u 'modaliteiten' in: ["text", "audio", "avatar"]. U kunt alleen audio niet inschakelen.
animation RealtimeAnimation Optional. Animation configuration
voice RealtimeVoice Optional. Voice configuration
instructions string Optional. Systeeminstructies voor het model. De instructies kunnen de uitvoeraudio begeleiden als OpenAI-stemmen worden gebruikt, maar mogelijk niet van toepassing zijn op Azure-stemmen.
input_audio_sampling_rate integer Optional. Invoergeluidsamplingfrequentie in Hz (standaard: 24000 voor pcm16, 8000 voor g711_ulaw en g711_alaw)
input_audio_format RealtimeAudioFormat Optional. Audio-indeling voor invoer (standaard: pcm16)
output_audio_format RealtimeOutputAudioFormat Optional. Audio-indeling voor uitvoer (standaard: pcm16)
input_audio_noise_reduction RealtimeInputAudioNoiseReductionSettings Configuratie voor geluidsruisonderdrukking voor invoer. Dit kan worden ingesteld op null om uit te schakelen. Ruisreductiefilters verwerken de audio voordat deze aan de invoeraudiobuffer wordt toegevoegd en naar VAD en het model wordt verzonden. Het filteren van de audio kan de VAD verbeteren en de nauwkeurigheid van draaidetectie (fout-positieven verminderen) en modelprestaties verbeteren door de perceptie van de invoeraudio te verbeteren.

Deze eigenschap kan null worden gebruikt.
input_audio_echo_cancellation RealtimeInputAudioEchoCancellationSettings Configuratie voor het annuleren van audio-echo-invoer. Dit kan worden ingesteld op null om uit te schakelen. Deze echoannulering aan de servicezijde kan helpen de kwaliteit van de invoeraudio te verbeteren door de impact van echo en reverberatie te verminderen.

Deze eigenschap kan null worden gebruikt.
input_audio_transcription RealtimeAudioInputTranscriptionSettings De configuratie voor audiotranscriptie van invoer. De configuratie is standaard null (uit). Transcriptie van invoeraudio is niet systeemeigen voor het model, omdat het model rechtstreeks audio verbruikt. Transcriptie wordt asynchroon uitgevoerd via het /audio/transcriptions eindpunt en moet worden behandeld als richtlijnen voor invoeraudio-inhoud in plaats van precies wat het model heeft gehoord. Voor aanvullende richtlijnen voor de transcriptieservice kan de client desgewenst de taal instellen en vragen om transcriptie.

Deze eigenschap kan null worden gebruikt.
turn_detection RealtimeTurnDetection De instellingen voor draaidetectie voor de sessie. Dit kan worden ingesteld op null om uit te schakelen.
tools matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.

Toegestane waarden: auto, noneen required. Anders kunt u de naam opgeven van de functie die u wilt gebruiken.
temperature number De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

Standaardwaarde is "inf".
reasoning_effort ReasoningEffort Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg het Azure Foundry-document voor meer informatie. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.
avatar RealtimeAvatarConfig Optional. Avatar configuration
output_audio_timestamp_types RealtimeAudioTimestampType[] Optional. Tijdstempeltypen voor uitvoeraudio

RealtimeModality

Ondersteunde sessie-uitvoermodaliteiten.

Allowed Values:

  • text - Tekstuitvoer
  • audio - Audio-uitvoer
  • animation - Animatie-uitvoer
  • avatar - Avatar video-uitvoer

RealtimeAudioTimestampType

Typen uitvoertijdstempels die worden ondersteund in audioantwoordinhoud.

Allowed Values:

  • word - Tijdstempels per woord in de uitvoeraudio

ReasoningEffort

Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.

Allowed Values:

  • none - Geen redeneringsinspanning
  • minimal - Minimale redeneringsinspanning
  • low - Lage redeneringsinspanning - snellere antwoorden met minder redenering
  • medium - Gemiddelde redeneringsinspanning - evenwicht tussen snelheid en redeneringsdiepte
  • high - Hoge redeneringsinspanning - grondigere redenering, kan langer duren
  • xhigh - Extra hoge redeneringsinspanning - maximale redeneringsdiepte

Tool Configuration

We ondersteunen twee typen hulpprogramma's: functie-aanroepen en MCP-hulpprogramma's waarmee u verbinding kunt maken met een mcp-server.

RealtimeTool

Hulpprogrammadefinitie voor het aanroepen van functies.

Field Type Description
type string Moet "function" zijn
name string Function name
description string Richtlijnen voor functiebeschrijving en gebruik
parameters object Functieparameters als JSON-schemaobject

RealtimeToolChoice

Strategie voor selectie van hulpprogramma's.

Dit kan het volgende zijn:

  • "auto" - Laat het model kiezen
  • "none" - Gebruik geen hulpprogramma's
  • "required" - Moet een hulpprogramma gebruiken
  • { "type": "function", "name": "function_name" } - Specifieke functie gebruiken

MCPTool

CONFIGURATIE van MCP-hulpprogramma's.

Field Type Description
type string Moet "mcp" zijn
server_label string Required. Het label van de MCP-server.
server_url string Required. De server-URL van de MCP-server.
allowed_tools string[] Optional. De lijst met toegestane namen van hulpprogramma's. Als dit niet is opgegeven, zijn alle hulpprogramma's toegestaan.
headers object Optional. Extra headers die moeten worden opgenomen in MCP-aanvragen.
authorization string Optional. Autorisatietoken voor MCP-aanvragen.
require_approval tekenreeks of woordenlijst Optional.
Als deze optie is ingesteld op een tekenreeks, moet de waarde zijn never of always.
Als deze optie is ingesteld op een woordenlijst, moet deze een indeling {"never": ["<tool_name_1>", "<tool_name_2>"], "always": ["<tool_name_3>"]}hebben.
De standaardwaarde is always.
Als dit is ingesteld alwaysop, vereist de uitvoering van het hulpprogramma goedkeuring, wordt mcp_approval_request verzonden naar de client wanneer het mcp-argument is voltooid en wordt alleen uitgevoerd wanneer mcp_approval_response met approve=true is ontvangen.
Wanneer dit is ingesteld never, wordt het hulpprogramma automatisch uitgevoerd zonder goedkeuring.

RealtimeConversationResponseItem

Dit is een samenvoegtype dat een van de volgende opties kan zijn:

RealtimeConversationUserMessageItem

Gebruikersberichtitem.

Field Type Description
id string De unieke id van het item.
type string Moet "message" zijn
object string Moet "conversation.item" zijn
role string Moet "user" zijn
content RealtimeInputTextContentPart De inhoud van het bericht.
status RealtimeItemStatus De status van het item.

RealtimeConversationAssistantMessageItem

Berichtitem assistent.

Field Type Description
id string De unieke id van het item.
type string Moet "message" zijn
object string Moet "conversation.item" zijn
role string Moet "assistant" zijn
content RealtimeOutputTextContentPart[] of RealtimeOutputAudioContentPart[] De inhoud van het bericht.
status RealtimeItemStatus De status van het item.

RealtimeConversationSystemMessageItem

Systeemberichtitem.

Field Type Description
id string De unieke id van het item.
type string Moet "message" zijn
object string Moet "conversation.item" zijn
role string Moet "system" zijn
content RealtimeInputTextContentPart[] De inhoud van het bericht.
status RealtimeItemStatus De status van het item.

RealtimeConversationFunctionCallItem

Aanvraagitem voor functieoproep.

Field Type Description
id string De unieke id van het item.
type string Moet "function_call" zijn
object string Moet "conversation.item" zijn
name string De naam van de functie die moet worden aangeroepen.
arguments string De argumenten voor de functie-aanroep als een JSON-tekenreeks.
call_id string De unieke id van de functie-aanroep.
status RealtimeItemStatus De status van het item.

RealtimeConversationFunctionCallOutputItem

Antwoorditem van functieoproep.

Field Type Description
id string De unieke id van het item.
type string Moet "function_call_output" zijn
object string Moet "conversation.item" zijn
name string De naam van de functie die is aangeroepen.
output string De uitvoer van de functie-aanroep.
call_id string De unieke id van de functie-aanroep.
status RealtimeItemStatus De status van het item.

RealtimeConversationMCPListToolsItem

McP-lijsthulpprogramma's antwoorditem.

Field Type Description
id string De unieke id van het item.
type string Moet "mcp_list_tools" zijn
server_label string Het label van de MCP-server.

RealtimeConversationMCPCallItem

MCP-oproepantwoorditem.

Field Type Description
id string De unieke id van het item.
type string Moet "mcp_call" zijn
server_label string Het label van de MCP-server.
name string De naam van het hulpprogramma dat moet worden aangeroepen.
approval_request_id string De goedkeuringsaanvraag-id voor de MCP-aanroep.
arguments string De argumenten voor de MCP-aanroep.
output string De uitvoer van de MCP-aanroep.
error object De foutdetails als de MCP-aanroep is mislukt.

RealtimeConversationMCPApprovalRequestItem

MCP-goedkeuringsaanvraagitem.

Field Type Description
id string De unieke id van het item.
type string Moet "mcp_approval_request" zijn
server_label string Het label van de MCP-server.
name string De naam van het hulpprogramma dat moet worden aangeroepen.
arguments string De argumenten voor de MCP-aanroep.

RealtimeItemStatus

Status van gespreksitems.

Allowed Values:

  • in_progress - Momenteel verwerkt
  • completed -Voltooid
  • incomplete - Onvolledig (onderbroken of mislukt)

RealtimeContentPart

Inhoudsonderdeel binnen een bericht.

RealtimeInputTextContentPart

Tekstinhoudsonderdeel.

Field Type Description
type string Moet "input_text" zijn
text string De tekstinhoud

RealtimeOutputTextContentPart

Tekstinhoudsonderdeel.

Field Type Description
type string Moet "text" zijn
text string De tekstinhoud

RealtimeInputAudioContentPart

Audio-inhoudsonderdeel.

Field Type Description
type string Moet "input_audio" zijn
audio string Optional. Met Base64 gecodeerde audiogegevens
transcript string Optional. Audio transcript

RealtimeOutputAudioContentPart

Audio-inhoudsonderdeel.

Field Type Description
type string Moet "audio" zijn
audio string Met Base64 gecodeerde audiogegevens
transcript string Optional. Audio transcript

Response Objects

RealtimeResponse

Antwoordobject dat een modeldeductieantwoord vertegenwoordigt.

Field Type Description
id string Optional. Response ID
object string Optional. Altijd "realtime.response"
status RealtimeResponseStatus Optional. Response status
status_details RealtimeResponseStatusDetails Optional. Status details
output RealtimeConversationResponseItem[] Optional. Output items
usage RealtimeUsage Optional. Gebruiksstatistieken van tokens
conversation_id string Optional. Gekoppelde gespreks-id
voice RealtimeVoice Optional. Spraak die wordt gebruikt voor antwoord
modalities string[] Optional. Gebruikte uitvoermodaliteiten
output_audio_format RealtimeOutputAudioFormat Optional. Gebruikte audio-indeling
temperature number Optional. Temperature used
max_response_output_tokens geheel getal of "inf" Optional. Maximum aantal gebruikte tokens

RealtimeResponseStatus

Antwoordstatuswaarden.

Allowed Values:

  • in_progress - Antwoord wordt gegenereerd
  • completed - Antwoord is voltooid
  • cancelled - Antwoord is geannuleerd
  • incomplete - Antwoord onvolledig (onderbroken)
  • failed - Antwoord mislukt met fout

RealtimeUsage

Gebruiksstatistieken van tokens.

Field Type Description
total_tokens integer Totaal aantal gebruikte tokens
input_tokens integer Gebruikte invoertokens
output_tokens integer Gegenereerde uitvoertokens
input_token_details TokenDetails Uitsplitsing van invoertokens
output_token_details TokenDetails Uitsplitsing van uitvoertokens

TokenDetails

Gedetailleerde uitsplitsing van tokengebruik.

Field Type Description
cached_tokens integer Optional. Gebruikte tokens in cache
text_tokens integer Optional. Gebruikte teksttokens
audio_tokens integer Optional. Gebruikte audiotokens

Error Handling

RealtimeErrorDetails

Foutinformatieobject.

Field Type Description
type string Fouttype (bijvoorbeeld "invalid_request_error", "server_error")
code string Optional. Specifieke foutcode
message string Beschrijving van door mensen leesbare fout
param string Optional. Parameter met betrekking tot de fout
event_id string Optional. Id van de client gebeurtenis die de fout heeft veroorzaakt

RealtimeConversationRequestItem

U gebruikt het RealtimeConversationRequestItem object om een nieuw item in het gesprek te maken via de gebeurtenis conversation.item.create .

Dit is een samenvoegtype dat een van de volgende opties kan zijn:

RealtimeSystemMessageItem

Een systeemberichtitem.

Field Type Description
type string Het type item.

Toegestane waarden: message
role string De rol van het bericht.

Toegestane waarden: system
content matrix van RealtimeInputTextContentPart De inhoud van het bericht.
id string De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeUserMessageItem

Een gebruikersberichtitem.

Field Type Description
type string Het type item.

Toegestane waarden: message
role string De rol van het bericht.

Toegestane waarden: user
content matrix van RealtimeInputTextContentPart of RealtimeInputAudioContentPart De inhoud van het bericht.
id string De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeAssistantMessageItem

Een assistentberichtitem.

Field Type Description
type string Het type item.

Toegestane waarden: message
role string De rol van het bericht.

Toegestane waarden: assistant
content matrix van RealtimeOutputTextContentPart De inhoud van het bericht.

RealtimeFunctionCallItem

Een functie-aanroepitem.

Field Type Description
type string Het type item.

Toegestane waarden: function_call
name string De naam van de functie die moet worden aangeroepen.
arguments string De argumenten van de functie-aanroep als een JSON-tekenreeks.
call_id string De id van het item van de functie-aanroep.
id string De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeFunctionCallOutputItem

Een uitvoeritem van een functie-aanroep.

Field Type Description
type string Het type item.

Toegestane waarden: function_call_output
call_id string De id van het item van de functie-aanroep.
output string De uitvoer van de functie-aanroep, dit is een vrije-vormtekenreeks met het functieresultaat, maar kan ook leeg zijn.
id string De unieke id van het item. Als de client geen id opgeeft, genereert de server er een.

RealtimeMCPApprovalResponseItem

Een MCP-goedkeuringsantwoorditem.

Field Type Description
type string Het type item.

Toegestane waarden: mcp_approval_response
approve boolean Of de MCP-aanvraag is goedgekeurd.
approval_request_id string De id van de MCP-goedkeuringsaanvraag.
id string De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeFunctionTool

De definitie van een functiehulpprogramma dat wordt gebruikt door het realtime-eindpunt.

Field Type Description
type string Het type hulpprogramma.

Toegestane waarden: function
name string De naam van de functie.
description string De beschrijving van de functie, inclusief gebruiksrichtlijnen. Gebruik deze functie bijvoorbeeld om de huidige tijd op te halen.
parameters object De parameters van de functie in de vorm van een JSON-object.

RealtimeItemStatus

Allowed Values:

  • in_progress
  • completed
  • incomplete

RealtimeResponseAudioContentPart

Field Type Description
type string Het type inhoudsonderdeel.

Toegestane waarden: audio
transcript string Het transcript van de audio.

Deze eigenschap kan null worden gebruikt.

RealtimeResponseFunctionCallItem

Field Type Description
type string Het type item.

Toegestane waarden: function_call
name string De naam van het item van de functie-aanroep.
call_id string De id van het item van de functie-aanroep.
arguments string De argumenten van het functie-aanroepitem.
status RealtimeItemStatus De status van het item.

RealtimeResponseFunctionCallOutputItem

Field Type Description
type string Het type item.

Toegestane waarden: function_call_output
call_id string De id van het item van de functie-aanroep.
output string De uitvoer van het functie-aanroepitem.

RealtimeResponseOptions

Field Type Description
modalities array De uitvoermodaliteiten voor het antwoord.

Toegestane waarden: text, audio

Is bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling waarmee zowel tekst- als audio-uitvoermodaliteiten mogelijk zijn. Als u alleen tekstuitvoer wilt inschakelen, stelt u in "modalities": ["text"]. U kunt alleen audio niet inschakelen.
instructions string De instructies (het systeembericht) om de antwoorden van het model te begeleiden.
voice RealtimeVoice De stem die wordt gebruikt voor het modelantwoord voor de sessie.

Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
tools matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.
temperature number De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

Standaardwaarde is "inf".
reasoning_effort ReasoningEffort Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.
conversation string Hiermee bepaalt u aan welk gesprek het antwoord wordt toegevoegd. De ondersteunde waarden zijn auto en none.

De auto waarde (of deze eigenschap niet instellen) zorgt ervoor dat de inhoud van het antwoord wordt toegevoegd aan het standaardgesprek van de sessie.

Stel deze eigenschap in om none een out-of-band-antwoord te maken waarin items niet worden toegevoegd aan het standaardgesprek.

Standaard ingesteld op "auto"
metadata map Set van maximaal 16 sleutel-waardeparen die aan een object kunnen worden gekoppeld. Dit kan handig zijn voor het opslaan van aanvullende informatie over het object in een gestructureerde indeling. Sleutels mogen maximaal 64 tekens lang zijn en waarden mogen maximaal 512 tekens lang zijn.

Bijvoorbeeld: metadata: { topic: "classification" }

RealtimeResponseSession

Het RealtimeResponseSession object vertegenwoordigt een sessie in de Realtime-API. Deze wordt gebruikt in een aantal van de server gebeurtenissen, zoals:

Field Type Description
object string Het sessieobject.

Toegestane waarden: realtime.session
id string De unieke id van de sessie.
model string Het model dat wordt gebruikt voor de sessie.
modalities array De uitvoermodaliteiten voor de sessie.

Toegestane waarden: text, audio

Is bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling waarmee zowel tekst- als audio-uitvoermodaliteiten mogelijk zijn. Als u alleen tekstuitvoer wilt inschakelen, stelt u in "modalities": ["text"]. U kunt alleen audio niet inschakelen.
instructions string De instructies (het systeembericht) om de tekst- en audioreacties van het model te begeleiden.

Hier volgen enkele voorbeelden van instructies voor het begeleiden van inhoud en indeling van tekst- en audioantwoorden:
"instructions": "be succinct"
"instructions": "act friendly"
"instructions": "here are examples of good responses"

Hier volgen enkele voorbeeldinstructies om het audiogedrag te begeleiden:
"instructions": "talk quickly"
"instructions": "inject emotion into your voice"
"instructions": "laugh frequently"

Hoewel het model deze instructies mogelijk niet altijd volgt, bieden ze richtlijnen voor het gewenste gedrag.
voice RealtimeVoice De stem die wordt gebruikt voor het modelantwoord voor de sessie.

Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
input_audio_sampling_rate integer De samplingfrequentie voor de invoeraudio.
input_audio_format RealtimeAudioFormat De indeling voor de invoeraudio.
output_audio_format RealtimeAudioFormat De indeling voor de uitvoeraudio.
input_audio_transcription RealtimeAudioInputTranscriptionSettings De instellingen voor transcriptie van audio-invoer.

Deze eigenschap kan null worden gebruikt.
turn_detection RealtimeTurnDetection De instellingen voor draaidetectie voor de sessie.

Deze eigenschap kan null worden gebruikt.
tools matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.
temperature number De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

RealtimeResponseStatusDetails

Field Type Description
type RealtimeResponseStatus De status van het antwoord.

RealtimeRateLimitsItem

Field Type Description
name string De eigenschapsnaam van de frequentielimiet waarover dit item informatie bevat.
limit integer De maximaal geconfigureerde limiet voor deze eigenschap voor frequentielimiet.
remaining integer Het resterende quotum dat beschikbaar is voor de geconfigureerde limiet voor deze frequentielimieteigenschap.
reset_seconds number De resterende tijd, in seconden, totdat deze frequentielimieteigenschap opnieuw wordt ingesteld.