Memorizzazione nella cache prompt (versione classica)

Attualmente visualizzando:Portale Foundry (versione classica) - Passare alla versione del nuovo portale Foundry

Nota

I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.

La memorizzazione nella cache dei prompt consente di ridurre la latenza complessiva delle richieste e i costi per richieste più lunghe con contenuto identico all'inizio della richiesta. "Prompt" in questo contesto fa riferimento all'input inviato al modello come parte dei completamenti della chat o delle richieste di creazione delle risposte. Anziché rielaborare gli stessi token di input più o più volte, il servizio è in grado di conservare una cache temporanea di calcoli dei token di input elaborati per migliorare le prestazioni complessive. La memorizzazione nella cache dei prompt non ha alcun impatto sul contenuto di output restituito nella risposta del modello oltre a una riduzione della latenza e dei costi.

Per i modelli supportati, i token memorizzati nella cache vengono fatturati con uno sconto sui prezzi dei token di input per i tipi di distribuzione Standard e fino a sconto del 100% sui token di input per i tipi di distribuzione Provisionati. I prezzi delle cache dei prompt sono gli stessi per entrambi i criteri di conservazione.

Conservazione della cache dei prompt

La memorizzazione nella cache dei prompt può utilizzare politiche di conservazione in memoria o politiche di conservazione estese. Quando disponibile, la memorizzazione nella cache dei prompt estesi mira a conservare la cache per più tempo, in modo che le richieste successive corrispondano più probabilmente alla cache.

Per configurare i criteri di conservazione della cache dei prompt, impostare il prompt_cache_retention parametro nell'API Risposte o Completamento chat.

Conservazione della cache dei prompt in memoria

Le cache vengono in genere cancellate entro 5-10 minuti di inattività e vengono sempre rimosse entro un'ora dall'ultimo utilizzo della cache. Le cache dei prompt non vengono condivise tra le sottoscrizioni Azure.

La conservazione della cache dei prompt in memoria è supportata con tutti i modelli OpenAI Azure GPT-4o o versione successiva. Si applica ai modelli con completamento delle conversazioni, completamento, risposte o operazioni in tempo reale. Per i modelli che non dispongono di queste operazioni, questa funzionalità non è disponibile.

Conservazione estesa della cache prompt

La conservazione estesa della cache dei prompt mantiene attivi i prefissi memorizzati nella cache per più tempo, fino a un massimo di 24 ore. La memorizzazione nella cache dei prompt estesa funziona scaricando i tensori chiave/valore nell'archiviazione locale GPU quando la memoria è piena, aumentando significativamente la capacità di archiviazione disponibile per la cache.

La conservazione estesa della cache dei prompt è disponibile per i modelli seguenti:

  • gpt-5.4
  • gpt-5.3-codex
  • gpt-5.2
  • gp5-5.1-codex-max
  • gpt-5.1
  • gpt-5.1-codex
  • gpt-5.1-codex-mini
  • gpt-5.1-chat
  • gpt-5
  • gpt-5-codex
  • gpt-4.1

Configura su richiesta

Per gpt-5.4 i modelli e versioni precedenti se non si specifica un criterio di conservazione, il valore predefinito è in_memory. I valori consentiti sono in_memory e 24h. Per tutti i modelli più recenti, il valore predefinito è 24h e in_memory non è supportato.

{
  "model": "gpt-5.4",
  "input": "Your prompt goes here...",
  "prompt_cache_retention": "24h"
}

Iniziare

Per sfruttare i vantaggi della memorizzazione nella cache delle richieste, una richiesta deve soddisfare entrambi i requisiti seguenti:

  • Lunghezza minima di 1.024 token.
  • I primi 1.024 token nel prompt devono essere identici.

Le richieste vengono instradate in base a un hash del prefisso iniziale di un prompt. L'hash usa in genere i primi 256 token, anche se la lunghezza esatta varia a seconda del modello.

Quando viene trovata una corrispondenza tra i calcoli dei token in un prompt e il contenuto corrente della cache dei prompt, si parla di un colpo di cache. I riscontri nella cache verranno visualizzati come cached_tokens sotto prompt_tokens_details nella risposta di completamento della chat.

{
  "created": 1729227448,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

Dopo i primi 1.024 hit nella cache, si verificherà un hit per ogni ulteriori 128 token identici.

Una singola differenza di caratteri nei primi 1.024 token comporterà un mancato riscontro nella cache caratterizzato da un cached_tokens valore pari a 0. La memorizzazione nella cache dei prompt è abilitata per impostazione predefinita senza alcuna configurazione aggiuntiva necessaria per i modelli supportati.

Se si specifica il parametro prompt_cache_key, viene combinato con l'hash del prefisso, consentendo di influenzare il routing e migliorare la frequenza di riscontri nella cache. Ciò è particolarmente utile quando molte richieste condividono lunghi prefissi comuni. Se le richieste per lo stesso prefisso e prompt_cache_key combinazione superano una determinata frequenza (circa 15 richieste al minuto), è possibile che alcuni vengano instradati a computer aggiuntivi, riducendo l'efficacia della cache.

Domande frequenti

Che cos'è memorizzato nella cache?

Il supporto delle funzionalità dei modelli di serie o1 varia in base al modello. Per altre informazioni, vedere la guida dedicata ai modelli di ragionamento.

La memorizzazione nella cache dei prompt è supportata per:

Memorizzazione nella cache supportata Descrizione
Messaggi Matrice di messaggi completa: sistema, sviluppatore, utente e contenuto dell'assistente
Immagini Immagini incluse nei messaggi utente, sia come collegamenti che come dati con codifica Base64. Il parametro detail deve essere impostato nello stesso modo tra le richieste.
Uso degli strumenti Sia la matrice di messaggi che le definizioni degli strumenti.
Output strutturati Lo schema di output strutturato viene aggiunto come prefisso al messaggio di sistema.

Per migliorare la probabilità che si verifichino riscontri nella cache, è necessario strutturare le richieste in modo che il contenuto ripetitivo si verifichi all'inizio della matrice di messaggi.

È possibile disabilitare la memorizzazione nella cache dei prompt?

La memorizzazione nella cache dei prompt è abilitata per impostazione predefinita per tutti i modelli supportati. Non è disponibile alcun supporto di rifiuto esplicito per la memorizzazione nella cache dei prompt.

Il Prompt Caching funziona con la Data Residency?

La memorizzazione nella cache dei prompt in memoria è compatibile con tutte le regioni di residenza dei dati. La cache estesa dei prompt archivia temporaneamente i dati nelle macchine GPU e verrà mantenuta solo nella stessa regione quando si usano i tipi di distribuzione Standard Regionale o Con provisioning regionale.