Novità di Azure OpenAI in Microsoft Foundry Models (versione classica)

Si applica solo a:Portale di Foundry (versione classica). Questo articolo non è disponibile per il nuovo portale foundry. Altre informazioni sul nuovo portale.

Nota

I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.

Questo articolo fornisce un riepilogo delle versioni più recenti e degli aggiornamenti principali della documentazione per Azure OpenAI.

Maggio 2026

GPT Realtime Translate e GPT Realtime Whisper

Gli articoli sui nuovi concetti descrivono le funzionalità e i casi d'uso per i modelli di traduzione e trascrizione in tempo reale più recenti:

  • GPT Realtime Translate : copre la traduzione audio basata su flusso continuo per eventi multilingue live, supporto clienti e assistenti vocali.
  • GPT Realtime Whisper : copre la trascrizione in streaming a bassa latenza per sottotitoli live, monitoraggio e flussi di lavoro di archiviazione.

Febbraio 2026

Modelli GPT-Realtime-1.5 e GPT-Audio-1.5 rilasciati

I gpt-realtime-1.5 modelli e gpt-audio-1.5 sono ora disponibili.

  • Questi modelli si basano sull'GPT-Realtime dell'anno precedente e GPT-Audio con miglioramenti apportati alle istruzioni seguenti, al supporto multilingue e alle chiamate agli strumenti, mantenendo al tempo stesso le interazioni a bassa latenza e le interazioni in tempo reale che gli sviluppatori necessitano di applicazioni voice-first.
  • Provarli con le API di completamento della chat esistenti in Microsoft Foundry.

Dicembre 2025

Il modello GPT-image-1.5 è ora disponibile

GPT-image-1.5 è il modello di generazione di immagini all'avanguardia più recente di OpenAI. Offre prestazioni migliorate, qualità, controlli di modifica e conservazione dei volti. In modalità di modifica, il modello supporta input_fidelity elevate e l'aggiunta o la rimozione di un aspetto dell'immagine di input mantenendone altri.

Richiedere l'accesso: applicazione modello di accesso limitato

Funzionalità chiave del modello:

  • Include tutte le funzionalità di GPT-image-1:
    • Generazione di testo a immagine
    • Generazione da immagine a immagine (modifica)
  • Ripristino immagine
  • Generazioni di immagini di alta qualità, fino a 1024x1536 e 1536x1024 pixel
  • Conservazione del viso

Seguire la guida pratica per la generazione di immagini per iniziare a usare questo modello.

Aggiornamento automatico del modello di riconoscimento vocale

gpt-4o-mini-transcribe-2025-12-15

  • Miglioramento dell'accuratezza e dell'affidabilità della trascrizione per gli scenari in tempo reale, con circa 50% frequenza di errore delle parole inferiore rispetto al modello precedente gpt-4o-transcribe-mini nei benchmark in inglese.
  • Migliora le prestazioni multilingue in giapponese, in lingue Indic e in altre lingue.
  • Riduce le allucinazioni sul silenzio fino a 4×, rendendola una scelta più affidabile per ambienti rumorosi e flussi audio reali.
  • L'input rimane audio, con il testo come output e la distribuzione avviene solo tramite API.

Aggiornamento del modello Realtime-mini (da discorso a discorso)

gpt-realtime-mini-2025-12-15

  • Parità delle funzionalità con il modello gpt-realtime completo nel seguire le istruzioni e nelle chiamate di funzione.
  • L'input e l'output sono entrambi audio e la distribuzione avviene esclusivamente tramite API.

Aggiornamento del modello di sintesi vocale

gpt-4o-mini-tts-2025-12-15

  • Imposta un nuovo benchmark per la sintesi vocale multilingue.
  • Produce un parlato più naturale e simile all'uomo con un minor numero di artefatti e una migliore somiglianza dell'altoparlante.
  • L'input è testo, l'output è audio e la distribuzione è solo API.

Ottobre 2025

Supporto in tempo reale per API SIP

L'API Realtime supporta ora SIP, abilitando le connessioni di telefonia a realtimeapi. Per altre informazioni, vedere la documentazione SIP Realtime.

Modello audio GPT-4o rilasciato

  • Il gpt-4o-transcribe-diarize modello di sintesi vocale in testo viene rilasciato. Si tratta di un modello di riconoscimento vocale automatico (ASR) che converte la lingua parlata in testo in tempo reale. Consente alle organizzazioni di sbloccare immediatamente informazioni dettagliate dalle conversazioni con latenza ultra bassa e un'accuratezza elevata in più di 100 lingue. Questa funzionalità è essenziale per i flussi di lavoro in cui i dati vocali determinano decisioni, ad esempio il supporto clienti, le riunioni virtuali e gli eventi live.

La diarizzazione è il processo di identificazione di chi ha parlato all'interno di un flusso audio. Trasforma le conversazioni in trascrizioni con attributi voce, consentendo alle aziende di estrarre informazioni dettagliate interattive dalle riunioni, dalle chiamate dei clienti e dagli eventi live. Con modelli avanzati come gpt-4o-transcribe-diarize, le organizzazioni ottengono chiarezza e contesto in tempo reale, trasformando la voce in dati strutturati che guidano decisioni più intelligenti e migliorano la produttività, supportando il riconoscimento vocale automatico.

Usare questo modello tramite le /audio API e /realtime .

GPT-image-1-mini

Il gpt-image-1-mini modello è ora disponibile per le distribuzioni globali. Si tratta di una versione più piccola del gpt-image-1 modello che offre un buon equilibrio tra prestazioni e costi. Tutti i casi d'uso sono attualmente supportati, ad eccezione delle modifiche delle immagini e della precisione dell'input.

Richiedere l'accesso: applicazione modello di accesso limitato

Seguire la guida pratica per la generazione di immagini per iniziare a usare questo modello.

Filtro del contenuto del rilevamento delle informazioni personali

Il rilevamento delle informazioni personali identificabili (PII) è ora disponibile come filtro contenuto integrato. Questa funzionalità consente di identificare e bloccare le informazioni riservate negli output LLM, migliorando la privacy dei dati. Per altre informazioni, vedere la documentazione sul rilevamento delle informazioni personali .

Settembre 2025

GPT-5-codex è ora disponibile

Supporto video a video Sora

Il modello Sora di OpenAI supporta ora la generazione da video a video. È possibile fornire un breve video come input per generare un nuovo video più lungo che incorpora il video di input. Per iniziare, vedere la guida introduttiva .

Agosto 2025

Supporto immagini in video Sora

Il modello Sora di OpenAI supporta ora la generazione da immagine a video. È possibile fornire un'immagine come input al modello per generare un video che incorpora il contenuto dell'immagine. È anche possibile specificare il fotogramma del video in cui deve essere visualizzata l'immagine: non deve essere l'inizio. Per iniziare, vedere la guida introduttiva .

Questo modello Sora è ora disponibile nell'area centrale della Svezia e negli Stati Uniti orientali 2.

Modello API audio in tempo reale disponibile a livello generale

I modelli GPT RealTime e Audio di OpenAI sono ora disponibili a livello generale nei modelli Microsoft Foundry.

Miglioramenti del modello:

  • Miglioramento nel seguire le istruzioni: capacità migliorate di seguire le istruzioni relative al tono, ritmo e escalation in modo più accurato e affidabile. Può anche cambiare lingua.
  • Nuove voci standard, Marin e Cedar, che migliorano la naturalezza e la chiarezza per la sintesi vocale.
  • Qualità audio migliorata: output privo di glitch, riproduzione alfanumerica migliorata e controllo delle modalità.

Miglioramenti del servizio API in tempo reale:

  • Inserimento di immagini: aggiungere e discutere immagini tramite la voce senza requisiti video.
  • Chiamata di funzioni migliorata: possibilità avanzata di chiamare codice personalizzato definito dagli sviluppatori. La chiamata a funzione asincrona è supportata, consentendo alle sessioni di continuare mentre è in sospeso una chiamata di funzione.
  • Modalità conversazione: comportamento reale di gestione del turno per interazioni naturali. La modalità conversazione usa VAD per richiedere agli utenti se non viene rilevata alcuna risposta, migliorando l'usabilità del mondo reale per le interazioni simili al telefono.

È consigliabile che tutti i clienti passino ai modelli ga appena lanciati per sfruttare appieno le funzionalità più recenti. Visitare la documentazione di Azure OpenAI e il portale Microsoft Foundry per esplorare le funzionalità e integrarle nelle tue applicazioni.

Spillover approvvigionato in disponibilità generale (GA)

Lo spillover è ora disponibile a livello generale. La funzionalità di overflow gestisce le fluttuazioni del traffico sulle distribuzioni provisionate inoltrando le eccedenze a una distribuzione standard designata. Per ulteriori informazioni su come ottimizzare l'utilizzo per le distribuzioni provisionate con spillover, vedere Gestire il traffico con spillover per le distribuzioni provisionate.

Modelli GPT-5 disponibili

Nuova versione di model-router

  • Il router modello supporta ora i modelli serie GPT-5.

  • Il modello router per Microsoft Foundry è un modello di intelligenza artificiale per chat distribuibile che seleziona automaticamente il modello di chat più adatto per rispondere a una determinata richiesta. Per altre informazioni sul funzionamento del router del modello e sui relativi vantaggi e limitazioni, vedere la guida ai concetti relativi al router del modello. Per usare il router modello con l'API Completamenti, seguire la guida pratica.

Luglio 2025

Aggiornamento GPT-image-1 (anteprima)

  • Parametro di fedeltà di input: il input_fidelity parametro nell'API di modifica dell'immagine consente di controllare con quale precisione il modello trasmette lo stile e le caratteristiche dei soggetti nell'immagine originale (input). Ciò è utile per:

    • Modifica delle foto mantenendo le caratteristiche del viso; creazione di avatar che sembrano persone originali in diversi stili; combinazione di visi da più persone in un'unica immagine.
    • Mantenimento dell'identità del marchio nelle immagini generate per asset di marketing, mockup, fotografia del prodotto.
    • E-commerce e moda, dove è necessario modificare immagini di outfit o dettagli del prodotto senza compromettere il realismo.
  • Streaming di immagini parziali: le API di generazione e modifica dell'immagine supportano il flusso di immagini parziali, in cui restituiscono immagini con contenuto parzialmente sottoposto a rendering durante il processo di generazione delle immagini. Visualizzare queste immagini all'utente per fornire feedback visivo precedente e mostrare lo stato di avanzamento dell'operazione di generazione dell'immagine.

Giugno 2025

Nuovi modelli codex-mini & o3-pro rilasciati

Maggio 2025

Generazione di video Sora rilasciata (anteprima)

Il modello Sora (2025-05-02) è un modello di generazione video di OpenAI che può creare scene video realistiche e fantasiose dalle istruzioni di testo.

Per iniziare, seguire la guida introduttiva Alla generazione di video . Per altre informazioni, vedere la Guida ai concetti relativi alla generazione di video .

Messa in evidenza per scudi prompt (anteprima)

Spotlighting è una funzionalità secondaria dei scudi di prompt che migliora la protezione dagli attacchi indiretti (documenti incorporati) contrassegnando i documenti di input con una formattazione speciale per indicare una fiducia inferiore per il modello. Per altre informazioni, vedere la documentazione relativa al filtro degli scudi prompt .

Router modello (anteprima)

Il model router per Microsoft Foundry è un modello di chat distribuibile di intelligenza artificiale che seleziona automaticamente il miglior modello di chat sottostante per rispondere a una determinata richiesta. Per altre informazioni sul funzionamento del router del modello e sui relativi vantaggi e limitazioni, vedere la guida ai concetti relativi al router del modello. Per usare il router del modello con l'API Completamenti, seguire la guida passo passo.

Aprile 2025

Supporto API in tempo reale (versione di anteprima) per WebRTC

L'API Realtime (anteprima) supporta ora WebRTC, abilitando lo streaming audio in tempo reale e le interazioni a bassa latenza. Questa funzionalità è ideale per le applicazioni che richiedono feedback immediato, ad esempio supporto clienti live o assistenti vocali interattivi. Per altre informazioni, vedere la documentazione dell'API Realtime (anteprima).

GPT-image-1 rilasciato (anteprima, accesso limitato)

GPT-image-1 (2025-04-15) è il modello di generazione di immagini più recente di Azure OpenAI. Offre importanti miglioramenti rispetto a DALL-E, tra cui:

  • Meglio rispondere alle istruzioni precise.
  • Esegue affidabilmente il rendering del testo.
  • Accetta le immagini come input, che consente le nuove funzionalità di modifica e inserimento delle immagini.

Richiedere l'accesso: applicazione modello di accesso limitato

Seguire la guida pratica alla generazione di immagini per iniziare a usare il nuovo modello.

Modelli o4-mini e o3 rilasciati

o4-mini e o3 i modelli sono ora disponibili. Questi sono i modelli di ragionamento più recenti di Azure OpenAI che offrono motivi, qualità e prestazioni migliorati. Per altre informazioni, vedere la pagina introduzione ai modelli di ragionamento.

GPT-4.1 rilasciato

Sono ora disponibili GPT 4.1 e GPT 4.1 nano. Questi sono i modelli più recenti di Azure OpenAI. GPT 4.1 ha un limite di 1 milione di token nel contesto. Per altre informazioni, vedere la pagina dei modelli.

Modelli audio gpt-4o rilasciati

Sono ora disponibili nuovi modelli audio basati su GPT-4o.

  • I modelli di riconoscimento vocale gpt-4o-transcribe e gpt-4o-mini-transcribe vengono rilasciati. Usare questi modelli tramite le API /audio e /realtime.

  • Il gpt-4o-mini-tts modello di sintesi vocale è stato rilasciato. Usare il modello gpt-4o-mini-tts per la sintesi del testo in parlato tramite l'API /audio.

Per altre informazioni sui modelli disponibili, vedere la documentazione sui modelli e sulle versioni.

Marzo 2025

API Risposte e modello di anteprima dell'utilizzo del computer

L'API Responses è una nuova API con stato da Azure OpenAI. Riunisce le migliori capacità delle API di completamento della chat e delle API dell'assistente in un'unica esperienza unificata. L'API Risposte aggiunge anche il supporto per il nuovo computer-use-preview modello, che supporta la funzionalità di uso del computer .

Per l'accesso a è richiesta la registrazione e l'accesso sarà concesso in base ai criteri di idoneità di Microsoft. I clienti che hanno accesso ad altri modelli di accesso limitato devono comunque richiedere l'accesso per questo modello.

Richiedere l'accesso: computer-use-preview applicazione modello di accesso limitato

Per altre informazioni sulle funzionalità del modello e sulla disponibilità dell'area, vedere la documentazione dei modelli.

GIF animato del modello computer-use-preview integrato con Playwright.

Codice demo di integrazione Playwright.

Spillover con provisioning (versione di anteprima)

Il meccanismo di spillover gestisce le fluttuazioni del traffico sulle distribuzioni provisionate reindirizzando le eccedenze a una distribuzione standard designata. Per ulteriori informazioni su come ottimizzare l'utilizzo delle distribuzioni con provisioning tramite lo spillover, consultare Gestire il traffico con spillover per le distribuzioni con provisioning (anteprima).

Specificare le configurazioni di filtro del contenuto

Oltre alla configurazione del filtro del contenuto a livello di distribuzione, viene ora specificata anche un'intestazione della richiesta che consente di specificare la configurazione personalizzata in fase di richiesta per ogni chiamata API. Per altre informazioni, vedere Usare i filtri di contenuto (anteprima).

Febbraio 2025

GPT-4.5 Preview

Il modello GPT più recente che eccelle in diverse attività di testo e immagine è ora disponibile in Azure OpenAI.

Per altre informazioni sulle funzionalità del modello e sulla disponibilità dell'area, vedere la documentazione dei modelli.

API dei completamenti archiviati

I completamenti archiviati consentono di acquisire la cronologia delle conversazioni dalle sessioni di completamento della chat da usare come set di dati per le valutazioni e l'ottimizzazione.

Distribuzioni standard della zona dati o3-mini

o3-mini è ora disponibile per le distribuzioni standard globali e standard della zona dati per i clienti con accesso limitato registrato.

Per altre informazioni, vedere la guida al modello di ragionamento.

gpt-4o mini audio è stato rilasciato

Il modello gpt-4o-mini-audio-preview (2024-12-17) è l'ultimo modello per il completamento audio. Per altre informazioni, vedere la guida introduttiva alla generazione di audio.

Il modello gpt-4o-mini-realtime-preview (2024-12-17) è il più recente modello audio in tempo reale. I modelli in tempo reale usano lo stesso modello audio GPT-4o sottostante dell'API di completamento, ma è ottimizzato per interazioni audio a bassa latenza e in tempo reale. Per ulteriori informazioni, vedere la guida rapida per l'audio in tempo reale.

Per altre informazioni sui modelli disponibili, vedere la documentazione sui modelli e sulle versioni.

Gennaio 2025

o3-mini pubblicato

o3-mini (2025-01-31) è il modello di ragionamento più recente, offrendo capacità di ragionamento avanzate. Per altre informazioni, vedere la guida al modello di ragionamento.

Completamenti audio di GPT-4o

Il gpt-4o-audio-preview modello è ora disponibile per le distribuzioni globali nelle aree Stati Uniti orientali 2 e Svezia centrale. Utilizzare il modello gpt-4o-audio-preview per la generazione audio.

Il gpt-4o-audio-preview modello introduce la modalità audio nell'API esistente /chat/completions . Il modello audio espande il potenziale per le applicazioni di intelligenza artificiale nelle interazioni di testo e in base alla voce e all'analisi audio. Le modalità supportate nel gpt-4o-audio-preview modello includono: testo, audio e testo + audio. Per altre informazioni, vedere la guida introduttiva alla generazione di audio.

Nota

L'API Realtime usa lo stesso modello audio GPT-4o sottostante dell'API di completamento, ma è ottimizzato per interazioni audio in tempo reale a bassa latenza.

API GPT Realtime 2024-12-17

La gpt-4o-realtime-preview versione del modello 2024-12-17 è disponibile per le distribuzioni globali nelle aree Stati Uniti orientali 2 e Svezia centrale. Usare il gpt-4o-realtime-preview modello versione 2024-12-17 anziché la gpt-4o-realtime-preview versione 2024-10-01-preview per le interazioni audio in tempo reale.

  • Aggiunta del supporto per la memorizzazione nella cache dei prompt per il modello gpt-4o-realtime-preview.
  • Aggiunta del supporto per le nuove voci. I gpt-4o-realtime-preview modelli supportano ora le voci seguenti: alloy, ash, balladcoral, echo, sage, shimmer. verse
  • I limiti di frequenza non sono più basati sulle connessioni al minuto. La limitazione della frequenza è ora basata su RPM (richieste al minuto) e TPM (token al minuto) per il gpt-4o-realtime-preview modello. I limiti di frequenza per ogni gpt-4o-realtime-preview distribuzione del modello sono 100 K TPM e 1 K RPM. Durante l'anteprima, Azure AI Foundry Portal e le API potrebbero visualizzare in modo impreciso limiti di velocità diversi. Anche se si tenta di impostare un limite di velocità diverso, il limite di velocità effettivo è 100 K TPM e 1 K RPM.

Per ulteriori informazioni, consulta il quickstart audio in tempo reale GPT e la guida pratica.

Dicembre 2024

modello di ragionamento o1 rilasciato per l'accesso limitato

Il modello più recente o1 è ora disponibile per l'accesso alle API e la distribuzione del modello. Registration è obbligatorio e l'accesso verrà concesso in base ai criteri di idoneità di Microsoft. I clienti che in precedenza hanno applicato e ricevuto l'accesso a o1-preview, non devono riapplicare perché sono automaticamente nell'elenco di attesa per il modello più recente.

Richiedere l'accesso: applicazione modello di accesso limitato

Per altre informazioni sui modelli di serie avanzati o1 , vedere Introduzione ai modelli di ragionamento delle serie o1.

Disponibilità dell'area

Modello Regione
o1
(Versione: 2024-12-17)
Stati Uniti orientali 2 (standard globale)
Svezia centrale (standard globale)

Ottimizzazione delle preferenze (anteprima)

L'ottimizzazione delle preferenze dirette (DPO) è una nuova tecnica di allineamento per i modelli linguistici di grandi dimensioni, progettata per regolare i pesi del modello in base alle preferenze umane. A differenza dell'apprendimento per rinforzo dal feedback umano (RLHF), il DPO non richiede l'adattamento di un modello di ricompensa e usa dati più semplici (preferenze binarie) per il training. Questo metodo è più leggero e veloce dal punto di vista computazionale, rendendolo altrettanto efficace in corrispondenza dell'allineamento, pur essendo più efficiente. DPO è particolarmente utile negli scenari in cui elementi soggettivi come tono, stile o preferenze di contenuto specifiche sono importanti. Siamo lieti di annunciare l'anteprima pubblica del DPO in Azure OpenAI, a partire dal modello gpt-4o-2024-08-06.

Per ottimizzare la disponibilità dell'area del modello, vedere la pagina dei modelli.

Completamenti archiviati e distillazione

I completamenti archiviati consentono di acquisire la cronologia delle conversazioni dalle sessioni di completamento della chat da usare come set di dati per le valutazioni e l'ottimizzazione.

GPT-4o 2024-11-20

gpt-4o-2024-11-20 è ora disponibile per la distribuzione standard globale in:

  • Stati Uniti orientali
  • Stati Uniti orientali 2
  • Stati Uniti centro-settentrionali
  • Stati Uniti centro-meridionali
  • Stati Uniti occidentali
  • Stati Uniti occidentali 3
  • Svezia centrale

NUOVO tipo di distribuzione con provisioning dell'area dati

Le distribuzioni con provisioning della zona dati sono disponibili nella stessa risorsa OpenAI Azure di tutti gli altri tipi di distribuzione OpenAI Azure, ma consentono di usare Azure, l'infrastruttura globale per instradare dinamicamente il traffico al centro dati all'interno della zona dati definita da Microsoft con la migliore disponibilità per ogni richiesta. Le distribuzioni con provisioning della zona dati offrono capacità di elaborazione del modello riservata per una velocità effettiva elevata e prevedibile utilizzando l'infrastruttura di Azure all'interno delle zone dati specificate da Microsoft. Le distribuzioni con provisioning della zona dati sono supportate nei modelli gpt-4o-2024-08-06, gpt-4o-2024-05-13, e gpt-4o-mini-2024-07-18.

Per altre informazioni, vedere la guida ai tipi di distribuzione.

Passaggi successivi

Scopri di più sui modelli sottostante che alimentano Azure OpenAI.