Scegliere una tecnologia di riconoscimento vocale e generazione di Azure

Foundry Tools consentono agli sviluppatori e alle organizzazioni di creare applicazioni basate su AI, avanzate e pronte per la produzione che rispettano le pratiche di AI responsabili usando API già pronte, predefinite e personalizzabili.

Questo articolo descrive le funzionalità di sintesi vocale (STT) e sintesi vocale (TTS) in Strumenti. È possibile trascrivere il parlato in testo con alta precisione, produrre voci TTS audio naturali, tradurre audio parlato e condurre conversazioni vocali di intelligenza artificiale live. Crea voci personalizzate, aggiungi parole specifiche al vocabolario di base o crea modelli personalizzati. Esegui Azure Speech negli strumenti Foundry ovunque, incluso nel cloud o ai margini in container.

Riconoscimento vocale di Azure offre funzionalità STT, TTS, traduzione vocale, identificazione voce e funzionalità vocali personalizzate. Usare i Servizi Vocali di Azure per la trascrizione in tempo reale o batch, la sintesi vocale di suono naturale, la traduzione audio multilingue e le voci personalizzate per il marchio.
Azure OpenAI in Foundry Models fornisce modelli audio, tra cui GPT-4o Realtime per conversazioni vocali a bassa latenza, modelli audio GPT-4o per la generazione audio basata su completamenti e modelli di API audio per la trascrizione STT basata su file, traduzione vocale e sintesi TTS. Usare Azure OpenAI per scenari che combinano audio con comprensione del linguaggio, ragionamento o generazione in una singola chiamata di modello.

Riconoscimento vocale di Azure

Riconoscimento vocale di Azure è un servizio in Strumenti che fornisce STT, TTS, traduzione vocale e altre funzionalità. È possibile trascrivere il parlato in testo con alta precisione, produrre voci TTS audio naturali, tradurre audio parlato e condurre conversazioni vocali di intelligenza artificiale live.

Usare Riconoscimento vocale di Azure per queste attività	Non usare Riconoscimento vocale di Azure per queste attività
Trascrivere o tradurre il parlato in testo in tempo reale o in modalità batch.	Analizzare il testo per analizzare il sentimento o estrarre entità. Per queste attività, usare Azure Language nei Foundry Tools.
Generare un parlato audio naturale dal testo usando voci neurali.	Moderare il contenuto per la sicurezza. Per la moderazione del contenuto, usare Content Safety nel piano di controllo Foundry.
Identificare i relatori in una conversazione usando la biometria vocale.	Tradurre documenti di testo mantenendo la formattazione. Per la traduzione di documenti, usare Azure Translator in Foundry Tools.
Crea voci personalizzate univoche per il tuo marchio o prodotto.

Funzionalità di Riconoscimento vocale di Azure disponibili

La tabella seguente fornisce un elenco delle funzionalità disponibili in Riconoscimento vocale di Azure.

Feature	Descrizione
STT	Converte l'audio in testo. Scegliere tra trascrizioni in tempo reale per lo streaming audio, trascrizione rapida per file audio prerecordati o trascrizione batch per l'elaborazione asincrona di grandi volumi di audio.
TTS	Converte il testo di input in sintesi vocale umana usando voci neurali basate su reti neurali profonde. Usare Speech Synthesis Markup Language (SSML) per ottimizzare il passo, la pronuncia, la frequenza di pronuncia e il volume.
Avatar TTS	Converte il testo in un video digitale di un essere umano fotorealista che parla con una voce naturale. Il video può essere sintetizzato in modalità asincrona o in tempo reale per creare video di avatar parlanti sintetici e realistici.
Traduzione vocale	Consente la traduzione multilingue in tempo reale della voce in applicazioni, strumenti e dispositivi. Usarlo per la traduzione vocale (S2S) e STT.
Modello linguistico vocale (anteprima)	Offre una migliore qualità, una comprensione contestuale approfondita, un supporto multilingue e funzionalità di ottimizzazione dei prompt. Supporta le attività di trascrizione e traduzione.
Identificazione della lingua	Identifica le lingue parlate nell'audio confrontandole con un elenco di lingue supportate. Usare l'identificazione della lingua autonomamente, con il riconoscimento STT o con la traduzione vocale.
Valutazione della pronuncia	Valuta la pronuncia vocale e fornisce ai parlanti un feedback sull'accuratezza e sulla fluenza dell'audio parlato. Gli studenti di lingue possono esercitarsi, ottenere feedback istantaneo e migliorare la pronuncia.
Riconoscimento vocale personalizzato	Creare ed eseguire il training di modelli di riconoscimento vocale personalizzati usando dati acustici, linguistici e di pronuncia quando il modello di base non è sufficiente per l'audio che contiene rumore ambientale o gergo specifico del settore.
Voce personalizzata	Crea una voce personalizzata riconoscibile e unica per il tuo marchio o prodotto. Le voci personalizzate sono private e possono offrire un vantaggio competitivo.

Scegliere una funzionalità voce di Azure

La tabella seguente fornisce un elenco dei possibili casi d'uso per Riconoscimento vocale di Azure.

Caso d'uso	Feature	Descrizione
Sottotitolaggio	STT	Sincronizzare le didascalie con l'audio di input, applicare filtri volgari, ottenere risultati parziali, applicare personalizzazioni e identificare le lingue parlate per scenari multilingue.
Creazione di contenuti audio	TTS	Fare interazioni con chatbot e agenti vocali più naturali e coinvolgenti, convertire testi digitali come e-book in audiobook e migliorare i sistemi di navigazione in auto.
Trascrizione del call center	STT	Trascrivere le chiamate in tempo reale o elaborare un batch di chiamate, oscurare le informazioni personali ed estrarre informazioni dettagliate come il sentiment degli utenti per migliorare l'esperienza dei clienti.
Apprendimento linguistico	Valutazione della pronuncia	Fornire feedback sulla valutazione della pronuncia agli studenti di lingua, supportare la trascrizione in tempo reale per le conversazioni di apprendimento remoto e leggere i materiali didattici ad alta voce usando voci neurali.
Voice Live API	TTS	Crea interfacce conversazionali naturali e simili a quelle umane per applicazioni ed esperienze. L'API fornisce interazioni veloci e affidabili tra un utente e un'implementazione dell'agente.
Creazione di avatar video	Avatar TTS	Creare video avatar parlanti sintetici realistici e di alta qualità per varie applicazioni in tempo reale e batch, rispettando al contempo le pratiche di IA responsabili.

Opzioni di integrazione

È possibile integrare Riconoscimento vocale di Azure nelle applicazioni usando gli strumenti seguenti:

Speech Studio offre strumenti basati sull'interfaccia utente per la creazione e l'integrazione di funzionalità di Riconoscimento vocale di Azure usando un approccio senza codice.
Speech SDK espone molte funzionalità di Riconoscimento vocale di Azure in più linguaggi di programmazione e piattaforme.
Speech CLI è uno strumento da riga di comando che consente di usare il servizio Speech di Azure senza scrivere codice.
Le API REST consentono di accedere ai servizi vocali di Azure quando non puoi o non dovresti usare lo Speech SDK.

Opzioni di distribuzione

È possibile distribuire Riconoscimento vocale di Azure nel cloud o in locale. Usando i contenitori, è possibile eseguire il servizio più vicino ai dati per motivi di conformità, sicurezza o altri motivi operativi. La distribuzione di Riconoscimento vocale di Azure nei cloud sovrani è disponibile per le entità governative e i partner.

Azure OpenAI

Azure OpenAI fornisce modelli audio tramite le interfacce seguenti:

API in tempo reale per conversazioni vocali a bassa latenza
API Completamento chat con audio per la generazione e trascrizione dell'audio in modo flessibile in una singola chiamata di modello
API audio tramite l'endpoint /audio per trascrizione, traduzione e TTS basati su file.

Modelli audio OpenAI disponibili di Azure

La tabella seguente elenca i modelli audio OpenAI di Azure disponibili per API e funzionalità.

API	Capacità	Models	Descrizione
API in tempo reale	Conversazione vocale in tempo reale	`gpt-realtime`, `gpt-realtime-mini`, `gpt-4o-realtime-previewgpt-4o-mini-realtime-preview`	Bassa latenza, conversazioni con input e output vocale per agenti vocali live, assistenti vocali interattivi e scenari di streaming audio
API di completamento chat	Generazione e trascrizione audio	`gpt-4o-audio-preview`, `gpt-4o-mini-audio-preview`, `gpt-audiogpt-audio-mini`	Combina l'input e l'output audio con il ragionamento linguistico, il riepilogo o la generazione in una singola chiamata di modello unico.
Audio API `/audio/transcriptions`	STT	`whisper`, `gpt-4o-transcribe`, `gpt-4o-mini-transcribegpt-4o-transcribe-diarize`	- Trascrizione basata su file dell'audio preregistrato - Il `gpt-4o-transcribe-diarize` modello include la diarizzazione dell'altoparlante
Audio API `/audio/translations`	Traduzione vocale	`whisper`	Converte l'audio parlato in lingue supportate in testo inglese
Audio API `/audio/speech`	TTS	`tts`, `tts-hd`, `gpt-4o-mini-tts`	- Sintetizza il testo in un parlato naturale - Il `tts-hd` modello è ottimizzato per la qualità e `gpt-4o-mini-tts` supporta lo stile e il tono guidati dal prompt

Quando usare l'audio OpenAI di Azure e Riconoscimento vocale di Azure

Nella tabella seguente sono elencate le attività più adatte per i modelli audio OpenAI di Azure e le attività più adatte a Riconoscimento vocale di Azure.

Usare modelli audio OpenAI di Azure	Usare Riconoscimento vocale di Azure
Sono necessarie conversazioni vocali in tempo reale a bassa latenza con un modello di intelligenza artificiale generativa usando l'API Realtime.	Hai bisogno di una trascrizione vocale in grande quantità in tempo reale o in modalità batch con precisione e costi prevedibili.
È necessaria la trascrizione o la traduzione per utilizzo generico senza vocabolario personalizzato o ottimizzazione acustica usando i modelli audio Whisper o GPT-4o.	È necessaria la diarizzazione dell'altoparlante, i modelli di riconoscimento vocale personalizzati o il vocabolario personalizzato per l'audio specifico del dominio o rumoroso.
Il carico di lavoro combina l'input vocale con il ragionamento downstream, il riepilogo o la comprensione del linguaggio in una singola chiamata al modello.	È necessario un output TTS dal suono naturale utilizzando voci neurali, incluse le voci personalizzate del marchio create con voce personalizzata.
È necessaria un'elaborazione audio non pianificata e flessibile che trae vantaggio dal controllo basato su prompt o TTS con stile guidato dal prompt usando `gpt-4o-mini-tts`.	È necessaria la distribuzione locale o su un container per i requisiti di conformità, residenza dei dati o cloud sovrano.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-24