Introduzione
Gli strumenti di Riconoscimento vocale di Azure in Foundry offrono funzionalità di riconoscimento vocale e sintesi vocale che è possibile integrare nelle applicazioni di intelligenza artificiale. Queste funzionalità consentono di trascrivere audio in testo e sintetizzare la sintesi vocale naturale dal testo.
Anche se è possibile chiamare queste funzionalità direttamente tramite Speech SDK o le API REST, è anche possibile renderle disponibili a un agente di intelligenza artificiale tramite il server MCP (Speech Model Context Protocol) di Azure. Questo approccio consente all'agente di gestire le attività vocali in base alla richiesta del linguaggio naturale di un utente, senza dover scrivere codice specifico per ogni operazione di riconoscimento vocale.
Si supponga, ad esempio, di lavorare per un'azienda che deve elaborare le chiamate di supporto clienti. Il tuo team deve trascrivere le chiamate registrate in testo per l'analisi e generare risposte audio che possono essere riprodotte per i clienti. Anziché creare integrazioni separate per la trascrizione e la sintesi, è possibile creare un agente di intelligenza artificiale che usa il server MCP di Riconoscimento vocale di Azure per eseguire entrambe le attività tramite una singola connessione allo strumento.
In questo modulo si apprenderà come funziona il server McP di Riconoscimento vocale di Azure, come connetterlo a un agente di intelligenza artificiale in Microsoft Foundry e come creare un'applicazione client che interagisce con l'agente a livello di codice.
Annotazioni
Il server MCP voce di Azure è attualmente in anteprima pubblica. I dettagli descritti in questo modulo sono soggetti a modifiche.