Informazioni sul server MCP di Riconoscimento vocale di Azure

7 minuti

Il server MCP di Riconoscimento vocale di Azure connette gli agenti di intelligenza artificiale ad Azure Speech in Foundry Tools tramite il protocollo MCP (Model Context Protocol). Prima di esplorare il server MCP voce, è utile comprendere qual è il mcp e come consente agli agenti di usare strumenti esterni.

Che cos'è il Model Context Protocol?

Il protocollo MCP (Model Context Protocol) è un protocollo aperto che definisce il modo in cui gli agenti di intelligenza artificiale interagiscono con strumenti esterni, origini dati e servizi. MCP usa un'architettura client-server con i componenti seguenti:

Host: applicazione che esegue l'agente, ad esempio Microsoft Foundry o un'app personalizzata.
Client: componente all'interno dell'host che gestisce le connessioni ai server MCP e gestisce la comunicazione.
Server: programma che espone strumenti, risorse e richiede che un agente possa individuare e chiamare.

Quando un agente si connette a un server MCP, riceve un catalogo di strumenti disponibili insieme alle descrizioni di ciò che fa ogni strumento. L'agente può quindi scegliere lo strumento corretto in base alla richiesta dell'utente. Questo approccio viene chiamato individuazione dinamica degli strumenti : l'agente non necessita di una conoscenza hardcoded di ogni strumento. Esegue invece una query sul server MCP in fase di esecuzione per scoprire cosa è disponibile.

Il vantaggio principale degli agenti di intelligenza artificiale di MCP è la flessibilità. Gli strumenti possono essere aggiunti, aggiornati o rimossi nel server senza modificare l'agente stesso. L'agente ha sempre accesso alle definizioni degli strumenti più recenti, che semplifica la manutenzione e la scalabilità delle soluzioni basate su MCP.

Suggerimento

Per altre informazioni sull'architettura MCP e su come creare integrazioni personalizzate degli strumenti MCP, vedere il modulo Integrare MCP Tools con Gli agenti di intelligenza artificiale di Azure .

Funzionalità del server MCP di Riconoscimento vocale di Azure

Il server MCP di Riconoscimento vocale di Azure espone due funzionalità vocali principali come strumenti che qualsiasi agente compatibile con MCP può chiamare:

Capability	Descrizione
Trascrizione vocale (Riconosci)	Converte i file audio in testo usando il riconoscimento vocale avanzato. Supporta WAV, MP3, OGG, FLAC, MP4, M4A, AAC e altri formati audio comuni. Include opzioni per la selezione della lingua, gli hint di frase per migliorare l'accuratezza, il filtro delle espressioni volgari e i formati di output dettagliati o semplici.
Sintesi vocale	Converte l'input di testo in file audio dal suono naturale utilizzando voci di sintesi vocale neurale. Supporta più lingue e voci (ad esempio, `en-US-JennyNeural` o `en-GB-SoniaNeural`) e genera l'output in WAV, MP3 o in altri formati.

Quando si connette il server MCP voce a un agente, l'agente riceve gli strumenti vocali disponibili e le relative descrizioni. In base alla richiesta dell'utente, l'agente decide quale strumento chiamare. Ad esempio, se un utente dice "Trascrivere questo file audio", l'agente chiama lo strumento di sintesi vocale. Se l'utente dice "Genera riconoscimento vocale da questo testo", l'agente chiama lo strumento di sintesi vocale.

Modalità di selezione degli strumenti da parte dell'agente

Il processo di selezione degli strumenti funziona nel modo seguente:

L'utente invia una richiesta all'agente.
L'agente analizza la richiesta e determina quale attività di riconoscimento vocale deve essere eseguita.
L'agente controlla gli strumenti MCP disponibili e le relative descrizioni per trovare la corrispondenza migliore.
L'agente chiama lo strumento selezionato tramite il server MCP, passando l'input pertinente (URL del file audio o testo).
Il server MCP elabora la richiesta usando Riconoscimento vocale di Azure e restituisce i risultati (testo trascritto o un collegamento a un file audio).
L'agente presenta i risultati all'utente in una risposta in linguaggio naturale.

L'agente gestisce la selezione dello strumento in modo autonomo, quindi non è necessario scrivere la logica di instradamento per determinare se un prompt richiede il riconoscimento vocale o la sintesi vocale.

Requisiti di archiviazione

A differenza degli strumenti MCP solo testo, il server MCP di Riconoscimento vocale di Azure funziona con file audio, che richiede un account di archiviazione di Azure.

Sintesi Vocale: il server MCP di sintesi vocale salva i file audio generati in un contenitore Azure Blob Storage. La risposta dell'agente include un collegamento al file audio generato.
Trascrizione da voce a testo: l'agente può trascrivere file audio da un URL accessibile pubblicamente o da un contenitore di Archiviazione BLOB di Azure accessibile tramite un URL SAS.

Quando si connette il server MCP Voce all'agente, si specifica un URL SAS per un contenitore BLOB. L'URL SAS concede al server MCP l'autorizzazione per leggere e scrivere file nel contenitore indicato.

Importante

Trattare gli URL SAS come segreti. Usare la scadenza pratica più breve, applicarla a un contenitore unico e non incorporarli nel codice sorgente, nelle richieste dell'agente o nelle trascrizioni delle chat.

Prerequisiti

Per usare il server MCP di Riconoscimento vocale di Azure con un agente, è necessario:

Una sottoscrizione di Azure.
Una risorsa e un progetto di Fonderia, è necessario il ruolo di Collaboratore o di Proprietario nel gruppo di risorse. La risorsa Foundry include funzionalità vocali.
Un account di archiviazione di Azure con un contenitore BLOB per l'archiviazione di file audio.
Un SAS URL per il contenitore di blob con autorizzazioni di lettura, scrittura, aggiunta, creazione ed elenco.

Considerazioni relative alla sicurezza

Il server MCP di Riconoscimento vocale di Azure usa l'autenticazione basata su chiave. Quando si crea la connessione, si specifica la chiave di risorsa e un URL di firma di accesso condiviso del contenitore BLOB. Seguire queste procedure consigliate:

Archiviare le chiavi e gli URL SAS in un archivio segreto sicuro e ruotarle regolarmente.
Evitare di incorporare chiavi o URL di firma di accesso condiviso direttamente nel codice sorgente, negli script o nella documentazione.
Utilizzare la scadenza più breve possibile per le firme di accesso condiviso e limitarla alle risorse strettamente necessarie.
Ruotare le chiavi immediatamente se si sospetta che siano esposte.

Commenti e suggerimenti

Questa pagina è stata utile?