Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
[Questo articolo fa parte della documentazione non definitiva, pertanto è soggetto a modifiche.]
Dopo aver scelto il controllo della conversazione, gli agenti vocali devono prendere un'altra decisione: architettura vocale.
Importante
- Questa è una funzionalità di anteprima.
- Le funzionalità di anteprima non sono destinate ad essere utilizzate per la produzione e sono soggette a restrizioni. Queste funzionalità sono soggette a condizioni per l'utilizzo supplementari e sono disponibili prima di una versione ufficiale in modo che i clienti possano ottenere l'accesso in anteprima e fornire feedback.
Modello 1: modalità voce di base
> Riconoscimento vocale >NLU/NLU+>Orchestrazione> classica
In questo modello, il parlato del chiamante viene prima trascritto, quindi i flussi di dialogo di Copilot Studio elaborano il testo. Infine, il testo viene convertito nuovamente in parlato.
Usare questo modello quando
Si sta usando un flusso deterministico completamente classico.
La riduzione dei costi è fondamentale.
È necessaria una voce personalizzata o neurale.
È necessario un controllo granulare sul riconoscimento vocale.
Si stanno lavorando con flussi DTMF pesanti.
Tradeoffs
Funziona solo con l'orchestrazione classica.
Non è possibile supportare l'orchestrazione ibrida o generativa.
Il supporto dell'input multilingue e in linguaggio misto richiede più lavoro. Richiede il rilevamento della lingua, i prompt e la grammatica specifici della lingua, la configurazione delle impostazioni locali STT (Speech-to-Text) e la gestione del fallback.
Importante
La modalità voce di base non è solo una "scelta del modello vocale". Vincola fondamentalmente l'orchestrazione.
Modello 2: modalità di streaming
Modello > di AI per il riconoscimento vocale > riconoscimento vocale
Architettura vocale in cui un singolo modello linguistico elabora l'audio end-to-end e gestisce in modo nativo l'input e l'output audio. Non esiste un passaggio STT o TTS (Text-to-Speech) separato. Il modello riceve direttamente il flusso audio del chiamante e restituisce una risposta audio sintetizzata in tempo reale.
Questa architettura usa una pipeline di modelli strettamente integrata e in tempo reale per offrire una latenza ultra bassa, un flusso di conversazione naturale e una distribuzione più semplice. Questo approccio funziona al meglio quando la velocità e la conversazione naturale sono le priorità principali, ad esempio le interazioni dei clienti con volumi elevati in lingue e aree ben supportate. Questo approccio ha un numero limitato di voci disponibili e opzioni di personalizzazione limitate.
Vantaggio chiave: latenza ultra bassa, turni di conversazione naturale.
Usare questo modello quando
La naturalezza conversazionale e la prosodia avanzata sono una priorità assoluta.
L'azienda vuole un'esperienza di conversazione premium.
È necessaria una gestione superiore dell'input multilingue e della lingua mista, incluso il cambio di lingua senza problemi.
La comprensione contestuale è importante (tono, finalità e sfumatura di conversazione), riducendo la dipendenza dai livelli di traduzione espliciti.
La velocità di risposta a bassa latenza e in tempo reale è essenziale per l'esperienza.
Il team è pronto a investire in test, ottimizzazione, valutazione e barriere di sicurezza.
Tradeoffs
Meno punti di personalizzazione.
Opzioni vocali limitate.
Forte dipendenza dalla qualità del prompt.
I prezzi e la scelta del modello sono più importanti.
Il modello di riconoscimento vocale in tempo reale limita la profondità di ragionamento. Offre inoltre una minore flessibilità nell'utilizzo di modelli linguistici di testo ad alta capacità o di agenti specializzati per un ragionamento complesso.
La profondità del ragionamento con il modello di riconoscimento vocale in tempo reale è relativamente inferiore rispetto all'orchestrazione del modello linguistico del testo, poiché quest'ultima offre la flessibilità necessaria per usare il modello più sicuro disponibile quando necessario.