Scegliere come gestire la voce (anteprima)

[Questo articolo fa parte della documentazione non definitiva, pertanto è soggetto a modifiche.]

Dopo aver scelto il controllo della conversazione, gli agenti vocali devono prendere un'altra decisione: architettura vocale.

Importante

  • Questa è una funzionalità di anteprima.
  • Le funzionalità di anteprima non sono destinate ad essere utilizzate per la produzione e sono soggette a restrizioni. Queste funzionalità sono soggette a condizioni per l'utilizzo supplementari e sono disponibili prima di una versione ufficiale in modo che i clienti possano ottenere l'accesso in anteprima e fornire feedback.

Modello 1: modalità voce di base

> Riconoscimento vocale >NLU/NLU+>Orchestrazione> classica

In questo modello, il parlato del chiamante viene prima trascritto, quindi i flussi di dialogo di Copilot Studio elaborano il testo. Infine, il testo viene convertito nuovamente in parlato.

Usare questo modello quando

  • Si sta usando un flusso deterministico completamente classico.

  • La riduzione dei costi è fondamentale.

  • È necessaria una voce personalizzata o neurale.

  • È necessario un controllo granulare sul riconoscimento vocale.

  • Si stanno lavorando con flussi DTMF pesanti.

Tradeoffs

  • Funziona solo con l'orchestrazione classica.

  • Non è possibile supportare l'orchestrazione ibrida o generativa.

  • Il supporto dell'input multilingue e in linguaggio misto richiede più lavoro. Richiede il rilevamento della lingua, i prompt e la grammatica specifici della lingua, la configurazione delle impostazioni locali STT (Speech-to-Text) e la gestione del fallback.

Importante

La modalità voce di base non è solo una "scelta del modello vocale". Vincola fondamentalmente l'orchestrazione.

Modello 2: modalità di streaming

Modello > di AI per il riconoscimento vocale > riconoscimento vocale

Architettura vocale in cui un singolo modello linguistico elabora l'audio end-to-end e gestisce in modo nativo l'input e l'output audio. Non esiste un passaggio STT o TTS (Text-to-Speech) separato. Il modello riceve direttamente il flusso audio del chiamante e restituisce una risposta audio sintetizzata in tempo reale.

Questa architettura usa una pipeline di modelli strettamente integrata e in tempo reale per offrire una latenza ultra bassa, un flusso di conversazione naturale e una distribuzione più semplice. Questo approccio funziona al meglio quando la velocità e la conversazione naturale sono le priorità principali, ad esempio le interazioni dei clienti con volumi elevati in lingue e aree ben supportate. Questo approccio ha un numero limitato di voci disponibili e opzioni di personalizzazione limitate.

Vantaggio chiave: latenza ultra bassa, turni di conversazione naturale.

Usare questo modello quando

  • La naturalezza conversazionale e la prosodia avanzata sono una priorità assoluta.

  • L'azienda vuole un'esperienza di conversazione premium.

  • È necessaria una gestione superiore dell'input multilingue e della lingua mista, incluso il cambio di lingua senza problemi.

  • La comprensione contestuale è importante (tono, finalità e sfumatura di conversazione), riducendo la dipendenza dai livelli di traduzione espliciti.

  • La velocità di risposta a bassa latenza e in tempo reale è essenziale per l'esperienza.

  • Il team è pronto a investire in test, ottimizzazione, valutazione e barriere di sicurezza.

Tradeoffs

  • Meno punti di personalizzazione.

  • Opzioni vocali limitate.

  • Forte dipendenza dalla qualità del prompt.

  • I prezzi e la scelta del modello sono più importanti.

  • Il modello di riconoscimento vocale in tempo reale limita la profondità di ragionamento. Offre inoltre una minore flessibilità nell'utilizzo di modelli linguistici di testo ad alta capacità o di agenti specializzati per un ragionamento complesso.

  • La profondità del ragionamento con il modello di riconoscimento vocale in tempo reale è relativamente inferiore rispetto all'orchestrazione del modello linguistico del testo, poiché quest'ultima offre la flessibilità necessaria per usare il modello più sicuro disponibile quando necessario.