Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
[Denne artikel er dokumentation til en foreløbig version og er med forbehold for ændringer.]
Når du har valgt samtalestyring, skal stemmeagenter træffe en anden beslutning: talearkitektur.
Vigtig
- Dette er en forhåndsversionsfunktion.
- Prøveversionsfunktioner er ikke beregnet til produktionsbrug og kan have begrænset funktionalitet. Disse funktioner er underlagt supplerende vilkår for anvendelse og er tilgængelige før en officiel udgivelse, så kunderne kan få tidlig adgang og give feedback.
Mønster 1: Grundlæggende stemmetilstand
Taletekst >>NLU/NLU+>Klassisk orkestrering> Tale
I dette mønster transkriberes den kaldendes tale først, og derefter behandles teksten Copilot Studio dialogboksflow. Til sidst konverteres teksten tilbage til tale.
Brug dette mønster, når
Du bruger et fuldt klassisk, deterministisk flow.
Minimering af omkostninger er afgørende.
Du har brug for en brugerdefineret eller neural stemme.
Du har brug for detaljeret kontrol over talegenkendelse.
Du arbejder med DTMF-tunge flow.
Kompromiser
Fungerer kun med klassisk orkestrering.
Kan ikke understøtte hybrid eller generativ orkestrering.
Det kræver mere arbejde at understøtte flersproget og blandet sproginput. Det kræver sprogregistrering, sprogspecifikke prompts og grammatik, konfiguration af stt-landestandard (Speech-to-Text) og fallback-håndtering.
Vigtig
Grundlæggende stemmetilstand er ikke kun et "valg af stemmemodel". Det begrænser grundlæggende orkestrering.
Mønster 2: Streamingtilstand
Tale-AI-model >> Tale
En stemmearkitektur, hvor en model med et enkelt sprog behandler lyd fra ende til anden og håndterer lydinput og -output oprindeligt. Der er ikke noget separat STT- eller TTS-trin (Text-to-Speech). Modellen modtager den kaldendes lydstream direkte og returnerer et syntetiseret lydsvar i realtid.
Denne arkitektur bruger en tæt integreret modelpipeline i realtid til at levere ultralav ventetid, naturligt samtaleflow og enklere udrulning. Denne fremgangsmåde fungerer bedst, når hastighed og naturlig samtale er topprioriteter, f.eks. kundeinteraktioner med høj volumen på velstøttede sprog og områder. Denne fremgangsmåde har et begrænset antal tilgængelige stemmer og begrænsede tilpasningsmuligheder.
Vigtig fordel: Ultralav ventetid, naturlig samtaleudtagning.
Brug dette mønster, når
Samtale naturlighed og forbedret prosody er en topprioritet.
Virksomheden ønsker en premium samtaleoplevelse.
Der kræves en bedre håndtering af flersproget og blandet sproginput, herunder problemfri sprogskift.
Kontekstafhængig forståelse (tone, hensigt og nuancering af konversation), hvilket reducerer afhængigheden af eksplicitte oversættelseslag.
Lav ventetid og respons i realtid er afgørende for oplevelsen.
Teamet er klar til at investere i test, justering, evaluering og gelændere.
Kompromiser
Færre tilpasningspunkter.
Begrænsede stemmeindstillinger.
Stærk afhængighed af hurtig kvalitet.
Prissætning og modelvalg betyder mere.
Talemodellen i realtid begrænser begrundelsesdybden. Det giver dig også mindre fleksibilitet til at bruge tekstsprogmodelorkestrering i højere kapacitet eller specialiserede agenter til komplekse ræsonnerer.
Argumentationens dybde med talemodellen i realtid er relativt lavere end med tekstsprogmodelorkestrering, da sidstnævnte giver dig fleksibiliteten til at bruge den stærkeste model, der er tilgængelig, når det er nødvendigt.