Vælg, hvordan tale skal håndteres (prøveversion)

[Denne artikel er dokumentation til en foreløbig version og er med forbehold for ændringer.]

Når du har valgt samtalestyring, skal stemmeagenter træffe en anden beslutning: talearkitektur.

Vigtig

Dette er en forhåndsversionsfunktion.
Prøveversionsfunktioner er ikke beregnet til produktionsbrug og kan have begrænset funktionalitet. Disse funktioner er underlagt supplerende vilkår for anvendelse og er tilgængelige før en officiel udgivelse, så kunderne kan få tidlig adgang og give feedback.

Mønster 1: Grundlæggende stemmetilstand

Taletekst >>NLU/NLU+>Klassisk orkestrering> Tale

I dette mønster transkriberes den kaldendes tale først, og derefter behandles teksten Copilot Studio dialogboksflow. Til sidst konverteres teksten tilbage til tale.

Brug dette mønster, når

Du bruger et fuldt klassisk, deterministisk flow.
Minimering af omkostninger er afgørende.
Du har brug for en brugerdefineret eller neural stemme.
Du har brug for detaljeret kontrol over talegenkendelse.
Du arbejder med DTMF-tunge flow.

Kompromiser

Fungerer kun med klassisk orkestrering.
Kan ikke understøtte hybrid eller generativ orkestrering.
Det kræver mere arbejde at understøtte flersproget og blandet sproginput. Det kræver sprogregistrering, sprogspecifikke prompts og grammatik, konfiguration af stt-landestandard (Speech-to-Text) og fallback-håndtering.

Vigtig

Grundlæggende stemmetilstand er ikke kun et "valg af stemmemodel". Det begrænser grundlæggende orkestrering.

Mønster 2: Streamingtilstand

Tale-AI-model >> Tale

En stemmearkitektur, hvor en model med et enkelt sprog behandler lyd fra ende til anden og håndterer lydinput og -output oprindeligt. Der er ikke noget separat STT- eller TTS-trin (Text-to-Speech). Modellen modtager den kaldendes lydstream direkte og returnerer et syntetiseret lydsvar i realtid.

Denne arkitektur bruger en tæt integreret modelpipeline i realtid til at levere ultralav ventetid, naturligt samtaleflow og enklere udrulning. Denne fremgangsmåde fungerer bedst, når hastighed og naturlig samtale er topprioriteter, f.eks. kundeinteraktioner med høj volumen på velstøttede sprog og områder. Denne fremgangsmåde har et begrænset antal tilgængelige stemmer og begrænsede tilpasningsmuligheder.

Vigtig fordel: Ultralav ventetid, naturlig samtaleudtagning.

Brug dette mønster, når

Samtale naturlighed og forbedret prosody er en topprioritet.
Virksomheden ønsker en premium samtaleoplevelse.
Der kræves en bedre håndtering af flersproget og blandet sproginput, herunder problemfri sprogskift.
Kontekstafhængig forståelse (tone, hensigt og nuancering af konversation), hvilket reducerer afhængigheden af eksplicitte oversættelseslag.
Lav ventetid og respons i realtid er afgørende for oplevelsen.
Teamet er klar til at investere i test, justering, evaluering og gelændere.

Kompromiser

Færre tilpasningspunkter.
Begrænsede stemmeindstillinger.
Stærk afhængighed af hurtig kvalitet.
Prissætning og modelvalg betyder mere.
Talemodellen i realtid begrænser begrundelsesdybden. Det giver dig også mindre fleksibilitet til at bruge tekstsprogmodelorkestrering i højere kapacitet eller specialiserede agenter til komplekse ræsonnerer.
Argumentationens dybde med talemodellen i realtid er relativt lavere end med tekstsprogmodelorkestrering, da sidstnævnte giver dig fleksibiliteten til at bruge den stærkeste model, der er tilgængelig, når det er nødvendigt.

Spørg de bedste fremgangsmåder for stemmeagenter

Feedback

Var denne side nyttig?

Last updated on 2026-04-27

Vælg, hvordan tale skal håndteres (prøveversion)

Mønster 1: Grundlæggende stemmetilstand

Brug dette mønster, når

Kompromiser

Mønster 2: Streamingtilstand

Brug dette mønster, når

Kompromiser

Feedback

Yderligere ressourcer