Evaluer hele varigheden af samtaler med flere runder

Vigtigt!

Nogle af de funktioner, der beskrives i denne udgivelsesplan, er ikke blevet udgivet endnu. Tidslinjerne for levering ændres muligvis, og de forventede funktioner udgives muligvis ikke (se Microsofts politik). Få mere at vide: Nyheder og planlagte tiltag

Aktiveret til Offentlig prøveversion Generel tilgængelighed
Administratorer, udviklere, marketingmedarbejdere eller analytikere, automatisk 31. marts 2026 jun 2026

Forretningsværdi

Denne funktion giver følgende fordele:

  • Forbedrer nøjagtigheden af evalueringen ved at validere agentkvaliteten på tværs af hele samtaleflows og ikke isolerede svar.
  • Reducerer produktionsrisikoen ved at registrere konteksttab, instruktionsafvigelser og nedbrud, der kun viser sig over flere interaktioner.
  • Muliggør mere realistisk test, der afspejler reelle kundeinteraktioner.
  • Fremskynder problemidentifikation i komplekse arbejdsprocesser, hvilket reducerer dyre rettelser efter udgivelsen.
  • Styrker udgivelsessikkerhed for virksomhedsagenter, der arbejder i scenarier med flere trin.

Detaljer om funktioner

Multi-turn samtale evaluering giver mulighed for vurdering af agent adfærd på tværs af en hel dialog i stedet for klassificering eller evaluering af isolerede svar.

I stedet for at evaluere enkelt prompt-response-par analyserer systemet hele samtaleflowet.

Sådan fungerer det:

  1. En testcase med flere sving indeholder en sekvens af bruger- og agentinteraktioner.
  2. Under evalueringen vurderer grader kvaliteten på tværs af hele sekvensen under hensyntagen til afhængigheder mellem sving og akkumuleret funktionsmåde.

Bedømmelsesværktøjet er ideelt set egnet til følgende eksempelscenarier:

  • Komplekse arbejdsprocesser, der kræver flere trin.
  • Opgaveorienterede agenter.
  • Simuleringer af kundeservice.
  • Scenarier, hvor kvalitetsforringelse vises over tid.

Denne funktion justerer evalueringen i forhold til brugsmønstre i den virkelige verden og muliggør en mere pålidelig validering af produktionsparathed.

Geografiske områder

Besøg rapporten Udforsk funktionsgeografi for Microsoft Azure-områder, hvor denne funktion er planlagt eller tilgængelig.

Tilgængelighed af sprog

Besøg rapporten Udforsk funktionssprog for at få oplysninger om denne funktions tilgængelighed.