Mehrteilige Unterhaltungen in ihrer Gesamtheit bewerten

Important

Einige der in diesem Veröffentlichungsplan beschriebenen Funktionen wurden noch nicht veröffentlicht. Lieferzeitpläne können sich ändern und geplante Funktionen gegebenenfalls nicht veröffentlicht werden (siehe Microsoft-Richtlinie). Weitere Informationen: Neuerungen und Planungen

Aktiviert für Öffentliche Vorschau Allgemeine Verfügbarkeit
Administrierende, Erstellende, Marketingfachkräfte oder Mitarbeitende in der Analyse, automatisch 31. März 2026 Juni 2026

Geschäftswert

Diese Funktion bietet die folgenden Vorteile:

  • Verbessert die Bewertungsgenauigkeit, da die Agent-Qualität für ganze Unterhaltungsflows validiert wird, anstatt nur für isolierte Antworten.
  • Reduziert das Produktionsrisiko durch die Erkennung von Kontextverlusten, Abweichungen von den Anweisungen und Störungen, die erst über mehrere Durchläufe hinweg auftreten.
  • Ermöglicht realistischere Tests, die echte Kundeninteraktionen spiegeln.
  • Beschleunigt die Problemidentifikation in komplexen Workflows, wodurch kostspielige Korrekturen nach der Veröffentlichung reduziert werden.
  • Stärkt das Vertrauen in den Release für Enterprise-Agenten, die in mehrstufigen Szenarien agieren.

Funktionsdetails

Die Bewertung von mehrteiligen Unterhaltungen ermöglicht die Beurteilung des Agent-Verhaltens über den gesamten Dialog hinweg, anstatt nur isolierte Antworten zu bewerten.

Anstatt einzelne Aufforderungs-Antwort-Paare auszuwerten, analysiert das System den vollständigen Gesprächsfluss.

Funktionsweise:

  1. Ein Multi-Turn-Testfall umfasst eine Abfolge von Benutzer- und Agentinteraktionen.
  2. Bei der Bewertung bewertet das Bewertungstool die Qualität während der gesamten Sequenz unter Berücksichtigung von Abhängigkeiten zwischen einzelnen Beiträgen und von kumulativen Verhaltensweisen.

Der Grader eignet sich ideal für die folgenden Beispielszenarien:

  • Komplexe Workflows, die mehrere Schritte erfordern.
  • Aufgabenorientierte Agenten.
  • Kundendienstsimulationen.
  • Szenarien, in denen Qualitätsverschlechterungen im Laufe der Zeit angezeigt werden.

Diese Funktion richtet die Auswertung an realen Nutzungsmustern aus und ermöglicht eine zuverlässigere Überprüfung der Produktionsbereitschaft.

Geografische Regionen

Besuchen Sie den "Explore Feature Geography"-Bericht für Microsoft Azure-Regionen, in denen dieses Feature geplant oder verfügbar ist.

Verfügbare Sprachen

Besuchen Sie den Bericht "Explore Feature Language", um Informationen über die Verfügbarkeit dieser Funktion zu erhalten.