Ableiten von Qualitätssignalen für die Copilot-Agent-Auswertung

Qualitätssignale bieten eine strukturierte Möglichkeit, um zu verstehen , warum Agent-Antworten erfolgreich sind oder fehlschlagen. Sie helfen Teams dabei, Auswertungsergebnisse in sinnvolle Kategorien zu gruppieren, Verbesserungen zu priorisieren und den Fortschritt im Laufe der Zeit nachzuverfolgen.

In diesem Artikel wird erläutert, wie Sie Qualitätssignale von Auswertungsergebnissen ableiten, um Probleme zu diagnostizieren, Muster zu identifizieren und die Leistung des Copilot-Agents zu verbessern.

Mithilfe von Qualitätssignalen können Teams:

  • Identifizieren wiederkehrender Fehlermuster
  • Priorisieren von Verbesserungen basierend auf den Auswirkungen
  • Nachverfolgen der Leistung über Iterationen hinweg
  • Klares Kommunizieren von Ergebnissen an die Beteiligten

Was sind Qualitätssignale?

Qualitätssignale sind Kategorien, die Muster in Auswertungsergebnissen darstellen. Sie stammen aus beobachtetem Verhalten und nicht aus vordefinierten Regeln.

Assertionen und Qualitätssignale arbeiten in einem Auswertungsworkflow zusammen:

  • Assertionen bestimmen, ob eine Antwort erfolgreich ist oder fehlschlägt.
  • Qualitätssignale gruppieren Assertionsergebnisse in Mustern auf höherer Ebene.
Aspekt Assertionen Qualitätssignale
Ebene Spezifisch und konkret Abstrakt und kategorisch
Zweck Bestimmen von Bestanden oder Fehlschlagen Diagnostizieren von Mustern
Anzahl Viele pro Testfall Wenige pro Agent
Origin Vor dem Testen definiert Abgeleitet von Ergebnissen
Beispiel Enthält "15 Tage" Richtliniengenauigkeit

Nachdem Sie Assertionen definiert haben, leiten Sie Qualitätssignale von den Assertionsergebnissen ab, und verwenden Sie diese Signale, um die Leistung szenarioübergreifend nachzuverfolgen.

Allgemeine Qualitätssignale

Verwenden Sie die folgenden allgemeinen Qualitätssignale, wenn Sie Copilot-Agents auswerten:

  • Richtliniengenauigkeit – Misst, ob Antworten mit autoritativen Wissensquellen übereinstimmen
  • Quellenzuordnung – Misst, ob Antworten Informationsquellen eindeutig identifizieren
  • Personalisierung – Misst, ob Antworten relevanten Benutzerkontext verwenden
  • Toolgenauigkeit – Misst, ob Toolaufrufe ordnungsgemäß ausgeführt werden
  • Toolantwortbehandlung – Misst, ob der Agent die Toolausgabe richtig interpretiert
  • Angemessenheit der Eskalation : Misst, ob Anforderungen bei Bedarf an den menschlichen Support weitergeleitet werden
  • Datenschutz – Maßnahmen, ob vertrauliche Informationen geschützt werden
  • Aktionsaktivierung – Misst, ob Antworten klare nächste Schritte bereitstellen

Signalauswertung und häufige Ursachen

In der folgenden Tabelle sind Indikatoren für jedes Qualitätssignal aufgeführt.

Qualitätssignal Pass-Indikatoren Fehlerindikatoren Häufige Ursachen
Richtliniengenauigkeit Richtige Werte und Datumsangaben

Genaue Richtliniendetails

Konsistent mit der aktuellen Dokumentation
Veraltete oder falsche Werte

Widersprüchliche oder fabrizierte Details
Veraltete oder doppelte Dokumente

Falsche Abrufergebnisse

Modell halluzinationen
Quellenzuordnung Verweise auf bestimmte Dokumente oder Abschnitte

Klare Zuordnungsanweisungen
Keine Quelle angegeben

Vage oder generische Verweise
Fehlende Quellmetadaten

In Anweisungen wird die Zuordnung nicht hervorgehoben
Personalisierung Regionsspezifische oder rollenspezifische Antworten

Kontextbezogene Empfehlungen
Generische Antworten, die den Benutzerkontext ignorieren

Falsche regionale oder rollenbasierte Informationen
Benutzerkontext für Agent nicht verfügbar

Wissensquellen, die nicht nach Zielgruppe segmentiert sind
Toolgenauigkeit Richtige Toolauswahl

Gültige Parameter und Bezeichner

Alle erforderlichen Felder aufgefüllt
Fehlende oder falsche Parameter

Ungültige Tooleingaben
Mehrdeutige API-Spezifikationen

Falsche Parameterzuordnung
Behandlung von Toolantworten Genaue Kommunikation von Toolergebnissen

Korrekte Behandlung von Erfolgs- und Fehlerzuständen
Falsche Erfolgsansprüche

Ignorierte oder falsch interpretierte Toolfehler
Fehlende Anleitung zur Fehlerbehandlung

Fehlinterpretation von Toolantworten
Angemessenheit der Eskalation Sensible oder komplexe Probleme werden ordnungsgemäß weitergeleitet.

Einhaltung von Eskalationsregeln
Agent versucht, nicht unterstützte Szenarien zu behandeln

Fehler beim Eskalieren von Anforderungen mit hohem Risiko
Nicht definierte Eskalationskriterien

Zu wenig freizügige Anweisungen
Datenschutz Weigerung, eingeschränkte Daten offenzulegen

Antworten beschränkt auf autorisierte Informationen
Offenlegung oder Rückschluss auf vertrauliche Daten

Antworten, die geschützte Informationen verfügbar machen
Schwache Zugriffssteuerungen

Unzureichende Datenschutzhinweise
Aktionsaktivierung Spezifische Anweisungen

Links, Bezeichner oder Kontaktdetails
Vage oder unvollständige Anleitung

Fehlende umsetzbare Schritte
Fehlende Verfahrensinformationen in Wissensquellen

Überzusammenfasste Antworten

Ableitung von Qualitätssignalen

Qualitätssignale werden von Mustern in Auswertungsergebnissen und nicht von vordefinierten Checklisten abgeleitet. So leiten Sie Qualitätssignale ab:

  • Führen Sie einen ersten Satz von Auswertungstestfällen aus.
  • Überprüfen Sie fehlgeschlagene Antworten in Testfällen.
  • Identifizieren sie wiederkehrende Muster bei Fehlern.
  • Definieren Sie jedes Muster als Qualitätssignal.
  • Markieren Sie bezogene Assertionen mit dem entsprechenden Signal.
  • Verfolgen Sie die Passraten nach Signal.

Qualitätssignale in der Praxis

Das folgende Beispiel zeigt Qualitätssignale, die für einen Mitarbeiter-Onboarding-Agent definiert sind.

Beobachtung Muster identifiziert Qualitätssignal
Korrekte zurückgegebene PTO-Werte Genauer Wissensabruf Richtliniengenauigkeit
Als Antwort zitierte Quelle Namensnennung enthalten Quellenzuordnung
Falsche regionale Informationen zurückgegeben Kontext nicht verwendet Personalisierung
Tool, das mit falschen Parametern aufgerufen wurde Ausführungsfehler Toolgenauigkeit
Anforderung entsprechend an Personalabteilung weitergeleitet Richtige Eskalation Angemessenheit der Eskalation
Vertrauliche Daten nahezu verfügbar gemacht Risiko der Datenschutzgrenze Datenschutz
Nächste Schritte enthaltene Antwort Aktion erfordernde Antwort Aktionsaktivierung

Im Folgenden finden Sie spezifische Measures für Qualitätssignale.

Richtliniengenauigkeit Quellenzuordnung Toolgenauigkeit
Enthält die richtige PTO-Dauer Zitate für autoritative Dokumente Ruft das richtige Tool auf.
Enthält den richtigen Registrierungsstichtag. Verweise auf bestimmte Abschnitte Verwendet gültige Parameter.
Verweist nicht auf eine veraltete Richtlinie. Gibt das richtige Ergebnis zurück.

Anwenden und Kommunizieren von Qualitätssignalen

Verwenden Sie Qualitätssignale, um Auswertungsworkflows zu fördern und Erkenntnisse zu vermitteln. So wenden Sie Qualitätssignale an:

  • Tagassertionen : Fügen Sie jeder Assertion in Ihren Testfällen Signaltags hinzu.

    Testfall: PTO-001
    Eingabeaufforderung: "Wie viele Urlaubstage bekommen neue Mitarbeiter?"

    Assertionen:

    • Die Antwort enthält "15 Tage".
      Signal: Richtliniengenauigkeit

    • In der Antwort wird das Mitarbeiterhandbuch zitiert.
      Signal: Quellzuordnung

    • In der Antwort wird die <Klammer 2-Jahres-Dauer erwähnt.
      Signal: Personalisierung

  • Berechnen von Metriken : Aggregieren Sie pass- und fail-Ergebnisse nach Signal.

    Qualitätssignal Testfälle Bestehen Fehler Passrate
    Richtliniengenauigkeit 25 23 2 92 %
    Quellenzuordnung 25 20 5 80%
    Personalisierung 15 11 4 73%
    Toolgenauigkeit 12 10 2 83%
    Angemessenheit der Eskalation 8 8 0 100 %
    Datenschutz 10 10 0 100 %
  • Priorisieren von Problemen : Konzentrieren Sie sich auf Signale mit niedrigen Passraten oder hohen Auswirkungen.

    1. Personalisierung (73 %) – Größte Lücke, untersuchen Sie zuerst.
    2. Quellzuordnung (80 %) – Zweite Priorität.
    3. Toolgenauigkeit (83 %) – Dritte Priorität.
    4. Richtliniengenauigkeit (92 %) – Kleinere Probleme, Überwachen.
  • Nachverfolgen des Fortschritts : Überwachen Sie die Signaldurchlaufraten über Agent-Versionen hinweg.

    • Version 1.0 > 1.1 > 1.2 > 1.3
    • Personalisierung: 73% > 78% > 85% > 91% (Verbesserung)
    • Quellenzuordnung: 80% > 82% > 88% > 90% (Verbesserung)
    • Toolgenauigkeit: 83% > 85% > 84% > 92% (verbessert nach v1.2 Regression)

Qualitätssignale transformieren Die Gespräche der Beteiligten. Diese Spezifität ermöglicht gezielte Korrekturen, quantitative Fortschrittsnachverfolgung und eine klarere Kommunikation der Beteiligten.

Ohne Signale: Der Agent funktioniert nicht gut. Benutzer beschweren sich.

Mit Signalen: Die Richtliniengenauigkeit liegt bei 92 % – wir erreichen unser Ziel. Die Personalisierung ist jedoch nach dem letzten Update auf 73 % gesunken. Insbesondere britische Mitarbeiter erhalten us-amerikanische Feiertagsinformationen. Wir haben die Grundursache identifiziert: Der Kontextabruf übergibt keine Standortdaten. Für die nächste Version wird ein Fix ausgeführt.

Qualitätssignale nach Agenttyp

Qualitätssignale und -prioritäten variieren je nach Dem Typ des Agents, den Sie auswerten.

Agent-Typ Signal Priorität
Wissenserergrund Richtliniengenauigkeit Hoch
Quellenzuordnung Hoch
Vollständigkeit Mittel
Personalisierung Mittel
Toolaufrufe Toolgenauigkeit Hoch
Behandlung von Toolantworten Hoch
Aktionsaktivierung Hoch
Fehlerwiederherstellung Mittel
Hybrid Routinggenauigkeit Hoch
Wissenssignale Mittel
Toolsignale Mittel
Angemessenheit der Eskalation Mittel
Kundenorientierte Datenschutz Hoch
Ton und Professionalität Hoch
Angemessenheit der Eskalation Hoch
Vollständigkeit der Auflösung Mittel

Vermeiden häufiger Fallstricke

Vermeiden Sie die folgenden Probleme, um sicherzustellen, dass Ihre Qualitätssignale nützlich, konsistent und umsetzbar bleiben.

Verwenden bestimmter Signale anstelle generischer Kategorien

Signale, die zu breit sind, z. B. "Genauigkeit", "Hilfreichkeit" oder "Relevanz", bieten keine umsetzbaren Erkenntnisse. Generische Signale machen es schwierig, Ursachen zu identifizieren oder Verbesserungen zu priorisieren.

Definieren Sie stattdessen Signale basierend auf bestimmten, beobachtbaren Mustern in Auswertungsergebnissen.

  • Vermeiden: Genauigkeit
  • Bevorzugen: Richtliniengenauigkeit, Quellzuordnung

Vermeiden von zu präzisen Signalen

Das Erstellen von zu vielen eng begrenzten Signalen erhöht die Komplexität, ohne die Erkenntnisse zu verbessern. Übermäßige Analyse von Granularitätsfragmenten und erschwert die Nachverfolgung aussagekräftiger Trends.

Gruppieren Sie stattdessen verwandte Verhaltensweisen in breitere, wiederverwendbare Signalkategorien.

  • Vermeiden: PTO-Genauigkeit, Vorteile Genauigkeit, Feiertagsgenauigkeit
  • Bevorzugen: Richtliniengenauigkeit

Vermeiden sie vage Pass- und Fail-Kriterien

Ungenaue Signaldefinitionen, z. B. "Korrektheit", fehlen messbare Standards. Ohne klare Kriterien sind die Ergebnisse inkonsistent und schwer zu interpretieren.

Definieren Sie stattdessen Signale mithilfe expliziter, beobachtbarer Verhaltensweisen, die an Auswertungsergebnisse gebunden sind.

  • Vermeiden Sie: "Antwort ist richtig"
  • Prefer: "Response includes correct value and cites authoritative source" (Antwort enthält den richtigen Wert und zitiert autoritative Quelle)

Nächster Schritt