Ableiten von Qualitätssignalen für die Copilot-Agent-Auswertung

Qualitätssignale bieten eine strukturierte Möglichkeit, um zu verstehen , warum Agent-Antworten erfolgreich sind oder fehlschlagen. Sie helfen Teams dabei, Auswertungsergebnisse in sinnvolle Kategorien zu gruppieren, Verbesserungen zu priorisieren und den Fortschritt im Laufe der Zeit nachzuverfolgen.

In diesem Artikel wird erläutert, wie Sie Qualitätssignale von Auswertungsergebnissen ableiten, um Probleme zu diagnostizieren, Muster zu identifizieren und die Leistung des Copilot-Agents zu verbessern.

Mithilfe von Qualitätssignalen können Teams:

Identifizieren wiederkehrender Fehlermuster
Priorisieren von Verbesserungen basierend auf den Auswirkungen
Nachverfolgen der Leistung über Iterationen hinweg
Klares Kommunizieren von Ergebnissen an die Beteiligten

Was sind Qualitätssignale?

Qualitätssignale sind Kategorien, die Muster in Auswertungsergebnissen darstellen. Sie stammen aus beobachtetem Verhalten und nicht aus vordefinierten Regeln.

Assertionen und Qualitätssignale arbeiten in einem Auswertungsworkflow zusammen:

Assertionen bestimmen, ob eine Antwort erfolgreich ist oder fehlschlägt.
Qualitätssignale gruppieren Assertionsergebnisse in Mustern auf höherer Ebene.

Aspekt	Assertionen	Qualitätssignale
Ebene	Spezifisch und konkret	Abstrakt und kategorisch
Zweck	Bestimmen von Bestanden oder Fehlschlagen	Diagnostizieren von Mustern
Anzahl	Viele pro Testfall	Wenige pro Agent
Origin	Vor dem Testen definiert	Abgeleitet von Ergebnissen
Beispiel	Enthält "15 Tage"	Richtliniengenauigkeit

Nachdem Sie Assertionen definiert haben, leiten Sie Qualitätssignale von den Assertionsergebnissen ab, und verwenden Sie diese Signale, um die Leistung szenarioübergreifend nachzuverfolgen.

Allgemeine Qualitätssignale

Verwenden Sie die folgenden allgemeinen Qualitätssignale, wenn Sie Copilot-Agents auswerten:

Richtliniengenauigkeit – Misst, ob Antworten mit autoritativen Wissensquellen übereinstimmen
Quellenzuordnung – Misst, ob Antworten Informationsquellen eindeutig identifizieren
Personalisierung – Misst, ob Antworten relevanten Benutzerkontext verwenden
Toolgenauigkeit – Misst, ob Toolaufrufe ordnungsgemäß ausgeführt werden
Toolantwortbehandlung – Misst, ob der Agent die Toolausgabe richtig interpretiert
Angemessenheit der Eskalation : Misst, ob Anforderungen bei Bedarf an den menschlichen Support weitergeleitet werden
Datenschutz – Maßnahmen, ob vertrauliche Informationen geschützt werden
Aktionsaktivierung – Misst, ob Antworten klare nächste Schritte bereitstellen

Signalauswertung und häufige Ursachen

In der folgenden Tabelle sind Indikatoren für jedes Qualitätssignal aufgeführt.

Qualitätssignal	Pass-Indikatoren	Fehlerindikatoren	Häufige Ursachen
Richtliniengenauigkeit	Richtige Werte und Datumsangaben Genaue Richtliniendetails Konsistent mit der aktuellen Dokumentation	Veraltete oder falsche Werte Widersprüchliche oder fabrizierte Details	Veraltete oder doppelte Dokumente Falsche Abrufergebnisse Modell halluzinationen
Quellenzuordnung	Verweise auf bestimmte Dokumente oder Abschnitte Klare Zuordnungsanweisungen	Keine Quelle angegeben Vage oder generische Verweise	Fehlende Quellmetadaten In Anweisungen wird die Zuordnung nicht hervorgehoben
Personalisierung	Regionsspezifische oder rollenspezifische Antworten Kontextbezogene Empfehlungen	Generische Antworten, die den Benutzerkontext ignorieren Falsche regionale oder rollenbasierte Informationen	Benutzerkontext für Agent nicht verfügbar Wissensquellen, die nicht nach Zielgruppe segmentiert sind
Toolgenauigkeit	Richtige Toolauswahl Gültige Parameter und Bezeichner Alle erforderlichen Felder aufgefüllt	Fehlende oder falsche Parameter Ungültige Tooleingaben	Mehrdeutige API-Spezifikationen Falsche Parameterzuordnung
Behandlung von Toolantworten	Genaue Kommunikation von Toolergebnissen Korrekte Behandlung von Erfolgs- und Fehlerzuständen	Falsche Erfolgsansprüche Ignorierte oder falsch interpretierte Toolfehler	Fehlende Anleitung zur Fehlerbehandlung Fehlinterpretation von Toolantworten
Angemessenheit der Eskalation	Sensible oder komplexe Probleme werden ordnungsgemäß weitergeleitet. Einhaltung von Eskalationsregeln	Agent versucht, nicht unterstützte Szenarien zu behandeln Fehler beim Eskalieren von Anforderungen mit hohem Risiko	Nicht definierte Eskalationskriterien Zu wenig freizügige Anweisungen
Datenschutz	Weigerung, eingeschränkte Daten offenzulegen Antworten beschränkt auf autorisierte Informationen	Offenlegung oder Rückschluss auf vertrauliche Daten Antworten, die geschützte Informationen verfügbar machen	Schwache Zugriffssteuerungen Unzureichende Datenschutzhinweise
Aktionsaktivierung	Spezifische Anweisungen Links, Bezeichner oder Kontaktdetails	Vage oder unvollständige Anleitung Fehlende umsetzbare Schritte	Fehlende Verfahrensinformationen in Wissensquellen Überzusammenfasste Antworten

Ableitung von Qualitätssignalen

Qualitätssignale werden von Mustern in Auswertungsergebnissen und nicht von vordefinierten Checklisten abgeleitet. So leiten Sie Qualitätssignale ab:

Führen Sie einen ersten Satz von Auswertungstestfällen aus.
Überprüfen Sie fehlgeschlagene Antworten in Testfällen.
Identifizieren sie wiederkehrende Muster bei Fehlern.
Definieren Sie jedes Muster als Qualitätssignal.
Markieren Sie bezogene Assertionen mit dem entsprechenden Signal.
Verfolgen Sie die Passraten nach Signal.

Qualitätssignale in der Praxis

Das folgende Beispiel zeigt Qualitätssignale, die für einen Mitarbeiter-Onboarding-Agent definiert sind.

Beobachtung	Muster identifiziert	Qualitätssignal
Korrekte zurückgegebene PTO-Werte	Genauer Wissensabruf	Richtliniengenauigkeit
Als Antwort zitierte Quelle	Namensnennung enthalten	Quellenzuordnung
Falsche regionale Informationen zurückgegeben	Kontext nicht verwendet	Personalisierung
Tool, das mit falschen Parametern aufgerufen wurde	Ausführungsfehler	Toolgenauigkeit
Anforderung entsprechend an Personalabteilung weitergeleitet	Richtige Eskalation	Angemessenheit der Eskalation
Vertrauliche Daten nahezu verfügbar gemacht	Risiko der Datenschutzgrenze	Datenschutz
Nächste Schritte enthaltene Antwort	Aktion erfordernde Antwort	Aktionsaktivierung

Im Folgenden finden Sie spezifische Measures für Qualitätssignale.

Richtliniengenauigkeit	Quellenzuordnung	Toolgenauigkeit
Enthält die richtige PTO-Dauer	Zitate für autoritative Dokumente	Ruft das richtige Tool auf.
Enthält den richtigen Registrierungsstichtag.	Verweise auf bestimmte Abschnitte	Verwendet gültige Parameter.
Verweist nicht auf eine veraltete Richtlinie.		Gibt das richtige Ergebnis zurück.

Anwenden und Kommunizieren von Qualitätssignalen

Verwenden Sie Qualitätssignale, um Auswertungsworkflows zu fördern und Erkenntnisse zu vermitteln. So wenden Sie Qualitätssignale an:

Tagassertionen : Fügen Sie jeder Assertion in Ihren Testfällen Signaltags hinzu.

Testfall: PTO-001
Eingabeaufforderung: "Wie viele Urlaubstage bekommen neue Mitarbeiter?"

Assertionen:
- Die Antwort enthält "15 Tage".
  Signal: Richtliniengenauigkeit
- In der Antwort wird das Mitarbeiterhandbuch zitiert.
  Signal: Quellzuordnung
- In der Antwort wird die <Klammer 2-Jahres-Dauer erwähnt.
  Signal: Personalisierung

Berechnen von Metriken : Aggregieren Sie pass- und fail-Ergebnisse nach Signal.

Qualitätssignal	Testfälle	Bestehen	Fehler	Passrate
Richtliniengenauigkeit	25	23	2	92 %
Quellenzuordnung	25	20	5	80%
Personalisierung	15	11	4	73%
Toolgenauigkeit	12	10	2	83%
Angemessenheit der Eskalation	8	8	0	100 %
Datenschutz	10	10	0	100 %

Priorisieren von Problemen : Konzentrieren Sie sich auf Signale mit niedrigen Passraten oder hohen Auswirkungen.
1. Personalisierung (73 %) – Größte Lücke, untersuchen Sie zuerst.
2. Quellzuordnung (80 %) – Zweite Priorität.
3. Toolgenauigkeit (83 %) – Dritte Priorität.
4. Richtliniengenauigkeit (92 %) – Kleinere Probleme, Überwachen.
Nachverfolgen des Fortschritts : Überwachen Sie die Signaldurchlaufraten über Agent-Versionen hinweg.
- Version 1.0 > 1.1 > 1.2 > 1.3
- Personalisierung: 73% > 78% > 85% > 91% (Verbesserung)
- Quellenzuordnung: 80% > 82% > 88% > 90% (Verbesserung)
- Toolgenauigkeit: 83% > 85% > 84% > 92% (verbessert nach v1.2 Regression)

Qualitätssignale transformieren Die Gespräche der Beteiligten. Diese Spezifität ermöglicht gezielte Korrekturen, quantitative Fortschrittsnachverfolgung und eine klarere Kommunikation der Beteiligten.

Ohne Signale: Der Agent funktioniert nicht gut. Benutzer beschweren sich.

Mit Signalen: Die Richtliniengenauigkeit liegt bei 92 % – wir erreichen unser Ziel. Die Personalisierung ist jedoch nach dem letzten Update auf 73 % gesunken. Insbesondere britische Mitarbeiter erhalten us-amerikanische Feiertagsinformationen. Wir haben die Grundursache identifiziert: Der Kontextabruf übergibt keine Standortdaten. Für die nächste Version wird ein Fix ausgeführt.

Qualitätssignale nach Agenttyp

Qualitätssignale und -prioritäten variieren je nach Dem Typ des Agents, den Sie auswerten.

Agent-Typ	Signal	Priorität
Wissenserergrund	Richtliniengenauigkeit	Hoch
	Quellenzuordnung	Hoch
	Vollständigkeit	Mittel
	Personalisierung	Mittel
Toolaufrufe	Toolgenauigkeit	Hoch
	Behandlung von Toolantworten	Hoch
	Aktionsaktivierung	Hoch
	Fehlerwiederherstellung	Mittel
Hybrid	Routinggenauigkeit	Hoch
	Wissenssignale	Mittel
	Toolsignale	Mittel
	Angemessenheit der Eskalation	Mittel
Kundenorientierte	Datenschutz	Hoch
	Ton und Professionalität	Hoch
	Angemessenheit der Eskalation	Hoch
	Vollständigkeit der Auflösung	Mittel

Vermeiden häufiger Fallstricke

Vermeiden Sie die folgenden Probleme, um sicherzustellen, dass Ihre Qualitätssignale nützlich, konsistent und umsetzbar bleiben.

Verwenden bestimmter Signale anstelle generischer Kategorien

Signale, die zu breit sind, z. B. "Genauigkeit", "Hilfreichkeit" oder "Relevanz", bieten keine umsetzbaren Erkenntnisse. Generische Signale machen es schwierig, Ursachen zu identifizieren oder Verbesserungen zu priorisieren.

Definieren Sie stattdessen Signale basierend auf bestimmten, beobachtbaren Mustern in Auswertungsergebnissen.

Vermeiden: Genauigkeit
Bevorzugen: Richtliniengenauigkeit, Quellzuordnung

Vermeiden von zu präzisen Signalen

Das Erstellen von zu vielen eng begrenzten Signalen erhöht die Komplexität, ohne die Erkenntnisse zu verbessern. Übermäßige Analyse von Granularitätsfragmenten und erschwert die Nachverfolgung aussagekräftiger Trends.

Gruppieren Sie stattdessen verwandte Verhaltensweisen in breitere, wiederverwendbare Signalkategorien.

Vermeiden: PTO-Genauigkeit, Vorteile Genauigkeit, Feiertagsgenauigkeit
Bevorzugen: Richtliniengenauigkeit

Vermeiden sie vage Pass- und Fail-Kriterien

Ungenaue Signaldefinitionen, z. B. "Korrektheit", fehlen messbare Standards. Ohne klare Kriterien sind die Ergebnisse inkonsistent und schwer zu interpretieren.

Definieren Sie stattdessen Signale mithilfe expliziter, beobachtbarer Verhaltensweisen, die an Auswertungsergebnisse gebunden sind.

Vermeiden Sie: "Antwort ist richtig"
Prefer: "Response includes correct value and cites authoritative source" (Antwort enthält den richtigen Wert und zitiert autoritative Quelle)

Nächster Schritt

Auswerten von Unterhaltungen mit mehreren Durchläufen

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-29