Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Qualitätssignale bieten eine strukturierte Möglichkeit, um zu verstehen , warum Agent-Antworten erfolgreich sind oder fehlschlagen. Sie helfen Teams dabei, Auswertungsergebnisse in sinnvolle Kategorien zu gruppieren, Verbesserungen zu priorisieren und den Fortschritt im Laufe der Zeit nachzuverfolgen.
In diesem Artikel wird erläutert, wie Sie Qualitätssignale von Auswertungsergebnissen ableiten, um Probleme zu diagnostizieren, Muster zu identifizieren und die Leistung des Copilot-Agents zu verbessern.
Mithilfe von Qualitätssignalen können Teams:
- Identifizieren wiederkehrender Fehlermuster
- Priorisieren von Verbesserungen basierend auf den Auswirkungen
- Nachverfolgen der Leistung über Iterationen hinweg
- Klares Kommunizieren von Ergebnissen an die Beteiligten
Was sind Qualitätssignale?
Qualitätssignale sind Kategorien, die Muster in Auswertungsergebnissen darstellen. Sie stammen aus beobachtetem Verhalten und nicht aus vordefinierten Regeln.
Assertionen und Qualitätssignale arbeiten in einem Auswertungsworkflow zusammen:
- Assertionen bestimmen, ob eine Antwort erfolgreich ist oder fehlschlägt.
- Qualitätssignale gruppieren Assertionsergebnisse in Mustern auf höherer Ebene.
| Aspekt | Assertionen | Qualitätssignale |
|---|---|---|
| Ebene | Spezifisch und konkret | Abstrakt und kategorisch |
| Zweck | Bestimmen von Bestanden oder Fehlschlagen | Diagnostizieren von Mustern |
| Anzahl | Viele pro Testfall | Wenige pro Agent |
| Origin | Vor dem Testen definiert | Abgeleitet von Ergebnissen |
| Beispiel | Enthält "15 Tage" | Richtliniengenauigkeit |
Nachdem Sie Assertionen definiert haben, leiten Sie Qualitätssignale von den Assertionsergebnissen ab, und verwenden Sie diese Signale, um die Leistung szenarioübergreifend nachzuverfolgen.
Allgemeine Qualitätssignale
Verwenden Sie die folgenden allgemeinen Qualitätssignale, wenn Sie Copilot-Agents auswerten:
- Richtliniengenauigkeit – Misst, ob Antworten mit autoritativen Wissensquellen übereinstimmen
- Quellenzuordnung – Misst, ob Antworten Informationsquellen eindeutig identifizieren
- Personalisierung – Misst, ob Antworten relevanten Benutzerkontext verwenden
- Toolgenauigkeit – Misst, ob Toolaufrufe ordnungsgemäß ausgeführt werden
- Toolantwortbehandlung – Misst, ob der Agent die Toolausgabe richtig interpretiert
- Angemessenheit der Eskalation : Misst, ob Anforderungen bei Bedarf an den menschlichen Support weitergeleitet werden
- Datenschutz – Maßnahmen, ob vertrauliche Informationen geschützt werden
- Aktionsaktivierung – Misst, ob Antworten klare nächste Schritte bereitstellen
Signalauswertung und häufige Ursachen
In der folgenden Tabelle sind Indikatoren für jedes Qualitätssignal aufgeführt.
| Qualitätssignal | Pass-Indikatoren | Fehlerindikatoren | Häufige Ursachen |
|---|---|---|---|
| Richtliniengenauigkeit | Richtige Werte und Datumsangaben Genaue Richtliniendetails Konsistent mit der aktuellen Dokumentation |
Veraltete oder falsche Werte Widersprüchliche oder fabrizierte Details |
Veraltete oder doppelte Dokumente Falsche Abrufergebnisse Modell halluzinationen |
| Quellenzuordnung | Verweise auf bestimmte Dokumente oder Abschnitte Klare Zuordnungsanweisungen |
Keine Quelle angegeben Vage oder generische Verweise |
Fehlende Quellmetadaten In Anweisungen wird die Zuordnung nicht hervorgehoben |
| Personalisierung | Regionsspezifische oder rollenspezifische Antworten Kontextbezogene Empfehlungen |
Generische Antworten, die den Benutzerkontext ignorieren Falsche regionale oder rollenbasierte Informationen |
Benutzerkontext für Agent nicht verfügbar Wissensquellen, die nicht nach Zielgruppe segmentiert sind |
| Toolgenauigkeit | Richtige Toolauswahl Gültige Parameter und Bezeichner Alle erforderlichen Felder aufgefüllt |
Fehlende oder falsche Parameter Ungültige Tooleingaben |
Mehrdeutige API-Spezifikationen Falsche Parameterzuordnung |
| Behandlung von Toolantworten | Genaue Kommunikation von Toolergebnissen Korrekte Behandlung von Erfolgs- und Fehlerzuständen |
Falsche Erfolgsansprüche Ignorierte oder falsch interpretierte Toolfehler |
Fehlende Anleitung zur Fehlerbehandlung Fehlinterpretation von Toolantworten |
| Angemessenheit der Eskalation | Sensible oder komplexe Probleme werden ordnungsgemäß weitergeleitet. Einhaltung von Eskalationsregeln |
Agent versucht, nicht unterstützte Szenarien zu behandeln Fehler beim Eskalieren von Anforderungen mit hohem Risiko |
Nicht definierte Eskalationskriterien Zu wenig freizügige Anweisungen |
| Datenschutz | Weigerung, eingeschränkte Daten offenzulegen Antworten beschränkt auf autorisierte Informationen |
Offenlegung oder Rückschluss auf vertrauliche Daten Antworten, die geschützte Informationen verfügbar machen |
Schwache Zugriffssteuerungen Unzureichende Datenschutzhinweise |
| Aktionsaktivierung | Spezifische Anweisungen Links, Bezeichner oder Kontaktdetails |
Vage oder unvollständige Anleitung Fehlende umsetzbare Schritte |
Fehlende Verfahrensinformationen in Wissensquellen Überzusammenfasste Antworten |
Ableitung von Qualitätssignalen
Qualitätssignale werden von Mustern in Auswertungsergebnissen und nicht von vordefinierten Checklisten abgeleitet. So leiten Sie Qualitätssignale ab:
- Führen Sie einen ersten Satz von Auswertungstestfällen aus.
- Überprüfen Sie fehlgeschlagene Antworten in Testfällen.
- Identifizieren sie wiederkehrende Muster bei Fehlern.
- Definieren Sie jedes Muster als Qualitätssignal.
- Markieren Sie bezogene Assertionen mit dem entsprechenden Signal.
- Verfolgen Sie die Passraten nach Signal.
Qualitätssignale in der Praxis
Das folgende Beispiel zeigt Qualitätssignale, die für einen Mitarbeiter-Onboarding-Agent definiert sind.
| Beobachtung | Muster identifiziert | Qualitätssignal |
|---|---|---|
| Korrekte zurückgegebene PTO-Werte | Genauer Wissensabruf | Richtliniengenauigkeit |
| Als Antwort zitierte Quelle | Namensnennung enthalten | Quellenzuordnung |
| Falsche regionale Informationen zurückgegeben | Kontext nicht verwendet | Personalisierung |
| Tool, das mit falschen Parametern aufgerufen wurde | Ausführungsfehler | Toolgenauigkeit |
| Anforderung entsprechend an Personalabteilung weitergeleitet | Richtige Eskalation | Angemessenheit der Eskalation |
| Vertrauliche Daten nahezu verfügbar gemacht | Risiko der Datenschutzgrenze | Datenschutz |
| Nächste Schritte enthaltene Antwort | Aktion erfordernde Antwort | Aktionsaktivierung |
Im Folgenden finden Sie spezifische Measures für Qualitätssignale.
| Richtliniengenauigkeit | Quellenzuordnung | Toolgenauigkeit |
|---|---|---|
| Enthält die richtige PTO-Dauer | Zitate für autoritative Dokumente | Ruft das richtige Tool auf. |
| Enthält den richtigen Registrierungsstichtag. | Verweise auf bestimmte Abschnitte | Verwendet gültige Parameter. |
| Verweist nicht auf eine veraltete Richtlinie. | Gibt das richtige Ergebnis zurück. |
Anwenden und Kommunizieren von Qualitätssignalen
Verwenden Sie Qualitätssignale, um Auswertungsworkflows zu fördern und Erkenntnisse zu vermitteln. So wenden Sie Qualitätssignale an:
Tagassertionen : Fügen Sie jeder Assertion in Ihren Testfällen Signaltags hinzu.
Testfall: PTO-001
Eingabeaufforderung: "Wie viele Urlaubstage bekommen neue Mitarbeiter?"Assertionen:
Die Antwort enthält "15 Tage".
Signal: RichtliniengenauigkeitIn der Antwort wird das Mitarbeiterhandbuch zitiert.
Signal: QuellzuordnungIn der Antwort wird die <Klammer 2-Jahres-Dauer erwähnt.
Signal: Personalisierung
Berechnen von Metriken : Aggregieren Sie pass- und fail-Ergebnisse nach Signal.
Qualitätssignal Testfälle Bestehen Fehler Passrate Richtliniengenauigkeit 25 23 2 92 % Quellenzuordnung 25 20 5 80% Personalisierung 15 11 4 73% Toolgenauigkeit 12 10 2 83% Angemessenheit der Eskalation 8 8 0 100 % Datenschutz 10 10 0 100 % Priorisieren von Problemen : Konzentrieren Sie sich auf Signale mit niedrigen Passraten oder hohen Auswirkungen.
- Personalisierung (73 %) – Größte Lücke, untersuchen Sie zuerst.
- Quellzuordnung (80 %) – Zweite Priorität.
- Toolgenauigkeit (83 %) – Dritte Priorität.
- Richtliniengenauigkeit (92 %) – Kleinere Probleme, Überwachen.
Nachverfolgen des Fortschritts : Überwachen Sie die Signaldurchlaufraten über Agent-Versionen hinweg.
- Version 1.0 > 1.1 > 1.2 > 1.3
- Personalisierung: 73% > 78% > 85% > 91% (Verbesserung)
- Quellenzuordnung: 80% > 82% > 88% > 90% (Verbesserung)
- Toolgenauigkeit: 83% > 85% > 84% > 92% (verbessert nach v1.2 Regression)
Qualitätssignale transformieren Die Gespräche der Beteiligten. Diese Spezifität ermöglicht gezielte Korrekturen, quantitative Fortschrittsnachverfolgung und eine klarere Kommunikation der Beteiligten.
Ohne Signale: Der Agent funktioniert nicht gut. Benutzer beschweren sich.
Mit Signalen: Die Richtliniengenauigkeit liegt bei 92 % – wir erreichen unser Ziel. Die Personalisierung ist jedoch nach dem letzten Update auf 73 % gesunken. Insbesondere britische Mitarbeiter erhalten us-amerikanische Feiertagsinformationen. Wir haben die Grundursache identifiziert: Der Kontextabruf übergibt keine Standortdaten. Für die nächste Version wird ein Fix ausgeführt.
Qualitätssignale nach Agenttyp
Qualitätssignale und -prioritäten variieren je nach Dem Typ des Agents, den Sie auswerten.
| Agent-Typ | Signal | Priorität |
|---|---|---|
| Wissenserergrund | Richtliniengenauigkeit | Hoch |
| Quellenzuordnung | Hoch | |
| Vollständigkeit | Mittel | |
| Personalisierung | Mittel | |
| Toolaufrufe | Toolgenauigkeit | Hoch |
| Behandlung von Toolantworten | Hoch | |
| Aktionsaktivierung | Hoch | |
| Fehlerwiederherstellung | Mittel | |
| Hybrid | Routinggenauigkeit | Hoch |
| Wissenssignale | Mittel | |
| Toolsignale | Mittel | |
| Angemessenheit der Eskalation | Mittel | |
| Kundenorientierte | Datenschutz | Hoch |
| Ton und Professionalität | Hoch | |
| Angemessenheit der Eskalation | Hoch | |
| Vollständigkeit der Auflösung | Mittel |
Vermeiden häufiger Fallstricke
Vermeiden Sie die folgenden Probleme, um sicherzustellen, dass Ihre Qualitätssignale nützlich, konsistent und umsetzbar bleiben.
Verwenden bestimmter Signale anstelle generischer Kategorien
Signale, die zu breit sind, z. B. "Genauigkeit", "Hilfreichkeit" oder "Relevanz", bieten keine umsetzbaren Erkenntnisse. Generische Signale machen es schwierig, Ursachen zu identifizieren oder Verbesserungen zu priorisieren.
Definieren Sie stattdessen Signale basierend auf bestimmten, beobachtbaren Mustern in Auswertungsergebnissen.
- Vermeiden: Genauigkeit
- Bevorzugen: Richtliniengenauigkeit, Quellzuordnung
Vermeiden von zu präzisen Signalen
Das Erstellen von zu vielen eng begrenzten Signalen erhöht die Komplexität, ohne die Erkenntnisse zu verbessern. Übermäßige Analyse von Granularitätsfragmenten und erschwert die Nachverfolgung aussagekräftiger Trends.
Gruppieren Sie stattdessen verwandte Verhaltensweisen in breitere, wiederverwendbare Signalkategorien.
- Vermeiden: PTO-Genauigkeit, Vorteile Genauigkeit, Feiertagsgenauigkeit
- Bevorzugen: Richtliniengenauigkeit
Vermeiden sie vage Pass- und Fail-Kriterien
Ungenaue Signaldefinitionen, z. B. "Korrektheit", fehlen messbare Standards. Ohne klare Kriterien sind die Ergebnisse inkonsistent und schwer zu interpretieren.
Definieren Sie stattdessen Signale mithilfe expliziter, beobachtbarer Verhaltensweisen, die an Auswertungsergebnisse gebunden sind.
- Vermeiden Sie: "Antwort ist richtig"
- Prefer: "Response includes correct value and cites authoritative source" (Antwort enthält den richtigen Wert und zitiert autoritative Quelle)