Freigeben über


Überprüfen Sie die Checkliste zur Agentenbewertung

Die Agentenbewertung sollte ein iterativer Prozess sein, der von der Phase der Agentenvorstellung und -gestaltung beginnt und bis hin zur Agenteneinsetzung und Regressionserkennung fortgesetzt wird. Diese Vorlage liefert die wesentlichen Elemente für den Aufbau von Bewertungstestsets sowie für die Implementierung und Iteration einer vierstufigen Struktur im gesamten Lebenszyklus eines Agenten.

Tipp

Laden Sie die bearbeitbare Checklistenvorlage herunter.

Stufe 1: Aufbau grundlegender Bewertungstestsets

Ziel: Erstellen und führen Sie ein grundlegendes Bewertungstestset durch, das die Kernszenarien des Agenten bewertet.

Ein Bewertungstestsatz ist eine Gruppe von Testfällen. Ein Testfall ist ein individuelles Prompt-und-Antwort-Paar, das die Antwort eines Agenten auf eine bestimmte Frage bewertet. Sie enthält einen Testprompt und eine optionale erwartete Antwort (Assertion), die direkt aus der Agenteninstruktionsanforderung hervorgeht. Ein Testfall sollte außerdem die Akzeptanzkriterien und die Testmethode angeben, um die Qualität zu bewerten.

Agentenszenario1 Testaufforderung
(Beispiel-Frageprompt an den Agenten)
Erwartete Antwort Akzeptanzkriterien2
(Definiere, wie eine erfolgreiche Antwort aussieht: Was durchkommt und was nicht)
Der Agent sollte den Inhalt der Richtlinie basierend auf dem Wissensartikel zur Richtlinie beantworten. "Wie viele Krankheitstage bekommt ein Mitarbeiter?" "30 Tage. <Zitat>" Die Antwort muss den genauen Text aus dem Richtlinienwissen sowie der Textübereinstimmung enthalten. Die Antwort muss einen Zitat enthalten.
Der Agent sollte keine Fragen über das hinaus beantworten, was im Richtlinien-Wissensartikel steht. Direkte Antworten an den HR-Personalsupport. "Wie viele Krankheitstage bekommt ein Mitarbeiter?" Das Richtliniendokument legt die Anzahl der Krankheitstage nicht fest. Konsultieren Sie die Personalabteilung bezüglich Ihrer Krankheitsregelung." Die Antwort auf einen verbotenen Fall muss an den menschlichen HR-Support weitergeleitet werden.

Tipp

1Agentenszenario: Ein grundlegendes Testset sollte Testfälle enthalten, die die wichtigsten Szenarien oder Anwendungsfälle des Agenten abdecken. Nutze das Agentenszenario als Orientierung und konzentriere dich darauf, was der Agent bewältigen oder vermeiden soll. Dieser Prozess hilft Ihnen, eine gezielte Liste von Testprompts zusammenzustellen und sollte eng mit der Entwicklung der Agentenanweisungen abgestimmt werden. Um die richtige Anzahl von Testfällen zu bestimmen, beginnen Sie mit einem Testprompt für jedes Schlüsselszenario. Beginnen Sie mit einer kleinen Reihe von Testfällen, dann iterieren und verfeinern, sobald Sie Erkenntnisse gewinnen und die Abdeckung verbessern.

2Akzeptanzkriterien: Definieren Sie klar, was Erfolg ausmacht. Diese Definition kann anfangs herausfordernd sein, daher sollten Sie Ihre Kriterien durch Iteration verfeinern. Führe den Testprompt aus, überprüfe die Antwort und bewerte die Qualität, indem du fragst: Beantwortet es die Hauptfrage? Verwendet es die richtigen Informationen? Ist Ton und Stil angemessen? Respektiert es die Berechtigung zum Teilen? Ihre Erkenntnisse aus diesen Fragen helfen Ihnen, Akzeptanzkriterien zu etablieren und, falls nötig, eine erwartete Antwort.

Phase 2: Etablierung einer Basislinie und Verbesserung

Ziel: Führen Sie Evaluationen durch und legen Sie Baseline-Kennzahlen fest, um zu benchmarken und sich zu verbessern.

Sie können die Bewertung manuell durchführen oder spezielle Werkzeuge verwenden. Für die manuelle Bewertung senden Sie den Testprompt an den Agenten, überprüfen Sie die Antwort, nutzen Sie menschliches Urteilsvermögen, um festzustellen, ob sie die Akzeptanzkriterien erfüllt, und notieren Sie das Ergebnis. Microsoft bietet Tools für die Agentauswertung, einschließlich des Features Copilot Studio-Agentauswertung.

Festlegen Sie die Basislinie

  • Führen Sie den grundlegenden Test gegen den Agent aus.
  • Dokumentieren Sie Bestanden oder Fehlgeschlagen für jeden Testfall.
  • Berechnen Sie die Gesamtbestehensquote: ______%.
  • Erfassen Sie die Agentenversion und das Basisdatum: ___________.

Ursachenanalyse und Iteration

Überprüfen Sie die Bewertungsergebnisse, um falsch-positive und echte negative Ergebnisse für eine weitere Analyse zu identifizieren. Ein falsch positives Ergebnis ist eine Antwort, die als bestanden markiert ist, aber basierend auf menschlichem Urteil fehlschlagen sollte. Ein wahres Negativ ist eine Antwort, die korrekt als Fehlschlag identifiziert wird. Bewerten Sie die fehlgeschlagenen Fälle aus zwei Perspektiven:

  • Testfallproblem: Verursacht der Testprompt, die erwartete Antwort oder das Akzeptanzkriterium den Fehlschlag?
  • Problem des Agentendesigns: Weist der Fehler auf unklare Agentenanweisungen oder Mängel im Wissen oder in der Werkzeugkonfiguration hin?

Identifizieren Sie die Ursache und verbessern Sie, indem Sie entweder den Testfall verfeinern oder das Wirkstoffdesign verbessern.

Tipp

Bewertung zum Bestehen: Agents können aufgrund ihrer probabilistischen Natur unterschiedliche Antworten auf denselben Prompt geben. Diese Variabilität könnte dazu führen, dass Antworten die Kriterien erfüllen oder nicht erfüllen, je nachdem, wie streng die Zulassungskriterien sind. Um eine zuverlässige Bewertung zu gewährleisten, führen Sie jede Testreihe mehrfach durch und berechnen Sie die durchschnittliche Erfolgsquote. Streben Sie eine realistische Bestehensquote von 80–90%an, basierend auf Ihren Geschäftsbedürfnissen.

Phase 3: Systematische Expansion umsetzen

Ziel: Aufbauen Sie umfassende Bewertungssuiten zu verschiedenen Qualitätskategorien der Agenten.

Die Stufen 1 und 2 legten das grundlegende Testset für die primären Anwendungsfälle des Agenten fest. Erweitern Sie anschließend Ihre Bewertung, indem Sie Testsätze erstellen, die verschiedene Qualitätskategorien von Agenten bewerten. Die folgende Liste schlägt Kategorien vor, die verschiedene Qualitätsaspekte behandeln.

Qualitätskategorie Ziel
Fundamentaler Kern Die Einstellung „Muss bestehen“. Es misst die essentielle Reaktionsqualität bei der Einführung und führt Regressionserkennung während des Betriebs durch.
Agentenrobustheit Der Kernwert eines Agenten gegenüber traditioneller Software ist seine Robustheit bei der Behandlung verschiedener Anwendungsfälle. Dieser Wert kann Folgendes umfassen:
  • Wie reagiert der Agent auf dieselbe Frage, die anders formuliert ist?
  • Wie geht der Agent mit dem im Prompt bereitgestellten reichen Kontext um?
  • Wie misst man Multi-Intent in einem einzigen Prompt?
  • Kann der Agent benutzerspezifische Anfragen korrekt beantworten?
Der Agent sollte die Anwendungsfall-Varianz mit Gelassenheit handhaben und kann mit speziellen Testfällen bewertet werden.
Architekturtest Bewerten Sie die funktionale Leistung des Agenten. Die Maße können umfassen:
  • Werkzeugaufruf, Aktion
  • Wissensabruf und Zitationsverhalten
  • Routing-Logik
  • Integration von Übergaben
Randfälle So sollte der Agent grenzwertige Fälle mithilfe von Leitplanken handhaben.
  • Randbedingungen
  • Nicht erlaubte und außerhalb des Umfangsbereichs liegende Verhaltensweisen

Tipp

Kategorienzweck-Referenz:

  • Core fällt aus: Etwas ist kaputt oder funktioniert nicht. Untersuchen Sie die jüngsten Änderungen.
  • Robustheit scheitert: Der Agent ist zu streng. Es könnte zu sehr auf bestimmte Formulierungen fokussiert sein.
  • Architekturfehler: Eine bestimmte Komponente oder ein Workflow muss debuggt werden.
  • Grenzwertige Fälle schlagen fehl: Die Vorkehrungsmaßnahmen müssen verbessert werden. Stärke Grenzen.  

Phase 4: Einrichtung einer kontinuierlichen Qualitätsverbesserungsbewertung

Ziel: Etablierung einer kontinuierlichen Bewertungsüberwachung, um die Qualität des Wirkstoffs während des Betriebs zu erhalten.

Sobald man einen Agenten in die Produktion bringt, tritt er in eine stabile Phase ein. Um die Qualität zu gewährleisten und Regressionen oder Probleme durch Produktänderungen (wie Modellverbesserungen oder Aktualisierungen des Wissenssystems) oder sich entwickelnde Anwendungsfälle schnell zu erkennen, richten Sie eine fortlaufende Evaluierungsoperation ein. Planen Sie regelmäßige Evaluationsläufe oder lösen Sie sie basierend auf bestimmten Ereignissen zur Qualitätssicherung aus.

  • Richte regelmäßige Wartungsevaluationsintervalle ein.
  • Vorgeschlagene Auslöser für die vollständige Suite-Bewertung:
    • Modellwechsel
    • Umfangreiche Aktualisierung der Wissenseinrichtung
    • Neue Tool- oder Connector-Integrationen
    • Produktionsvorfall

Tipp

Erfolgsindikator: Sie operationalisieren erfolgreich, wenn Sie die Anliegen der Stakeholder mit konkreten Angaben beantworten können, anstatt zu sagen: "Der Agent scheint in Ordnung zu sein."

Sie sagen: "Die Einhaltung der Richtlinien liegt bei 98%, aber Personalisierung ist auf 87%gesunken – konkret werden festangestellte Richtlinien nicht angewendet. Wir haben die Ursache identifiziert und iterieren weiter."