Freigeben über


Verwenden von Rubriken in Tests

Sie können Rubriken in zwei verschiedenen Modi innerhalb der Testautomatisierung von Copilot Studio Kit verwenden. Das Verständnis des Unterschieds zwischen diesen Modi ist für die effektive Verwendung des Features "Rubrikenverfeinerung" unerlässlich.

Modi der Rubrikennutzung

Die Rubrikennutzung im Copilot Studio Kit arbeitet in zwei Modi:

Aspekt Testmodus (Testfallstufe) Einschränkungsmodus (Testlaufstufe)
Purpose Regelmäßige Testautomatisierung mit benutzerdefinierter Benotung Iterative Rubrikverfeinerung
Zuordnungsebene Einzeltestfall Gesamter Testlauf
Anwendungsfall Fortlaufende Qualitätssicherung Beim Verfeinern der Rubrikqualität
KI-Begründung Bewertung allein (kostengünstig) Bewertung: detaillierte Begründung (teurer)
Bestanden-Bewertung Bestimmt über Bestanden oder Nicht bestanden Nur Informationsindikator
Ziel Identifizieren von Antworten mit niedriger Qualität Minimierung der Fehlausrichtung zwischen KI und Mensch

Testmodus: Rubriken auf Testfallebene

Der Testmodus wurde für die regelmäßige Verwendung einer optimierten Rubrik entwickelt, um die Benotung von Generative Answer-Testfällen zu automatisieren.

Verwenden des Testmodus

Verwenden Sie die Rubriken auf Testfallebene im Copilot Studio Kit, wenn Sie:

  • Sie haben eine verfeinerte, vertrauenswürdige benutzerdefinierte Rubrik, die bereit für die regelmäßige Verwendung ist.
  • Möchten Sie Qualitätsprüfungen für generative Antwortantworten in vorhandenen Testsätzen automatisieren.
  • Benötigen Sie benutzerdefinierte Auswertungskriterien, die über die Standardüberprüfung im Copilot Studio Kit hinausgehen.

Zuweisen einer Rubrik auf Testfallebene

So weisen Sie eine Rubrik auf Testfallebene zu:

  1. Öffnen oder erstellen Sie einen Testfall mit Testtyp , der als generative Antworten festgelegt ist.
  2. Wählen Sie in der Dropdownliste "Rubrik " eine Rubrik aus. Wenn Sie eine Rubrik auswählen, wird das Feld " Antwort-/Validierungsanweisungen erwartet " ausgeblendet, da die Rubrik standardmäßige Gültigkeitsprüfungslogik ersetzt.
  3. Legen Sie die Bestanden-Bewertung fest.
  4. Wählen Sie Speichern aus.

Screenshot des Zuweisens einer Rubrik auf Testfallebene.

Funktionsweise einer Rubrik auf Testfallebene

Wenn Sie eine Rubrik auf Testfallebene zuweisen, tut sie Folgendes:

  • Ersetzt die Standardüberprüfung: Der rubrikbasierte KI-Grader ersetzt die standardmäßige Validierungslogik für generative Antworten.
  • Wertet die Antwort aus: Der KI-Richter bewertet die Antwort des Agenten anhand der Rubrikenkriterien.
  • Weist eine Noten zu: Eine Bewertung von 1 bis 5 wird basierend auf der Rubrik generiert.
  • Bestimmt das Bestehen oder Durchfallen:
    • Bestanden: Die Bewertung ist größer oder gleich dem Schwellenwert für die Bestanden-Bewertung.
    • Nicht bestanden: Der Notenwert ist kleiner als der Schwellenwert für die Bestehensgrenze.
  • Kein detaillierter Grund: Um die Kosten niedrig zu halten, wird nur die Noten bereitgestellt, nicht die Begründung.

Legen Sie die Mindestbestehensnote fest

Die Passnote legt die mindest akzeptable Qualitätsstufe fest:

Bestanden-Bewertung Beschreibung Anwendungsfall
5 (Standard) Nur beispielhafte Antworten bestehen Sie benötigen höchste Qualitätsstandards
4 Starke oder bessere Antworten bestehen Sie akzeptieren qualitativ hochwertige Antworten mit Möglichkeit für geringfügige Verbesserungen.
3 Akzeptable oder bessere Antworten bestehen Sie benötigen Antworten, die den Mindestfunktionsanforderungen entsprechen
2 Schwache oder bessere Antworten bestehen Sie setzen einen sehr niedrigen Maßstab (selten empfohlen)
1 Alle Antworten bestehen die Prüfung, mit Ausnahme der schlechtesten. Fast nie geeignet für die Qualitätssicherung

Verwenden Sie für die meisten Anwendungsfälle zur Qualitätssicherung die Bewertungsstufe 5 oder 4, um hohe Standards aufrechtzuerhalten.

Zweck des Testmodus

Der Testmodus hilft Ihnen bei:

  • Identifizieren Sie antworten mit niedriger Qualität , die Aufmerksamkeit benötigen.
  • Automatisieren Sie Regressionstests mit konsistenten Bewertungskriterien.
  • Skalierung der Qualitätssicherung in vielen Testfällen.
  • Wenden Sie domänenspezifische Standards an , die keine generische Überprüfung erfassen können.

Verfeinerungsmodus: Rubriken auf Testlaufebene

Der Einschränkungsmodus unterstützt den iterativen Prozess der Erstellung und Verbesserung einer Rubrik durch Vergleich der KI-Benotung mit der menschlichen Benotung.

Verwenden des Verfeinerungsmodus

Verwenden Sie Rubriken auf Testlaufebene im Copilot Studio Kit, wenn Sie:

  • Erstellen oder Verfeinern einer Rubrik.
  • Wir müssen die KI-Abstimmung mit dem menschlichen Urteil in Einklang bringen.
  • Sie möchten KI- und menschliche Bewertungen vergleichen.
  • iterieren, um die Rubrikqualität zu verbessern.

Eine Rubrik auf Testlaufebene zuweisen

So weisen Sie eine Rubrik auf Testlaufebene zu:

  1. Öffnen oder Erstellen einer Testausführung.
  2. Wählen Sie in der Dropdownliste "Rubrik " eine Rubrik aus.
  3. Legen Sie die Bestanden-Bewertung fest. Der Standardwert ist 5 - (Exemplarisch). Dieser Wert gilt nur im Verfeinerungsmodus reinen Informationszwecken, da das Ziel die Ausrichtung ist und nicht das Erreichen von Punktzahlen.
  4. Wählen Sie "Speichern" aus, und führen Sie die Testausführung aus.

Screenshot des Testlaufs mit Rubrik.

Funktionsweise einer Rubrik auf Testlaufebene

Wenn Sie auf Testlaufebene eine Rubrik zuweisen, tut sie Folgendes:

  • Gilt für alle Generative Answer Tests: Die ausgewählte Rubrik setzt alle Rubriken außer Kraft, die auf Testfallebene festgelegt sind.
  • Überspringt Nicht-GA-Testtypen: Testfälle, die keine generativen Antworten sind, werden vollständig übersprungen.
  • Führt KI-Bewertungen mit Gründen aus: Der KI-Richter bietet beides:
    • Note (1-5): Die Qualitätsbewertung
    • Begründung: Ausführliche Begründung zur Erläuterung der Noten
  • aktiviert Verfeinerungsworkflow: Ergebnisse umfassen Felder für die menschliche Bewertung und Ausrichtungsindikatoren.
  • Ist teurer: Die Generierung detaillierter Rationale erhöht die KI-Verarbeitungskosten.

Verständnis der Bestanden-Bewertung

Im Verfeinerungsmodus dient die Bestanden-Bewertung reinen Informationszwecken, sie ist kein Ziel.

  • Zweck: Die Bestehensgrenze hilft Ihnen dabei, herauszufinden, welche Antworten unter Ihrem Zielwert liegen.
  • Nicht das Ziel: Das Ziel der Verfeinerung besteht darin, die Fehlausrichtung zwischen KI- und menschlicher Bewertung zu minimieren, und nicht darin, dass alle Antworten bestehen.
  • Beispiel: Wenn Sie die Bestehensnote auf 5 festlegen und die KI eine Note von 3 vergibt, zeigt Ihnen diese Note, dass diese Antwort Ihrem Standard nicht entspricht. Aber was wichtig ist, ist, ob der Mensch es auch als 3 (Ausrichtung) oder anders benotet (Fehlausrichtung).

Unterschied zwischen Test- und Verfeinerungsmodi

Rubrik auf Testfallebene ausgewählt Ausgewählte Rubrik auf Testlaufebene Keine Rubrik ausgewählt
  • Der Testlauf läuft normal mit allen Testtypen weiter.
  • Das KI-Bewertungssystem bietet nur Noten (keine Begründung) zur Kostenersparnis.
  • Nur Testfälle mit zugewiesenen Rubriken verwenden KI-Benotung; andere verwenden die Standardüberprüfung.
  • In der Ergebnisansicht werden standardtestergebnisse angezeigt.
  • Der Testlauf dient speziell der Überarbeitung der Rubrik.
  • KI-Grader bietet Bewertung und Begründung für Generative Antwort Tests.
  • Testtypen für nicht generierende Antworten werden übersprungen.
  • Überprüfungsanweisungen auf Testfallebene werden ignoriert.
  • Die Ergebnisansicht zeigt die Rubrikverfeinerungsschnittstelle, die Felder zur Bewertung durch Menschen enthält.
  • Die Überprüfung standardmäßiger generativer Antworten wird angewendet (Meta-Prompt + Validierungsrichtlinien).
  • Bestanden oder nicht bestanden, bestimmt durch vorhandene Validierungslogik.
  • In der Ergebnisansicht werden standardtestergebnisse angezeigt.

Verhaltensnotizen

Im Folgenden finden Sie einige wichtige Verhaltenshinweise, die Sie verstehen sollten, wenn Sie Rubriken in verschiedenen Modi verwenden:

Rubrikhierarchie und -überschreibungen

  • Rubrik auf Testlaufebene überschreibt Rubriken auf Testfallebene: Wenn Sie eine Rubrik auf der Ebene des Testlaufs auswählen, gilt sie für alle „Generative Antwort“-Testfälle, während alle anderen Rubriken ignoriert werden, die einzelnen Testfällen zugewiesen sind.
  • Rubriken auf Testfallebene sind unabhängig: Wenn Sie keine Rubrik auf Testlaufebene auswählen, verwendet jeder Testfall eine eigene Rubrik (sofern zugewiesen) oder eine Standardüberprüfung (falls nicht).

Nicht-generative Antworttesttypen

Wenn Sie auf Testlaufebene eine Rubrik auswählen:

  • Nicht-GA-Testtypen werden übersprungen: Rubriken gelten nur für Generative Answer-Testfälle.
  • Rationale: Rubriken sind für die Auswertung von generativen Antworten konzipiert, nicht für andere Testtypen wie Aktion, Thema oder Unterhaltungsfluss.

Wenn Rubrik auf Testfallebene ausgewählt ist:

  • Nicht-GA-Testtypen werden normal ausgeführt: Nur ein bestimmter Generative Answer-Testfall verwendet die Rubrik.

Validierungsanweisungen und Rubriken

  • Gegenseitig ausschließend: Sie können keine rubrikbasierten Benotungs- und Validierungsanweisungen zusammen verwenden.
  • Wenn Sie eine Rubrik auswählen: Das Feld "Validierungsanweisungen " ist ausgeblendet (Testfallebene) oder ignoriert (Testlaufstufe).
  • Begründung: Der Kriterienkatalog ersetzt die Gültigkeitsprüfungslogik vollständig.

Kostenaspekte

Modus KI-Benotungstyp Cost Wann verwenden
Testmodus (Testfall) Nur Bewertung Niedriger
  • Regelmäßige Qualitätssicherung
  • Tests mit hohem Volumen
Verfeinerungsmodus (Testausführung) Bewertung + Begründung Höher
  • Rubrikverfeinerung
  • Ausrichtungsanalyse
  • Iterative Verbesserung bei geringem Volumen

Workflow: Vom Verfeinern bis zum Testen

Der typische Workflow verläuft von der Verfeinerung zum Testen.

Phase 1: Rubrikverfeinerung (Testlaufebene)

  1. Erstellen Sie eine erste Rubrik.
  2. Weisen Sie eine Rubrik auf Testlaufebene zu.
  3. Ausführen eines Testlaufs mit KI-Benotung plus Rationale.
  4. Stellen Sie menschliche Bewertungen zur Verfügung.
  5. Ausrichtung vergleichen.
  6. Verfeinern Sie die Rubrik basierend auf der Fehlausrichtung.
  7. Wiederholen Sie den Vorgang, bis die Ausrichtung akzeptabel ist.

Phase 2: Regelmäßige Tests (Testfallstufe)

  1. Stellen Sie sicher, dass eine Rubrik verfeinert und vertrauenswürdig ist.
  2. Weisen Sie eine Rubrik auf Testfallebene zu.
  3. Verwenden Sie eine Rubrik in der laufenden Testautomatisierung.
  4. KI-Benotung ohne Rationale (kostenwirksam).
  5. Bestehen oder durchfallen basierend auf der Bestehensnote.
  6. Kehren Sie zur Verfeinerung zurück, wenn Qualitätsprobleme auftreten.

Auswählen des richtigen Modus

Wählen Sie den Testmodus (Testfallebene) und den Einschränkungsmodus (Testlaufstufe) basierend auf Ihren aktuellen Zielen und dem Ort, an dem Sie sich im Lebenszyklus der Rubrikenentwicklung befinden.

Verwenden des Testmodus (Testfallstufe)

Verwenden Sie den Testmodus (Testfallebene), wenn:

  • Ihre Rubrik ist stabil und gut ausgerichtet.
  • Sie führen eine routinemäßige Qualitätssicherung durch.
  • Sie benötigen eine kostengünstige automatisierte Abstufung.
  • Ihr primäres Ziel sind Bestanden- oder Nicht-Bestanden-Ergebnisse.

Verfeinerungsmodus verwenden (Testlauf-Ebene)

Verwenden Sie den Einschränkungsmodus (Testlaufebene), wenn:

  • Sie erstellen eine neue Rubrik.
  • Sie verbessern eine vorhandene Rubrik.
  • Sie müssen KI und menschliches Urteil vergleichen.
  • Sie möchten die KI-Begründung verstehen.
  • Die Ausrichtungsanalyse ist Ihr primäres Ziel.

Bewährte Methoden

Verwenden Sie die folgenden bewährten Methoden, um Rubriken sowohl im Test- als auch im Einschränkungsmodus effektiv zu verwenden:

  1. Mit dem Verfeinerungsmodus beginnen: Verfeinern Sie eine Rubrik immer durch Verwenden der Zuweisung auf Testlaufebene, bevor Sie sie auf Testfallebene für reguläre Tests bereitstellen.
  2. Verwenden Sie repräsentative Testfälle: Wählen Sie zur Verfeinerung Testfälle aus, die die Vielfalt von Antworten darstellen, die in der Produktion auftreten können.
  3. Realistische Bestanden-Bewertungen festlegen: Legen Sie nicht standardmäßig die Noten als 5 fest, es sei denn, Sie benötigen für jede Antwort eine vorbildliche Qualität. Bedenken Sie Folgendes:
    • Stufe 5: Reserve für kritische Kommunikation (IR-Berichte, Managementzusammenfassungen).
    • Klasse 4: Geeignet für die meisten Unternehmenskommunikationen.
    • Klasse 3: Mindestfunktionsqualität für interne Werkzeuge.
  4. Ausrichtung im Zeitverlauf überwachen: Sogar verfeinerte Rubriken können später Abweichungen aufweisen. Geben Sie den Verfeinerungsmodus regelmäßig erneut ein, um die Ausrichtung mit den aktuellen Erwartungen zu überprüfen.
  5. Dokumentzweck der Rubrik: Fügen Sie Anmerkungen zu Ihrer Rubrikbeschreibung hinzu über:
    • Beabsichtigter Anwendungsfall
    • Bestanden-Zielbewertung
    • Alle besonderen Überlegungen
  6. Test auf Testlaufebene vor dem Commit: Führen Sie vor dem Zuweisen einer neuen Rubrik zu vielen Testfällen zuerst eine Testausführung aus, um zu überprüfen, ob sie wie erwartet funktioniert.

Weitere Informationen finden Sie in den bewährten Methoden und Tipps zur Verfeinerung von Rubriken.

Nächster Schritt