Verfeinerung der Rubriken im Copilot Studio Kit

Die Verfeinerung von Rubriken in Copilot Studio Kit hilft Ihnen, wiederverwendbare Auswertungsstandards (Rubriken) für KI-generierte Antworten zu erstellen, zu testen und iterativ zu verbessern. Mit diesem Feature können Sie sicherstellen, dass die KI-Bewertung der Antworten Ihres Agenten mit menschlichen Beurteilungs- und Organisationsqualitätsstandards übereinstimmt.

Agentenbewertung und KI-Richter

Ein KI-Richter ist ein großes Sprachmodell (LLM), das die Qualität der Antworten Ihres Agenten auswertet, indem es eine von Ihnen definierte Rubrik anwendet. Die KI-Bewertung imitiert, was ein menschlicher Bewerter bei der Beurteilung der Antwortqualität tut, aber sie funktioniert automatisch und in großem Umfang.

Die Genauigkeit der Benotung hängt ganz davon ab, wie gut die Rubrik Ihre Qualitätsstandards erfasst. Ohne eine systematische Möglichkeit, Bewertungskriterien zu verfeinern, kämpfen Organisationen mit:

Definieren von klaren, domänenspezifischen Evaluierungsstandards
Vergleich der KI-Bewertung mit menschlichen Erwartungen
Ermitteln, wo Rubrikenanweisungen keine beabsichtigten Qualitätskriterien erfassen
Vertrauen in KI-Bewertungsergebnisse für entscheidende Geschäftsanwendungen schaffen

Die Verfeinerung von Rubriken behebt diese Herausforderungen, indem ein iterativer Workflow bereitgestellt wird, der KI-Benotung in Übereinstimmung mit menschlichem Urteil bringt.

Vergütungen

Wiederverwendbare Auswertungsstandards: Definieren Sie Rubriken einmal, und verwenden Sie sie für mehrere Agents und Testläufe wieder.
Ausrichtung mit menschlichem Urteil: Systematische Minimierung des Missverhältnisses zwischen KI und menschlichen Bewertern.
Qualitätssicherung: Richten Sie dauerhafte Unternehmensressourcen ein, die organisatorische Qualitätsstandards codieren.
Vertrauen in die KI-Bewertung: Vertrauen Sie in die automatisierte Benotung durch transparente, iterative Verfeinerung.

Rubriken als Bewertungsstandards

Eine Rubrik ist ein strukturierter Satz natürlicher Benotungsanweisungen, die ein KI-Richter verwendet, um die Qualität der Reaktion eines Agenten zu bewerten. Eine Rubrik enthält:

Eine Beschreibung von "wie eine gute Antwort aussieht"
Notendefinitionen für eine 5-Punkt-Skala (z. B. 5 für Exemplarisch, 1 für Verbesserung der Bedürfnisse)
Optionale gute und schlechte Beispiele, die Qualitätsstandards veranschaulichen

KI-Benotung im Vergleich zur menschlichen Benotung

KI-Bewertung: Ein KI-Richter (LLM) verwendet die Rubrik, um Antworten auszuwerten. Sie generiert eine Benotung (1-5) und eine Begründung, die ihre Bewertung erläutert.
Menschliche Benotung: Ein menschlicher Bewerter (Macher) bewertet dieselben Antworten. Sie geben ihre eigene Bewertung (1-5) ab und begründen ihre Wahl.
Vergleich: Indem Sie diese beiden Bewertungen vergleichen, bestimmen Sie, wo die Rubrik verfeinert werden muss.

Ausrichtung und Fehlausrichtung

Ausrichtung: Wenn die KI-Note der menschlichen Note entspricht, funktioniert die Rubrik wie beabsichtigt.
Diskrepanz: Wenn sich die KI-Note von der menschlichen Note unterscheidet, muss der Bewertungsmaßstab verbessert werden.

Rubrikenverfeinerung ist ein iterativer Prozess. Führen Sie die folgenden Schritte aus:

Definieren Sie eine erste Rubrik mit Bewertungskriterien.
Führen Sie Tests aus, indem Sie die Rubrik verwenden, um KI-Noten zu generieren.
Überprüfen Sie die Antworten des Agents und geben Sie menschliche Bewertungen ab.
Vergleichen Sie KI- und menschliche Bewertungen, um Fehlausrichtung zu identifizieren.
Markieren Sie gute und schlechte Beispiele, um die Verfeinerung zu leiten.
Verfeinern Sie die Rubrik mithilfe der KI-Analyse von Fehlausrichtungsmustern.
Führen Sie Tests mit der aktualisierten Rubrik erneut aus.
Wiederholen Sie den Vorgang, bis die Ausrichtung akzeptabel ist.

Hauptziel

Ziel der Verfeinerung der Rubriken ist es nicht, dass alle Antworten mit einer 5 (Exemplarisch) bewertet werden. Ziel ist es, die Fehlausrichtung zwischen KI und menschlichen Bewertenden zu minimieren.

Die Reaktionsoptimierung – tatsächlich die Qualität der Antworten Ihres Agenten zu verbessern – geschieht in Copilot Studio selbst. Die Rubrikenverfeinerung konzentriert sich ausschließlich darauf, dass Ihre Bewertungskriterien das menschliche Urteil genau widerspiegeln, damit Sie den automatisierten Bewertungsergebnissen vertrauen können.

Modi der Rubrikennutzung

Rubriken im Copilot Studio Kit dienen zwei unterschiedlichen Zwecken:

Testmodus (Testfallstufe)
- Zweck: Regelmäßige Testautomatisierung mit benutzerdefinierten Benotungskriterien.
- Konfiguration: Rubrik auf Ebene der einzelnen Testfälle zuweisen.
- Anwendungsfall: Fortlaufende Qualitätssicherung für Generative Answer Testfälle.
- Bestanden/Nicht bestanden: Die Note ist größer oder gleich dem Schwellenwert zum Bestehen (Standard: 5).
Einschränkungsmodus (Testlaufstufe)
- Zweck: Iterativ verfeinern und verbessern Sie die Rubrik selbst.
- Konfiguration: Weisen Sie Rubriken auf der Testlaufebene zu.
- Anwendungsfall: Dedizierter Workflow zur Verfeinerung von Rubriken.
  - Bestanden/Nicht bestanden: Die Übermittlung der Noten ist nur zur Information. Das Ziel ist die Ausrichtung und nicht das Bestehen.
- Wichtiger Unterschied: KI bietet detaillierte Rationale (teurer) zur Unterstützung der Analyse.

Rubrikenverfeinerung ist ideal für:

Qualitätssicherungsteams: Richten Sie einheitliche Bewertungsstandards für alle Agenten ein.
Hersteller: Erstellen Sie zuverlässige automatisierte Tests mithilfe von generativen Antwortantworten.
Unternehmensorganisationen: Definieren von domänenspezifischen, organisatorischen Qualitätsstandards.
Jeder, der Vertrauen in die KI-Bewertung sucht: Teams, die Vertrauen in die automatisierte Benotung für kritische Anwendungsfälle benötigen.

Was ist in dieser Version enthalten?

Vollständige Rubrikenverwaltung (Erstellen, Anzeigen, Bearbeiten, Duplizieren, Löschen).
Rubrikenzuweisung auf Testlaufebene (für Feinabstimmung) und Testfallebene (für Testen).
Auswahl der Bestanden-Bewertung mit klarer Differenzierung zwischen Test- und Verfeinerungsmodus.
Zwei Einschränkungsansichten: Standard (KI-Noten ausgeblendet, um Verzerrungen zu vermeiden) und Full (AI-Noten sichtbar).
Detaillierte Ansicht für die Benotung längerer Antworten.
Möglichkeit, Testfälle als gute oder schlechte Beispiele zu markieren.
KI-gestützte Rubrikenverfeinerung auf Grundlage von Analyse der Übereinstimmung.
Optionen „Speichern“ und „Speichern unter“, um Rubrikversionen zu speichern.
Unterstützung für iterative Verfeinerungs-Workflows.

Was ist für zukünftige Versionen geplant?

Automatisches Generieren von Testsätzen aus Unterhaltungstranskripten.
Erweiterte Diagnose und Analyse.
Governance von Rubriken (Genehmigungen, Lebenszyklusmanagement, Publikation).
Verbesserte dedizierte Rubrikenverfeinerungsschnittstelle.

Erste Schritte

So beginnen Sie mit der Verwendung der Rubrikenverfeinerung.

Erstellen Sie eine Rubrik , die Ihre Qualitätsstandards definiert.
Testfälle mit generativen Antworttypen vorbereiten.
Konfigurieren Sie eine Testausführung für die Einschränkung von Rubriken.
Folgen Sie dem Workflow zur Rubrikverfeinerung, um KI an menschliches Urteil auszurichten.

Nächster Schritt

Erstellen und Verwalten von Bewertungsrubrik

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-25