Anzeigen der Auswertungsergebnisse im Microsoft Foundry-Portal

In diesem Artikel erfahren Sie, wie Sie:

  • Finden und öffnen Sie Ausführungsbewertungen.
  • Aggregierte Metriken und Metriken auf Beispielebene anzeigen.
  • Vergleiche die Ergebnisse über verschiedene Durchläufe.
  • Interpretieren von Metrikkategorien und Berechnungen.
  • Problembehandlung bei fehlenden oder teilweisen Metriken.

Voraussetzungen

Ihre Auswertungsergebnisse ansehen

  1. Gehen Sie im Foundry Portal zu Ihrem Projekt und wählen Sie Evaluierung im linken Bereich aus.

  2. Wählen Sie eine Auswertungsausführung aus der Liste aus, um die Detailseite zu öffnen. Wenn die Ausführung noch im Gange ist, zeigt der Status Läuft und wird automatisch aktualisiert, wenn sie abgeschlossen ist.

    Die Detailseite zeigt:

    Feld Beschreibung
    Namen Der Name der Ausführung der Evaluierung.
    Ziel Das Modell oder der Agent, der ausgewertet wurde.
    Datensatz Das verwendete Testdatenset. Wählen Sie das Downloadsymbol aus, um es als CSV-Datei zu exportieren.
    Status Aktueller Status der Ausführung (Ausführen, Abgeschlossen oder fehlgeschlagen).
    Auswertungstoken Token, die von den Evaluatoren während der Ausführung verbraucht wurden.
    Zieltoken Token, die von dem zu bewertenden Modell oder Agenten genutzt werden.
    Resultate Aggregatbewertung für jeden verwendeten Evaluator.

    Ein Screenshot der Seite Evaluierung zeigt eine Liste der Ausführungen mit den Spalten Name, Status, Ziel, Evaluierungs-Token, Ziel-Token und Scores.

  3. Zeigen Sie mit der Maus auf eine Bewertungszelle, um Details zur Tokennutzung und zusätzlichen Kontext anzuzeigen.

    Screenshot der Seite Evaluierung mit einer Score-Zelle, die einen Tooltip mit einer Aufschlüsselung der Token-Nutzung anzeigt.

  4. Wählen Sie "Weitere Informationen zu Metriken " aus, um Metrikdefinitionen und Bewertungsformeln anzuzeigen.

Details zum Evaluationslauf

Wählen Sie den Namen der Ausführung aus, um ergebnisse auf Zeilenebene für jede einzelne Abfrage anzuzeigen. Für jede Zeile können Sie die Abfrage, Antwort, Grundwahrheit, Bewertungspunktzahl und Punkterklärung anzeigen.

Vergleichen der Auswertungsergebnisse

Wenn Sie zwei oder mehr Ausführungen vergleichen möchten, wählen Sie die Durchläufe aus, die Sie vergleichen möchten, und starten Sie den Vorgang.

  1. Wählen Sie zwei oder mehr Durchläufe auf der Seite mit den Auswertungsdetails aus.
  2. Wählen Sie "Vergleichen" aus.

Sie sehen eine Side-by-Side-Vergleichsansicht für alle ausgewählten Ausführungen.

Der Vergleich verwendet statistische t-Tests, die Ihnen sensiblere und zuverlässigere Ergebnisse liefern, um Entscheidungen zu treffen. Sie können verschiedene Funktionen dieses Features verwenden:

  • Baseline-Vergleich: Durch das Festlegen eines Basislaufs können Sie einen Referenzpunkt identifizieren, mit dem Sie die anderen Läufe vergleichen können. Sie können sehen, wie jede Ausführung von Ihrem gewählten Standard abweicht.
  • Statistische t-Test-Bewertung: Jede Zelle liefert die Stat-Sig-Ergebnisse mit unterschiedlichen Farbcodes. Sie können auch auf die Zelle zeigen, um die Stichprobengröße und den p-Wert abzurufen.
Legende Definition
ImprovedStrong Hoch statistisch signifikant (p<=0,001) und bewegt sich in die gewünschte Richtung
ImprovedWeak Stat-sig (0,001<p<=0,05) und in die gewünschte Richtung verschoben
HerabgestuftStark Hoch statistisch signifikant (p<=0,001) und in die falsche Richtung bewegt
Abgeschwächt Stat-sig (0.001<p<=0.05) und bewegte sich in die falsche Richtung
ChangedStrong Hochgradig statistisch signifikant (p<=0,001) und die gewünschte Richtung ist neutral
ChangedWeak Stat-sig (0,001<p<=0,05) und gewünschte Richtung ist neutral
Ergebnislos Zu wenige Beispiele oder p>=0,05

Hinweis

Die Vergleichsansicht wird nicht gespeichert. Wenn Sie die Seite verlassen, können Sie die Durchläufe erneut auswählen und Vergleichen auswählen, um die Ansicht neu zu generieren.

Grundlegendes zu den integrierten Auswertungsmetriken

Das Verständnis der integrierten Metriken ist für die Bewertung der Leistung und Effektivität Ihrer KI-Anwendung unerlässlich. Indem Sie sich über diese wichtigen Messtools informieren, können Sie die Ergebnisse interpretieren, fundierte Entscheidungen treffen und Ihre Anwendung optimieren, um optimale Ergebnisse zu erzielen.

Weitere Informationen finden Sie unter Eingebaute Evaluatoren.

Problembehandlung

Symptom Mögliche Ursache Befehl
Ausführung bleibt ausstehend Hohe Dienstauslastung oder wartende Aufgaben Aktualisieren, Kontingent überprüfen und erneut übermitteln, falls verlängert
Fehlende Metriken Beim Erstellen nicht ausgewählt Erneutes Ausführen und Auswählen der erforderlichen Metriken
Alle Sicherheitsmetriken Null Kategorie deaktiviert oder nicht unterstütztes Modell Bestätigen der Modell- und Evaluatorenunterstützung bei Risiko- und Sicherheitsprüfern.
Fundiertheit unerwartet niedrig Abruf/Kontext unvollständig Überprüfen der Kontextkonstruktion/Abruflatenz