Anzeigen der Auswertungsergebnisse im Microsoft Foundry-Portal

In diesem Artikel erfahren Sie, wie Sie:

Finden und öffnen Sie Ausführungsbewertungen.
Aggregierte Metriken und Metriken auf Beispielebene anzeigen.
Vergleiche die Ergebnisse über verschiedene Durchläufe.
Interpretieren von Metrikkategorien und Berechnungen.
Problembehandlung bei fehlenden oder teilweisen Metriken.

Voraussetzungen

Azure AI User Rolle im Foundry-Projekt. Weitere Informationen finden Sie unter Role-based access control for Microsoft Foundry.
Ein abgeschlossener Auswertungslauf.
- Informationen zum Ausführen von Auswertungen im Portal finden Sie unter Evaluate generative AI-Modelle und -Anwendungen.
- Informationen zum Ausführen von Auswertungen aus dem SDK finden Sie unter "Ausführen von Auswertungen aus dem SDK " oder "Auswerten Ihrer KI-Agents".

Ihre Auswertungsergebnisse ansehen

Gehen Sie im Foundry Portal zu Ihrem Projekt und wählen Sie Evaluierung im linken Bereich aus.

Wählen Sie eine Auswertungsausführung aus der Liste aus, um die Detailseite zu öffnen. Wenn die Ausführung noch im Gange ist, zeigt der Status Läuft und wird automatisch aktualisiert, wenn sie abgeschlossen ist.

Die Detailseite zeigt:

Feld	Beschreibung
Namen	Der Name der Ausführung der Evaluierung.
Ziel	Das Modell oder der Agent, der ausgewertet wurde.
Datensatz	Das verwendete Testdatenset. Wählen Sie das Downloadsymbol aus, um es als CSV-Datei zu exportieren.
Status	Aktueller Status der Ausführung (Ausführen, Abgeschlossen oder fehlgeschlagen).
Auswertungstoken	Token, die von den Evaluatoren während der Ausführung verbraucht wurden.
Zieltoken	Token, die von dem zu bewertenden Modell oder Agenten genutzt werden.
Resultate	Aggregatbewertung für jeden verwendeten Evaluator.

Zeigen Sie mit der Maus auf eine Bewertungszelle, um Details zur Tokennutzung und zusätzlichen Kontext anzuzeigen.
Wählen Sie "Weitere Informationen zu Metriken " aus, um Metrikdefinitionen und Bewertungsformeln anzuzeigen.

Details zum Evaluationslauf

Wählen Sie den Namen der Ausführung aus, um ergebnisse auf Zeilenebene für jede einzelne Abfrage anzuzeigen. Für jede Zeile können Sie die Abfrage, Antwort, Grundwahrheit, Bewertungspunktzahl und Punkterklärung anzeigen.

Vergleichen der Auswertungsergebnisse

Wenn Sie zwei oder mehr Ausführungen vergleichen möchten, wählen Sie die Durchläufe aus, die Sie vergleichen möchten, und starten Sie den Vorgang.

Wählen Sie zwei oder mehr Durchläufe auf der Seite mit den Auswertungsdetails aus.
Wählen Sie "Vergleichen" aus.

Sie sehen eine Side-by-Side-Vergleichsansicht für alle ausgewählten Ausführungen.

Der Vergleich verwendet statistische t-Tests, die Ihnen sensiblere und zuverlässigere Ergebnisse liefern, um Entscheidungen zu treffen. Sie können verschiedene Funktionen dieses Features verwenden:

Baseline-Vergleich: Durch das Festlegen eines Basislaufs können Sie einen Referenzpunkt identifizieren, mit dem Sie die anderen Läufe vergleichen können. Sie können sehen, wie jede Ausführung von Ihrem gewählten Standard abweicht.
Statistische t-Test-Bewertung: Jede Zelle liefert die Stat-Sig-Ergebnisse mit unterschiedlichen Farbcodes. Sie können auch auf die Zelle zeigen, um die Stichprobengröße und den p-Wert abzurufen.

Legende	Definition
ImprovedStrong	Hoch statistisch signifikant (p<=0,001) und bewegt sich in die gewünschte Richtung
ImprovedWeak	Stat-sig (0,001<p<=0,05) und in die gewünschte Richtung verschoben
HerabgestuftStark	Hoch statistisch signifikant (p<=0,001) und in die falsche Richtung bewegt
Abgeschwächt	Stat-sig (0.001<p<=0.05) und bewegte sich in die falsche Richtung
ChangedStrong	Hochgradig statistisch signifikant (p<=0,001) und die gewünschte Richtung ist neutral
ChangedWeak	Stat-sig (0,001<p<=0,05) und gewünschte Richtung ist neutral
Ergebnislos	Zu wenige Beispiele oder p>=0,05

Hinweis

Die Vergleichsansicht wird nicht gespeichert. Wenn Sie die Seite verlassen, können Sie die Durchläufe erneut auswählen und Vergleichen auswählen, um die Ansicht neu zu generieren.

Grundlegendes zu den integrierten Auswertungsmetriken

Das Verständnis der integrierten Metriken ist für die Bewertung der Leistung und Effektivität Ihrer KI-Anwendung unerlässlich. Indem Sie sich über diese wichtigen Messtools informieren, können Sie die Ergebnisse interpretieren, fundierte Entscheidungen treffen und Ihre Anwendung optimieren, um optimale Ergebnisse zu erzielen.

Weitere Informationen finden Sie unter Eingebaute Evaluatoren.

Problembehandlung

Symptom	Mögliche Ursache	Befehl
Ausführung bleibt ausstehend	Hohe Dienstauslastung oder wartende Aufgaben	Aktualisieren, Kontingent überprüfen und erneut übermitteln, falls verlängert
Fehlende Metriken	Beim Erstellen nicht ausgewählt	Erneutes Ausführen und Auswählen der erforderlichen Metriken
Alle Sicherheitsmetriken Null	Kategorie deaktiviert oder nicht unterstütztes Modell	Bestätigen der Modell- und Evaluatorenunterstützung bei Risiko- und Sicherheitsprüfern.
Fundiertheit unerwartet niedrig	Abruf/Kontext unvollständig	Überprüfen der Kontextkonstruktion/Abruflatenz

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-07