Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel erfahren Sie, wie Sie:
- Finden und öffnen Sie Ausführungsbewertungen.
- Aggregierte Metriken und Metriken auf Beispielebene anzeigen.
- Vergleiche die Ergebnisse über verschiedene Durchläufe.
- Interpretieren von Metrikkategorien und Berechnungen.
- Problembehandlung bei fehlenden oder teilweisen Metriken.
Voraussetzungen
- Azure AI User Rolle im Foundry-Projekt. Weitere Informationen finden Sie unter Role-based access control for Microsoft Foundry.
- Ein abgeschlossener Auswertungslauf.
- Informationen zum Ausführen von Auswertungen im Portal finden Sie unter Evaluate generative AI-Modelle und -Anwendungen.
- Informationen zum Ausführen von Auswertungen aus dem SDK finden Sie unter "Ausführen von Auswertungen aus dem SDK " oder "Auswerten Ihrer KI-Agents".
Ihre Auswertungsergebnisse ansehen
Gehen Sie im Foundry Portal zu Ihrem Projekt und wählen Sie Evaluierung im linken Bereich aus.
Wählen Sie eine Auswertungsausführung aus der Liste aus, um die Detailseite zu öffnen. Wenn die Ausführung noch im Gange ist, zeigt der Status Läuft und wird automatisch aktualisiert, wenn sie abgeschlossen ist.
Die Detailseite zeigt:
Feld Beschreibung Namen Der Name der Ausführung der Evaluierung. Ziel Das Modell oder der Agent, der ausgewertet wurde. Datensatz Das verwendete Testdatenset. Wählen Sie das Downloadsymbol aus, um es als CSV-Datei zu exportieren. Status Aktueller Status der Ausführung (Ausführen, Abgeschlossen oder fehlgeschlagen). Auswertungstoken Token, die von den Evaluatoren während der Ausführung verbraucht wurden. Zieltoken Token, die von dem zu bewertenden Modell oder Agenten genutzt werden. Resultate Aggregatbewertung für jeden verwendeten Evaluator. Zeigen Sie mit der Maus auf eine Bewertungszelle, um Details zur Tokennutzung und zusätzlichen Kontext anzuzeigen.
Wählen Sie "Weitere Informationen zu Metriken " aus, um Metrikdefinitionen und Bewertungsformeln anzuzeigen.
Details zum Evaluationslauf
Wählen Sie den Namen der Ausführung aus, um ergebnisse auf Zeilenebene für jede einzelne Abfrage anzuzeigen. Für jede Zeile können Sie die Abfrage, Antwort, Grundwahrheit, Bewertungspunktzahl und Punkterklärung anzeigen.
Vergleichen der Auswertungsergebnisse
Wenn Sie zwei oder mehr Ausführungen vergleichen möchten, wählen Sie die Durchläufe aus, die Sie vergleichen möchten, und starten Sie den Vorgang.
- Wählen Sie zwei oder mehr Durchläufe auf der Seite mit den Auswertungsdetails aus.
- Wählen Sie "Vergleichen" aus.
Sie sehen eine Side-by-Side-Vergleichsansicht für alle ausgewählten Ausführungen.
Der Vergleich verwendet statistische t-Tests, die Ihnen sensiblere und zuverlässigere Ergebnisse liefern, um Entscheidungen zu treffen. Sie können verschiedene Funktionen dieses Features verwenden:
- Baseline-Vergleich: Durch das Festlegen eines Basislaufs können Sie einen Referenzpunkt identifizieren, mit dem Sie die anderen Läufe vergleichen können. Sie können sehen, wie jede Ausführung von Ihrem gewählten Standard abweicht.
- Statistische t-Test-Bewertung: Jede Zelle liefert die Stat-Sig-Ergebnisse mit unterschiedlichen Farbcodes. Sie können auch auf die Zelle zeigen, um die Stichprobengröße und den p-Wert abzurufen.
| Legende | Definition |
|---|---|
| ImprovedStrong | Hoch statistisch signifikant (p<=0,001) und bewegt sich in die gewünschte Richtung |
| ImprovedWeak | Stat-sig (0,001<p<=0,05) und in die gewünschte Richtung verschoben |
| HerabgestuftStark | Hoch statistisch signifikant (p<=0,001) und in die falsche Richtung bewegt |
| Abgeschwächt | Stat-sig (0.001<p<=0.05) und bewegte sich in die falsche Richtung |
| ChangedStrong | Hochgradig statistisch signifikant (p<=0,001) und die gewünschte Richtung ist neutral |
| ChangedWeak | Stat-sig (0,001<p<=0,05) und gewünschte Richtung ist neutral |
| Ergebnislos | Zu wenige Beispiele oder p>=0,05 |
Hinweis
Die Vergleichsansicht wird nicht gespeichert. Wenn Sie die Seite verlassen, können Sie die Durchläufe erneut auswählen und Vergleichen auswählen, um die Ansicht neu zu generieren.
Grundlegendes zu den integrierten Auswertungsmetriken
Das Verständnis der integrierten Metriken ist für die Bewertung der Leistung und Effektivität Ihrer KI-Anwendung unerlässlich. Indem Sie sich über diese wichtigen Messtools informieren, können Sie die Ergebnisse interpretieren, fundierte Entscheidungen treffen und Ihre Anwendung optimieren, um optimale Ergebnisse zu erzielen.
Weitere Informationen finden Sie unter Eingebaute Evaluatoren.
Problembehandlung
| Symptom | Mögliche Ursache | Befehl |
|---|---|---|
| Ausführung bleibt ausstehend | Hohe Dienstauslastung oder wartende Aufgaben | Aktualisieren, Kontingent überprüfen und erneut übermitteln, falls verlängert |
| Fehlende Metriken | Beim Erstellen nicht ausgewählt | Erneutes Ausführen und Auswählen der erforderlichen Metriken |
| Alle Sicherheitsmetriken Null | Kategorie deaktiviert oder nicht unterstütztes Modell | Bestätigen der Modell- und Evaluatorenunterstützung bei Risiko- und Sicherheitsprüfern. |
| Fundiertheit unerwartet niedrig | Abruf/Kontext unvollständig | Überprüfen der Kontextkonstruktion/Abruflatenz |