Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.
Microsoft Foundry bietet einen umfassenden Satz integrierter Bewertungen, um die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus zu bewerten. In dieser Referenz werden alle verfügbaren Bewerter, ihre Zwecke, die erforderlichen Eingaben und Anleitungen zum Auswählen der richtigen Bewertung für Ihren Anwendungsfall beschrieben. Sie können auch benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind.
Allzweck-Bewerter
| Auswerter | Zweck |
|---|---|
| Kohärenz | Misst die logische Konsistenz und die Flüssigkeit der Antworten. |
| Geläufigkeit | Misst die Qualität und Lesbarkeit natürlicher Sprache. |
Weitere Informationen finden Sie unter "Allgemeine Bewertungen".
Textähnlichkeitsauswerter
| Auswerter | Zweck |
|---|---|
| Ähnlichkeit | KI-unterstützte Textgleichheitsmessung. |
| F1-Bewertung | Harmonisches Mittel der Präzision und der Wiedererkennung in Token-Überschneidungen zwischen Antwort und Grundwahrheit. |
| BLEU | Die „Bilingual Evaluation Understudy“-Bewertung (Zweisprachige Bewertungsstudie) für die Übersetzungsqualität misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit. |
| GLEU | Die Google-BLEU-Variante für die Bewertung auf Satzebene misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit. |
| Rot | Die „Recall-Oriented Understudy for Gisting Evaluation“ (Erinnerungsorientierte Studie zur Bewertung von Gisting) misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit. |
| METEOR | Die „Metric for Evaluation of Translation with Explicit Ordering“ (Metrik zur Bewertung von Übersetzungen mit expliziter Ordnung) misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit. |
Weitere Informationen finden Sie unter Textbezogene Ähnlichkeitsevaluatoren.
RAG-Gutachter
| Auswerter | Zweck |
|---|---|
| Retrieval | Misst, wie effektiv das System relevante Informationen abruft. |
| Dokumentabruf | Misst die Genauigkeit der Abfrageergebnisse unter Berücksichtigung der Grundwahrheit. |
| Verankerung | Misst, wie konsistent die Antwort in Bezug auf den abgerufenen Kontext ist. |
| Geerdetheit Pro (Vorschau) | Misst, ob die Antwort im Hinblick auf den abgerufenen Kontext konsistent ist. |
| Relevanz | Misst, wie relevant die Antwort in Bezug auf die Anfrage ist. |
| Antwort-Vollständigkeit (Vorschau) | Misst, inwieweit die Antwort in Bezug auf die Grundwahrheit vollständig ist (es fehlen keine wichtigen Informationen). |
Weitere Informationen finden Sie unter "Retrieval-Augmented Generation (RAG)-Evaluatoren".
Risiko- und Sicherheitsevaluatoren
| Auswerter | Zweck |
|---|---|
| Hass und Unfairness | Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte. |
| Sexuell | Identifiziert unangemessene sexuelle Inhalte. |
| Gewalt | Erkennt gewaltsame Inhalte oder Aufregung. |
| Selbstverletzung | Erkennt Inhalte, die Selbstschäden fördern oder beschreiben. |
| Geschützte Materialien | Erkennt nicht autorisierte Verwendung urheberrechtlich geschützter Inhalte. |
| Sicherheitsanfälligkeit in Code | Identifiziert Sicherheitsprobleme im generierten Code. |
| Nicht fundierte Attribute | Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden. |
| Verbotene Aktionen (Vorschau) | Misst die Fähigkeit eines KI-Agents, ein Verhalten zu zeigen, das ausdrücklich untersagte Aktionen ausführt. |
| Vertrauliche Datenlecks (Vorschau) | Misst die Anfälligkeit eines KI-Agents für das Offenlegen vertraulicher Informationen. |
Weitere Informationen finden Sie unter Risiko- und Sicherheitsbewertungen.
Agent-Gutachtende
| Auswerter | Zweck |
|---|---|
| Aufgabentreue (Vorschau) | Misst, ob der Agent die identifizierten Aufgaben gemäß den Systemanweisungen durchführt. |
| Aufgabenabschluss (Vorschau) | Misst, ob der Agent die angeforderte Aufgabe vollständig und erfolgreich abgeschlossen hat. |
| Intent-Auflösung (Vorschau) | Misst, wie genau der Agent die Benutzerabsichten erkennt und berücksichtigt. |
| Effizienz der Aufgabennavigation | Bestimmt, ob die Sequenz der Schritte des Agents mit einem optimalen oder erwarteten Pfad übereinstimmt, um die Effizienz zu messen. |
| Genauigkeit des Toolaufrufs | Misst die Gesamtqualität von Toolaufrufen, einschließlich Auswahl, Parameterkorrektheit und Effizienz. |
| Toolauswahl | Misst, ob der Agent die am besten geeigneten und effizientesten Tools für einen Vorgang ausgewählt hat. |
| Eingabegenauigkeit des Tools | Überprüft anhand strenger Kriterien wie Grounding, Typ, Format, Vollständigkeit und Angemessenheit, ob alle Parameter für den Toolaufruf korrekt sind. |
| Toolausgabeauslastung | Misst, ob der Agent die Toolausgaben in Antworten und nachfolgenden Aufrufen korrekt und im Kontext interpretiert und verwendet. |
| Erfolg des Toolaufrufs | Wertet aus, ob alle Toolaufrufe ohne technische Fehler erfolgreich ausgeführt werden. |
Weitere Informationen finden Sie unter Agent-Bewertungen.
Azure OpenAI-Grader
| Auswerter | Zweck |
|---|---|
| Modellbezeichner | Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen. |
| Zeichenfolgenprüfung | Führt flexible Textüberprüfungen und Musterabgleiche durch. |
| Textähnlichkeit | Wertet die Textqualität aus oder bestimmt die semantische Nähe. |
| Modellbewertung | Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien. |
Weitere Informationen finden Sie unter Azure OpenAI Graders.
Benutzerdefinierte Auswertungen (Vorschau)
Zusätzlich zu integrierten Bewertern können Sie benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind. Mit benutzerdefinierten Bewertern können Sie eindeutige Bewertungslogik, Validierungsregeln und Qualitätsmetriken definieren, die ihren geschäftlichen Anforderungen und anwendungsspezifischen Anforderungen entsprechen.
Weitere Informationen finden Sie unter "Benutzerdefinierte Auswertungen".
Kombinieren von Bewertern
Kombinieren Sie für eine umfassende Qualitätsbewertung mehrere Bewertungen:
- RAG-Anwendungen: Abruf + Verankerung + Relevanz + Inhaltsicherheit
- Agent-Anwendungen: Werkzeugaufrufgenauigkeit + Einhaltung von Aufgaben + Absichtserkennung + Inhaltssicherheit
- Übersetzungsanwendungen: BLEU + METEOR + Fluency + Coherence
- Alle Anwendungen: Hinzufügen von Risiko- und Sicherheitsbewertungen (Hass und Unfairness, Sexualität, Gewalt, Selbstverletzung) für verantwortungsvolle künstliche Intelligenz (KI)-Praktiken