Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Zurzeit wird folgendes angezeigt:Foundry (klassische) Portalversion - Wechseln zur Version für das neue Foundry-Portal
Wichtig
In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.
Microsoft Foundry bietet einen umfassenden Satz integrierter Bewerter, um die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus zu bewerten. In dieser Referenz werden alle verfügbaren Bewerter, ihre Zwecke, die erforderlichen Eingaben und Anleitungen zum Auswählen der richtigen Bewertung für Ihren Anwendungsfall beschrieben. Sie können auch benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind.
Hinweis
Das Microsoft Foundry SDK für die Bewertung und das Foundry-Portal befindet sich in der öffentlichen Vorschau, die APIs sind jedoch allgemein für die Modell- und Datensatzbewertung verfügbar (die Agentenbewertung verbleibt in der öffentlichen Vorschau). Das Azure AI Evaluation SDK und die als (Vorschau) markierten Bewerter in diesem Artikel sind derzeit weltweit in der öffentlichen Vorschau verfügbar.
Allzweck-Auswerter
| Evaluator | Zweck |
|---|---|
| Kohärenz | Misst die logische Konsistenz und den Antwortfluss. |
| Geläufigkeit | Misst qualität und Lesbarkeit der natürlichen Sprache. |
Weitere Informationen finden Sie unter "Allgemeine Bewertungen".
Textbezogene Ähnlichkeitsbewertungssysteme
| Evaluator | Zweck |
|---|---|
| Ähnlichkeit | KI-unterstützte Textgleichheitsmessung. |
| F1-Bewertung | Harmonisches Mittel von Präzision und Recall bei Token-Überlappungen zwischen Antwort und Ground-Truth. |
| BLEU | Bilingual Evaluation Understudy (BLEU)-Bewertung der Übersetzungsqualität misst die Übereinstimmung von n-Grammen zwischen Antwort und Referenzübersetzung. |
| GLEU | Die Google-BLEU-Variante zur Satzebenenbewertung misst die Übereinstimmungen in den n-Grammen zwischen Antwort und Grundwahrheit. |
| ROUGE | Recall-Oriented Understudy for Gisting Evaluation misst die Überlappung von n-Grammen zwischen der Antwort und der Referenz oder Grundwahrheit. |
| METEOR | Metrik für die Auswertung der Übersetzung mit expliziter Anordnung misst Überschneidungen von n-Grammen zwischen Antwort und Ground Truth. |
Weitere Informationen finden Sie unter "Textbezogene Ähnlichkeitsbewertungen".
RAG-Gutachter
| Evaluator | Zweck |
|---|---|
| Abrufen | Wie effektiv das System relevante Informationen abruft, wird gemessen. |
| Dokumentabruf | Misst die Genauigkeit bei abrufergebnissen gegebener Bodenwahrheit. |
| Erdung | Misst, wie konsistent die Antwort im Hinblick auf den abgerufenen Kontext ist. |
| Geerdetheit Pro (Vorschau) | Misst, ob die Antwort in Bezug auf den abgerufenen Kontext konsistent ist. |
| Relevanz | Misst, wie relevant die Antwort in Bezug auf die Abfrage ist. |
| Antwort-Vollständigkeit | In welchem Maß die Antwort vollständig ist (d. h. keine kritischen Informationen fehlen) im Hinblick auf den Referenzwert. |
Weitere Informationen finden Sie unter "Retrieval-Augmented Generation (RAG)-Evaluatoren".
Risiko- und Sicherheitsprüfer
| Evaluator | Zweck |
|---|---|
| Hass und Unfairness | Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte. |
| Sexuelle | Identifiziert unangemessene sexuelle Inhalte. |
| Gewalt | Erkennt gewaltsame Inhalte oder Aufregung. |
| Selbstverletzung | Erkennt Inhalte, die Selbstschäden fördern oder beschreiben. |
| Inhaltssicherheit | Umfassende Bewertung verschiedener Sicherheitsbedenken. |
| Geschützte Materialien | Erkennt die nicht autorisierte Verwendung von urheberrechtlich geschütztem Inhalt. |
| Sicherheitsanfälligkeit in Code | Identifiziert Sicherheitsprobleme im generierten Code. |
| Nicht geerdete Attribute | Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden. |
Weitere Informationen finden Sie unter Risiko- und Sicherheitsbewertungen.
Agentenbewerter
| Evaluator | Zweck |
|---|---|
| Intent-Auflösung (Vorschau) | Misst, wie genau der Agent Benutzerabsichten identifiziert und adressiert. |
| Aufgabentreue (Vorschau) | Misst, wie gut der Agent den identifizierten Aufgaben nachkommt. |
| Toolaufrufgenauigkeit (Vorschau) | Misst, wie gut der Agent die richtigen Tools auswählt und aufruft. |
Weitere Informationen finden Sie unter Agent-Bewertungen.
Azure OpenAI-Bewertungstools
| Evaluator | Zweck |
|---|---|
| Modellbezeichner | Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen. |
| Zeichenfolgenüberprüfung | Führt flexible Textüberprüfungen und Musterabgleiche durch. |
| Textähnlichkeit | Wertet die Textqualität aus oder bestimmt die semantische Nähe. |
| Modell-Scorer | Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien. |
Weitere Informationen finden Sie unter Azure OpenAI Graders.
Benutzerdefinierte Bewerter
Zusätzlich zu integrierten Bewertern können Sie benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind. Mit benutzerdefinierten Bewertern können Sie eindeutige Bewertungslogik, Validierungsregeln und Qualitätsmetriken definieren, die ihren geschäftlichen Anforderungen und anwendungsspezifischen Anforderungen entsprechen.
Weitere Informationen finden Sie unter "Benutzerdefinierte Auswertungen".
Kombinieren von Bewertern
Kombinieren Sie für eine umfassende Qualitätsbewertung mehrere Bewertungen:
- RAG-Anwendungen: Abruf + Verankerung + Relevanz + Inhaltsicherheit
- Agent-Anwendungen: Werkzeuganwendungsgenauigkeit + Aufgabeneinhaltung + Absichtserkennung + Inhaltssicherheit
- Übersetzungsanwendungen: BLEU + METEOR + Fluency + Coherence
- Alle Anwendungen: Fügen Sie Risiko- und Sicherheitsprüfer hinzu (Hass und Ungerechtigkeit; Sexuelle Inhalte; Gewalt; Selbstverletzung) für verantwortungsvolle KI-Praktiken
Verwandte Inhalte
- Beobachtbarkeit in generativer KI
- Allgemeine Evaluatoren
- Textbezogene Ähnlichkeitsbewertungen
- Evaluatoren für retrievalerweiterte Generierung (RAG)
- Risiko- und Sicherheitsbewertungen
- Agent-Evaluatoren
- Azure OpenAI Graders
- Benutzerdefinierte Bewerter
- Auswerten mit dem Foundry SDK
- Auswerten von generativen KI-Apps in Foundry