Bewerten von generativen KI-Modellen und -Anwendungen mithilfe von Microsoft Foundry (klassisch)

Zurzeit wird folgendes angezeigt:Foundry (klassische) Portalversion - Wechseln zur Version für das neue Foundry-Portal

Um die Leistung Ihrer generativen KI-Modelle und -Anwendungen in einem wesentlichen Dataset gründlich zu bewerten, initiieren Sie einen Evaluierungsprozess. Während dieser Auswertung wird das Modell oder die Anwendung mit dem angegebenen Dataset getestet, und seine Leistung wird mithilfe mathematischer Metriken und kigestützter Metriken gemessen. Dieser Auswertungslauf bietet umfassende Einblicke in die Funktionen und Einschränkungen der Anwendung.

Verwenden Sie die Auswertungsfunktionalität im Microsoft Foundry-Portal, einer Plattform, die Tools und Features zur Bewertung der Leistung und Sicherheit von generativen KI-Modellen bietet. Im Foundry-Portal detaillierte Auswertungsmetriken protokollieren, anzeigen und analysieren.

In diesem Artikel wird erläutert, wie Sie eine Auswertung für ein Modell, einen Agent oder ein Test-Dataset mithilfe integrierter Auswertungsmetriken aus der Foundry-Benutzeroberfläche erstellen. Für eine größere Flexibilität können Sie einen benutzerdefinierten Auswertungsfluss einrichten und das benutzerdefinierte Auswertungsfeature verwenden. Verwenden Sie das benutzerdefinierte Auswertungsfeature , um eine Batchausführung ohne Auswertung durchzuführen.

Voraussetzungen

Ein Test-Dataset in einem der folgenden Formate: CSV- oder JSON-Zeilen (JSONL).
Eine Azure OpenAI-Verbindung mit einer Bereitstellung eines dieser Modelle: ein GPT-3.5-Modell, ein GPT-4-Modell oder ein Davinci-Modell. Dies ist nur für KI-unterstützte Qualitätsbewertungen erforderlich.

Erstellen einer Auswertung mit integrierten Auswertungsmetriken

Mit einem Auswertungslauf können Sie Metrikausgaben für jede Datenzeile in Ihrem Test-Dataset generieren. Wählen Sie eine oder mehrere Auswertungsmetriken aus, um die Ausgabe aus verschiedenen Aspekten zu bewerten. Erstellen Sie einen Auswertungslauf von den Auswertungs- oder Modellkatalogseiten im Foundry-Portal. Der Auswertungserstellungs-Assistent führt Sie durch das Einrichten einer Auswertungsausführung.

Von der Seite "Auswerten"

Wählen Sie im linken Bereich "Auswertung>erstellen" eine neue Auswertung aus.

Auf der Modellkatalogseite

Wählen Sie im linken Bereich den Modellkatalog aus.
Wechseln Sie zum Modell.
Wählen Sie die Registerkarte "Benchmarks " aus.
Wählen Sie "Testen" mit Ihren eigenen Daten aus. Mit dieser Auswahl wird der Modellauswertungsbereich geöffnet, in dem Sie eine Auswertung für Ihr ausgewähltes Modell erstellen können.

Auswertungsziel

Wenn Sie eine Auswertung auf der Seite "Auswerten " starten, wählen Sie das Auswertungsziel aus. Durch die Angabe des geeigneten Bewertungsziels wird die Auswertung auf die spezifische Art Ihrer Anwendung zugeschnitten, wodurch genaue und relevante Metriken sichergestellt werden. Wir unterstützen zwei Arten von Bewertungszielen:

Modell: Diese Auswahl wertet die von Ihrem ausgewählten Modell generierte Ausgabe und die benutzerdefinierte Eingabeaufforderung aus.
Dataset: Ihre modellgenerierten Ausgaben befinden sich bereits in einem Test-Dataset.

Konfigurieren von Testdaten

Wählen Sie im Auswertungserstellungs-Assistenten aus bereits vorhandenen Datasets aus, oder laden Sie ein neues Dataset hoch, das ausgewertet werden soll. Das Testdatenset muss über die modellgenerierten Ausgaben verfügen, die für die Auswertung verwendet werden sollen. Im rechten Bereich wird eine Vorschau Ihrer Testdaten angezeigt.

Wählen Sie ein vorhandenes Dataset aus: Sie können das Testdatenset aus Ihrer etablierten Datasetsammlung auswählen.
Fügen Sie ein neues Dataset hinzu: Laden Sie Dateien aus Ihrem lokalen Speicher hoch. Es werden nur CSV- und JSONL-Dateiformate unterstützt. Eine Vorschau Ihrer Testdaten wird im rechten Bereich angezeigt.

Konfigurieren von Testkriterien

Wir unterstützen drei Arten von Metriken, die von Microsoft kuratiert werden, um eine umfassende Bewertung Ihrer Anwendung zu erleichtern:

KI-Qualität (KI-unterstützung): Diese Metriken bewerten die Gesamtqualität und Kohärenz der generierten Inhalte. Sie benötigen eine Modellbereitstellung als Maßstab, um diese Metriken auszuführen.
KI-Qualität (NLP): Diese NLP-Metriken (Natural Language Processing) sind mathematisch basiert und bewerten auch die Gesamtqualität der generierten Inhalte. Sie erfordern häufig Echtdaten, aber sie erfordern nicht die Modellbereitstellung als Bewertungsinstanz.
Risiko- und Sicherheitsmetriken: Diese Metriken konzentrieren sich auf die Identifizierung potenzieller Inhaltsrisiken und die Gewährleistung der Sicherheit der generierten Inhalte.

Sie können auch benutzerdefinierte Metriken erstellen und sie während des Testkriterienschritts als Bewertungsmethoden auswählen.

Wenn Sie Ihre Testkriterien hinzufügen, werden verschiedene Metriken als Teil der Auswertung verwendet. In der Tabelle finden Sie die vollständige Liste der Metriken, die wir in jedem Szenario unterstützen. Ausführlichere Informationen zu Metrikdefinitionen und deren Berechnung finden Sie unter Built in evaluators.

KI-Qualität (KI unterstützt)	KI-Qualität (NLP)	Risiko- und Sicherheitsmetriken
Geerdetheit, Relevanz, Kohärenz, Fluency, GPT-Ähnlichkeit	F1 Score, ROUGE Score, BLEU Score, GLEU Score, METEOR Score	Selbstverletzungsbezogene Inhalte, Hass und ungerechte Inhalte, Gewalttätige Inhalte, Sexuelle Inhalte, Geschütztes Material, Indirekte Angriffe

Wenn Sie KI-unterstützte Qualitätsbewertung ausführen, müssen Sie ein GPT-Modell für den Berechnungs-/Bewertungsprozess angeben.

AI Quality (NLP)-Metriken sind mathematisch basierte Messungen, die die Leistung Ihrer Anwendung bewerten. Sie erfordern häufig Boden-Wahrheitsdaten für die Berechnung. ROUGE ist eine Familie von Metriken. Sie können den ROUGE-Typ auswählen, um die Bewertungen zu berechnen. Verschiedene Arten von ROUGE-Metriken bieten Möglichkeiten, die Qualität der Textgenerierung zu bewerten. ROUGE-N misst die Überlappung von n-Grammen zwischen den Kandidatentexten und den Referenztexten.

Für Risiko- und Sicherheitsmetriken müssen Sie keine Bereitstellung durchführen. Das Foundry-Portal stellt ein GPT-4-Modell bereit, das Inhaltsrisiko-Schweregradbewertungen und Gründe generieren kann, damit Sie Ihre Anwendung für Inhaltsschäden auswerten können.

Hinweis

KI-unterstützte Risiko- und Sicherheitsmetriken werden von Foundry-Sicherheitsbewertungen gehostet und sind nur in den folgenden Regionen verfügbar: Ost-USA 2, Frankreich Zentral, Vereinigtes Königreich Süd, Schweden Zentral.

Vorsicht

Benutzer, die zuvor ihre Modellbereitstellungen verwaltet und Auswertungen mithilfe von oai.azure.com ausgeführt haben und dann in die Microsoft Foundry-Entwicklerplattform integriert wurden, haben diese Einschränkungen, wenn sie ai.azure.com verwenden:

Diese Benutzer können ihre Auswertungen, die über die Azure OpenAI-API erstellt wurden, nicht anzeigen. Um diese Auswertungen anzuzeigen, müssen sie zurück zu oai.azure.com.
Diese Benutzer können die Azure OpenAI-API nicht verwenden, um Auswertungen in Foundry auszuführen. Stattdessen sollten sie weiterhin oai.azure.com für diese Aufgabe verwenden. Sie können jedoch die Azure OpenAI-Evaluatoren verwenden, die direkt in Foundry (ai.azure.com) verfügbar sind, in der Option für die Erstellung von Datasetauswertung. Die Option für die Feinabstimmung der Modellauswertung wird nicht unterstützt, wenn es sich bei der Bereitstellung um eine Migration von Azure OpenAI zu Foundry handelt.

Für das Szenario des Datasetuploads und zum Übertragen Ihres eigenen Speichers gibt es einige Konfigurationsanforderungen:

Die Kontoauthentifizierung muss Microsoft Entra ID sein.
Der Speicher muss dem Konto hinzugefügt werden. Durch das Hinzufügen zum Projekt werden Dienstfehler verursacht.
Benutzer müssen ihr Projekt über die Zugriffssteuerung im Azure-Portal ihrem Speicherkonto hinzufügen.

Weitere Informationen zum Erstellen von Evaluierungen mit OpenAI-Bewertungsnotern im Azure OpenAI-Hub finden Sie unter How to use Azure OpenAI in Foundry models evaluation.

Datenzuordnung

Datenzuordnung für die Auswertung: Für jede hinzugefügte Metrik müssen Sie angeben, welche Datenspalten in Ihrem Dataset den Eingaben entsprechen, die in der Auswertung erforderlich sind. Verschiedene Auswertungsmetriken erfordern unterschiedliche Arten von Dateneingaben für genaue Berechnungen.

Während der Auswertung wird die Antwort des Modells anhand von Schlüsseleingaben bewertet, z. B.:

Abfrage: Erforderlich für alle Metriken.
Kontext: Optional.
Referenzdaten: Optional, erforderlich für AI-Qualitätsmetriken (NLP).

Diese Zuordnungen stellen eine genaue Ausrichtung zwischen Ihren Daten und den Bewertungskriterien sicher.

Überprüfen und Übermitteln

Geben Sie nach Abschluss der erforderlichen Konfigurationen einen optionalen Namen für Ihre Auswertung an. Überprüfen Sie die Einstellungen, und wählen Sie "Absenden" aus, um die Auswertungsausführung zu starten.

Modellauswertung

Um eine neue Auswertung für die ausgewählte Modellbereitstellung zu erstellen, können Sie ein GPT-Modell verwenden, um Beispielfragen zu generieren, oder Sie können aus Ihrer etablierten Datasetsammlung auswählen.

Konfigurieren von Testdaten für ein Modell

Richten Sie das Test-Dataset ein, das für die Auswertung verwendet wird. Dieses Dataset wird an das Modell gesendet, um Antworten für die Bewertung zu generieren. Sie haben zwei Optionen zum Konfigurieren Ihrer Testdaten:

Generieren von Beispielfragen
Verwenden eines vorhandenen Datasets (oder Hochladen eines neuen Datasets)

Generieren von Beispielfragen

Wenn Sie kein Dataset sofort verfügbar haben und eine Auswertung mit einer kleinen Stichprobe ausführen möchten, wählen Sie die Bereitstellung eines Modells aus, das Sie auf Basis eines gewählten Themas auswerten möchten. Azure OpenAI-Modelle und andere offene Modelle, die mit der serverlosen API-Bereitstellung kompatibel sind, wie Meta Llama- und Phi-3-Familienmodelle, werden unterstützt.

Das Thema passt die generierten Inhalte an Ihren Interessenbereich an. Abfragen und Antworten werden in Echtzeit generiert, und Sie können sie nach Bedarf neu generieren.

Verwenden Sie Ihr Dataset

Sie können auch aus Ihrer etablierten Datasetsammlung auswählen oder ein neues Dataset hochladen.

Auswertungsmetriken auswählen

Um Ihre Testkriterien zu konfigurieren, wählen Sie "Weiter" aus. Während Sie Ihre Kriterien auswählen, werden Metriken hinzugefügt, und Sie müssen die Spalten Ihres Datasets den erforderlichen Feldern für die Auswertung zuordnen. Diese Zuordnungen stellen eine genaue Ausrichtung zwischen Ihren Daten und den Bewertungskriterien sicher.

Nachdem Sie die gewünschten Testkriterien ausgewählt haben, können Sie die Auswertung überprüfen, optional den Namen der Auswertung ändern und dann "Absenden" auswählen. Wechseln Sie zur Auswertungsseite, um die Ergebnisse anzuzeigen.

Hinweis

Das generierte Dataset wird nach dem Erstellen der Auswertung im Blob-Speicher des Projekts gespeichert.

Anzeigen und Verwalten der Evaluatoren in der Evaluatorbibliothek

Sehen Sie sich die Details und den Status Ihrer Bewerter an einem Ort in der Evaluator-Bibliothek an. Anzeigen und Verwalten von Microsoft-kuratierten Bewertungsinstanzen.

Die Auswertungsbibliothek ermöglicht auch die Versionsverwaltung. Sie können unterschiedliche Versionen Ihrer Arbeit vergleichen, frühere Versionen bei Bedarf wiederherstellen und mit anderen einfacher zusammenarbeiten.

Um die Auswertungsbibliothek im Gießereiportal zu verwenden, wechseln Sie zur Seite "Auswertung " Ihres Projekts, und wählen Sie die Registerkarte " Evaluator-Bibliothek " aus.

Wählen Sie den Namen des Evaluators aus, um weitere Details anzuzeigen, einschließlich Name, Beschreibung, Parameter und allen zugehörigen Dateien. Hier sind einige Beispiele für Microsoft kuratierte Evaluatoren:

Für von Microsoft kuratierte Leistungs- und Qualitätsprüfer rufen Sie die Annotationsanweisung auf der Detailseite auf. Passen Sie diese Eingabeaufforderungen an Ihren Anwendungsfall an. Ändern Sie die Parameter oder Kriterien basierend auf Ihren Daten und Zielen im Azure AI Evaluation SDK. Sie können z. B. Verankerungsgrad-Evaluator auswählen und die Prompty-Datei überprüfen, die zeigt, wie die Metrik berechnet wird.
Die von Microsoft kuratierten Risiko- und Sicherheitsbewertungen finden Sie in der Definition der Metriken. Wählen Sie z. B. Self-Harm-Related-Content-Evaluator aus, um zu erfahren, was dies bedeutet, und verstehen Sie, wie Microsoft schweregrade bestimmt.

Erfahren Sie mehr über die Auswertung Ihrer generativen KI-Anwendungen:

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-01