Übermitteln einer Batchausführung und Auswerten eines Flusses (klassisch)

Gilt nur für:klassisches Foundry Portal. Dieser Artikel ist für das neue Foundry-Portal nicht verfügbar. Erfahren Sie mehr über das neue Portal.

Hinweis

Links in diesem Artikel können Inhalte in der neuen Microsoft Foundry-Dokumentation anstelle der jetzt angezeigten Foundry-Dokumentation (klassisch) öffnen.

Warnung

Die Entwicklung der Prompt Flow-Funktion endete am 20. April 2026. Das Feature wird am 20. April 2027 vollständig eingestellt. Am Ruhestandsdatum wechselt Prompt Flow in den schreibgeschützten Modus. Ihre vorhandenen Workflows werden bis zu diesem Datum weiterhin ausgeführt.

Recommended action: Migrieren Sie Ihre Prompt Flow-Arbeitslasten bis spätestens zum 20. April 2027 zu Microsoft Agent Framework.

Um zu bewerten, wie gut Ihr Flow mit einem großen Datensatz funktioniert, können Sie einen Batchlauf einreichen und eine Auswertungsmethode im Prompt-Flow verwenden.

In diesem Artikel lernen Sie Folgendes:

  • Einreichen einer Batchausführung und Nutzung einer Auswertungsmethode
  • Anzeigen des Auswertungsergebnisses und der Metriken
  • Starten einer neuen Bewertungsrunde
  • Überprüfung des Verlaufs der Batchausführung und Vergleich der Metriken
  • Verstehen der integrierten Auswertungsmethoden
  • Möglichkeiten zur Verbesserung der Flussleistung

Voraussetzungen

Wichtig

Dieser Artikel bietet Unterstützung älterer Systeme für hub-basierte Projekte. Es funktioniert nicht für Foundry-Projekte. Sehen Sie , wie Sie wissen, welche Art von Projekt Sie haben?

SDK-Kompatibilitätshinweis: Codebeispiele erfordern eine bestimmte Microsoft Foundry SDK-Version. Wenn Kompatibilitätsprobleme auftreten, sollten Sie die Migration von einem hubbasierten zu einem Foundry-Projekt in Betracht ziehen.

Für eine Batchausführung und für die Verwendung einer Auswertungsmethode müssen Sie folgende Voraussetzungen haben:

  • Ein Test-Dataset für die Batchausführung. Ihr Dataset sollte in einem der folgenden Formate vorliegen: .csv, , , .tsvoder .jsonl. Ihre Daten sollten auch Überschriften enthalten, die den Eingabenamen Ihres Flusses entsprechen. Wenn Ihre Flusseingaben eine komplexe Struktur wie eine Liste oder ein Wörterbuch enthalten, verwenden Sie jsonl das Format, um Ihre Daten darzustellen.
  • Eine verfügbare Rechensitzung für das Ausführen eines Batchdurchlaufs. Eine Berechnungssitzung ist eine cloudbasierte Ressource, die Ihren Workflow ausführt und Ausgaben generiert. Weitere Informationen über Computesitzungen finden Sie in den Computesitzungen.

Einreichen einer Batchausführung und Nutzung einer Auswertungsmethode

Mit einer Batchausführung können Sie ihren Fluss mit einem großen Dataset ausführen und Ausgaben für jede Datenzeile generieren. Sie können auch eine Bewertungsmethode auswählen, um die Ausgabe Ihres Flows mit bestimmten Kriterien und Zielen zu vergleichen. Eine Auswertungsmethode ist eine spezielle Art von Prozess, die Metriken für die Ausgabe des Ablaufs basierend auf verschiedenen Aspekten berechnet. Ein Auswertungslauf wird ausgeführt, um die Metriken zu berechnen, wenn er mit dem Batchlauf übermittelt wird.

Um eine Batchausführung mit Auswertung zu starten, können Sie auf der Schaltfläche "Auswerten " – benutzerdefinierte Auswertung auswählen. Indem Sie "Benutzerdefinierte Auswertung" auswählen, können Sie entweder einen Batchlauf mit Auswertungsmethoden übermitteln oder einen Batchlauf ohne Auswertung für Ihren Fluss übermitteln.

Dieser Screenshot zeigt die Schaltfläche

Zunächst werden Sie aufgefordert, Ihrem Batch einen aussagekräftigen und erkennbaren Namen zu geben. Sie können auch eine Beschreibung schreiben und Tags (Schlüsselwertpaare) zu Ihrer Batchausführung hinzufügen. Nachdem Sie die Konfiguration abgeschlossen haben, wählen Sie "Weiter" aus, um fortzufahren.

Dieser Screenshot zeigt die grundlegende Einstellung der benutzerdefinierten Auswertung

Zweitens müssen Sie ein Dataset auswählen oder hochladen, mit dem Sie Ihren Fluss testen möchten. Sie müssen auch eine verfügbare Computesitzung auswählen, um diese Batchausführung auszuführen.

Der Prompt-Flow unterstützt auch das Zuordnen Ihrer Input zu einer bestimmten Datenspalte in Ihrem Dataset. Dies bedeutet, dass Sie einer bestimmten Eingabe eine Spalte zuweisen können. Sie können einer Eingabe eine Spalte zuweisen, indem Sie das ${data.XXX}-Format verwenden. Wenn Sie einer Eingabe einen Konstantenwert zuweisen möchten, können Sie diesen Wert direkt eingeben.

Dieser Screenshot zeigt die Einstellung für die Batchausführung der benutzerdefinierten Auswertung.

Anschließend können Sie im nächsten Schritt eine Auswertungsmethode verwenden, um die Leistung dieses Flusses zu überprüfen. Sie können die Schaltfläche "Weiter " direkt auswählen, um diesen Schritt zu überspringen, wenn Sie keine Auswertungsmethode anwenden oder Metriken berechnen möchten. Andernfalls können Sie eine oder mehrere Auswertungsmethoden auswählen, wenn Sie die Batchausführung jetzt mit der Auswertung ausführen möchten. Die Auswertung beginnt nach Abschluss der Batchausführung. Sie können auch eine weitere Auswertungsrunde starten, nachdem die Batchausführung abgeschlossen wurde. Weitere Informationen zum Starten einer neuen Evaluierungsrunde finden Sie unter Starten einer neuen Evaluierungsrunde.

Dieser Screenshot zeigt, wie Auswertungsmethoden ausgewählt werden.

Im nächsten Schritt müssen Sie die Quellen der Eingabedaten angeben, die für die Evaluierungsmethode erforderlich sind. Beispielsweise kann die Spalte "Ground-Truth" aus einem Datensatz stammen. Standardmäßig verwendet die Auswertung dasselbe Dataset wie das Test-Dataset, das für die getestete Ausführung bereitgestellt wird. Wenn sich jedoch die entsprechenden Bezeichnungen oder Zielgrund-Wahrheitswerte in einem anderen Dataset befinden, können Sie ganz einfach zu diesem Datensatz wechseln.

  • Wenn die Datenquelle aus der Ausführungsausgabe stammt, wird die Quelle als ${run.output angegeben.[ OutputName]}
  • Wenn die Datenquelle aus Ihrem Testdatensatz stammt, wird die Quelle als ${data angegeben.[ ColumnName]}

Dieser Screenshot zeigt, wie Sie Auswertungseinstellungen konfigurieren, einschließlich Eingabezuordnung und Verbindung.

Hinweis

Wenn ihre Auswertung keine Daten aus dem Dataset erfordert, müssen Sie keine Datasetspalten im Eingabezuordnungsbereich referenzieren, was bedeutet, dass die Datasetauswahl eine optionale Konfiguration ist. Die Auswahl des Datasets wirkt sich nicht auf das Auswertungsergebnis aus.

Wenn eine Auswertungsmethode große Sprachmodelle (LLMs) verwendet, um die Leistung der Flow-Antwort zu messen, müssen Sie auch Verbindungen für die LLM-Knoten in jeder Auswertungsmethode festlegen.

Anschließend können Sie "Weiter" auswählen, um Ihre Einstellungen zu überprüfen und " Übermitteln " auszuwählen, um die Batchausführung mit der Auswertung zu starten.

Anzeigen des Auswertungsergebnisses und der Metriken

Nach der Übermittlung finden Sie den übermittelten Batchlauf auf der Registerkarte "Laufliste" auf der Seite "Aufforderungsablauf". Wählen Sie eine Ausführung aus, um zur Ergebnisseite der Ausführung zu navigieren.

Auf der Detailseite "Ausführen" können Sie "Details " auswählen, um die Details dieser Batchausführung zu überprüfen.

Ausgabe

Grundlegendes Ergebnis und Verfolgung

Dies wird Sie zunächst zur Registerkarte "Ausgabe" führen, um die Eingaben und Ausgaben zeilenweise anzuzeigen. Auf der Registerkarte "Ausgabe" wird eine Tabellenliste mit Ergebnissen angezeigt, einschließlich Zeilen-ID, Eingabe, Ausgabe, Status, Systemmetriken und Erstellungszeit.

Die Ablaufverfolgung ist standardmäßig deaktiviert. Um die Ablaufverfolgung zu aktivieren, müssen Sie die Umgebungsvariable PF_DISABLE_TRACING auf false setzen. Eine Möglichkeit, dies zu tun, besteht darin, dem Python-Knoten Folgendes hinzuzufügen:

import os
os.environ["PF_DISABLE_TRACING"] = "false"

Wenn Sie für jede Zeile Ablaufverfolgung anzeigen auswählen, können Sie diesen bestimmten Testfall auf seiner detaillierten Ablaufverfolgungsseite beobachten und debuggen.

Dieser Screenshot zeigt die Ausgabe der Batch-Ausführung.

 Screenshot der Ablaufverfolgungsdetails.

Anfügen des Auswertungsergebnisses und der Ablaufverfolgung

Wenn Sie Anfüge-Ausgabe der Bewertung wählen, können Sie zugehörige Bewertungsdurchläufe auswählen, und am Ende der Tabelle werden angefügte Spalten angezeigt, die das Bewertungsergebnis für jede Datenzeile darstellen. Mehrere Auswertungsausgaben können zum Vergleich angefügt werden.

Screenshot der Batchausführungsausgabe zum Anfügen der Auswertungsausgabe.

Die neuesten Auswertungsmetriken werden im linken Übersichtsbereich angezeigt.

Grundlegende Übersicht

Auf der rechten Seite bietet die Übersicht allgemeine Informationen zur Ausführung, z. B. die Anzahl der Ausführungen pro Datenpunkt, die Gesamtanzahl der Tokens und die Dauer der Ausführung.

Die aggregierten Metriken des neuesten Bewertungslaufs werden hier standardmäßig angezeigt. Sie können "Auswertungslauf anzeigen" auswählen, um zu springen, um den Auswertungslauf selbst anzuzeigen.

Screenshot der Übersichtsinformationen zur Batchausführung auf der Ausgabeseite.

Hier können Sie die Übersicht erweitern oder reduzieren. Um detailliertere Informationen zu diesem Lauf zu sehen, wählen Sie Gesamte Informationen anzeigen, um neben der Registerkarte Ausgabe zur Registerkarte Übersicht zu wechseln.

Starten einer neuen Bewertungsrunde

Wenn Sie bereits eine Batchausführung abgeschlossen haben, können Sie eine weitere Auswertungsrunde starten, um eine neue Auswertungsausführung zu übermitteln, um Metriken für die Ausgaben zu berechnen, ohne den Ablauf erneut auszuführen. Dies ist hilfreich und kann Ihnen Kosten ersparen, wenn Sie den Ablauf erneut ausführen müssen:

  • Sie haben keine Auswertungsmethode ausgewählt, um die Metriken beim Übermitteln des Batchlaufs zu berechnen, und haben sich jetzt entschieden, dies zu tun.
  • Sie haben bereits eine Auswertungsmethode zum Berechnen einer Metrik verwendet. Sie können eine weitere Auswertungsrunde starten, um eine andere Metrik zu berechnen.
  • Während der Ausführung der Auswertung ist ein Fehler aufgetreten, aber der Prozess hat erfolgreich Ausgaben generiert. Sie können Ihre Bewertung erneut übermitteln.

Sie können zur Registerkarte Ausführungen der Eingabeaufforderung wechseln. Gehen Sie dann zur Detailseite für die Batchausführung und wählen Sie Auswerten, um eine weitere Auswertungsrunde zu starten.

Dieser Screenshot zeigt, wie Sie eine neue Auswertung basierend auf einer Batchausführung starten.

Nach dem Einrichten der Konfiguration können Sie für diese neue Auswertungsrunde "Absenden" auswählen. Nach der Übermittlung können Sie in der Liste der Eingabeaufforderungsablaufausführungen einen neuen Datensatz anzeigen. Nach Abschluss der Auswertung können Sie das Ergebnis der Auswertung in der Registerkarte "Ausgaben" des Detailbereichs 'Batchausführung' überprüfen. Sie müssen die neue Auswertungsausführung auswählen, um das Ergebnis anzuzeigen.

Um mehr über die Metriken zu erfahren, die von den integrierten Auswertungsmethoden berechnet werden, navigieren Sie zu den integrierten Auswertungsmethoden.

Übersicht

Auf der Registerkarte "Übersicht" werden umfassende Informationen zur Ausführung angezeigt, einschließlich Ausführungseigenschaften, Eingabedatensatz, Ausgabedatensatz, Tags und Beschreibung.

Protokolle

Wenn Sie die Registerkarte "Protokolle" auswählen, können Sie die Ausführungsprotokolle anzeigen, die für das detaillierte Debuggen von Ausführungsfehlern nützlich sein können. Sie können die Protokolldateien auf Ihren lokalen Computer herunterladen.

Momentaufnahme

Wenn Sie die Registerkarte "Momentaufnahme" auswählen, wird die Momentaufnahme angezeigt. Sie können die DAG Ihres Flusses anzeigen. Darüber hinaus haben Sie die Möglichkeit, ihn zu klonen , um einen neuen Fluss zu erstellen. Sie können sie auch als Onlineendpunkt bereitstellen .

Screenshot der Momentaufnahme der Batchausführung.

Überprüfung des Verlaufs der Batchausführung und Vergleich der Metriken

In einigen Szenarien ändern Sie Ihren Fluss, um die Leistung zu verbessern. Sie können mehrere Batchausführungen übermitteln, um die Leistung Ihres Flusses mit unterschiedlichen Versionen zu vergleichen. Sie können auch die Metriken vergleichen, die von verschiedenen Auswertungsmethoden berechnet werden, um zu sehen, welche für Ihren Fluss besser geeignet ist.

Um den Verlaufsverlauf Ihres Flows zu überprüfen, können Sie die Schaltfläche Batchausführung anzeigen auf Ihrer Flow-Seite auswählen. Es wird eine Liste der Batchausführungen angezeigt, die Sie für diesen Ablauf übermittelt haben.

Dieser Screenshot zeigt die Schaltfläche

Sie können jede Batchausführung auswählen, um die Details zu überprüfen. Sie können auch mehrere Batchausführungen auswählen und in den Visualize-Ausgaben auswählen, um die Metriken und die Ausgaben der Batchausführungen zu vergleichen.

Im Bereich "Ausgabe visualisieren" zeigt die Tabelle " Runs & Metrics " die Informationen der ausgewählten Läufe mit Hervorhebung an. Andere Läufe, die die Ausgaben der ausgewählten Ausführung als Eingabe übernehmen, werden ebenfalls aufgelistet.

In der Tabelle "Outputs" können Sie die ausgewählten Batch-Läufe für jede Probenzeile vergleichen. Wenn Sie das Symbol "Augenvisualisierung" in der Tabelle "Runs & metrics" auswählen, werden die Ausgaben dieser Ausführung an den entsprechenden Basislauf angefügt.

Verstehen der integrierten Auswertungsmethoden

Im Prompt Flow bieten wir verschiedene integrierte Bewertungsmethoden, mit denen Sie die Leistung Ihrer Flow-Ausgabe messen können. Jede Auswertungsmethode berechnet unterschiedliche Metriken. Eine Liste der integrierten Auswertungsmethoden und deren Beschreibungen finden Sie in der folgenden Tabelle.

Auswertungsmethode Metriken Beschreibung Verbindung erforderlich Erforderliche Eingabe Punktewert
Klassifizierungsgenauigkeitsbewertung Genauigkeit Misst die Leistung eines Klassifikationssystems, indem seine Ausgaben mit den Referenzwerten verglichen werden. Nein Vorhersage, Ground-Truth im Bereich [0, 1].
QnA-Relevanzbewertungen paarweise Auswertung Punktzahl, Gewinn/Verlust Bewertet die Qualität der Antworten, die von einem Frageantwortsystem generiert werden. Es umfasst das Zuweisen von Relevanzbewertungen zu jeder Antwort basierend darauf, wie gut sie mit der Benutzerfrage übereinstimmt, verschiedene Antworten mit einer Basisantwort zu vergleichen und die Ergebnisse zu aggregieren, um Metriken wie durchschnittliche Gewinnraten und Relevanzbewertungen zu erzeugen. Ja Frage, Antwort (keine Grundwahrheit oder Kontext) Punktzahl: 0-100, Gewinn/Verlust: 1/0
QnA-Verankerungsbewertung Erdung Misst, wie gut die vorhergesagten Antworten des Modells auf der Eingabequelle basieren. Selbst wenn die Antworten von LLM wahr sind, wenn sie nicht anhand der Quelle überprüft werden können, ist dies nicht geerdet. Ja Frage, Antwort, Kontext (keine Grundwahrung) 1 bis 5, wobei 1 das Schlechteste ist und 5 das Beste ist.
QnA GPT Ähnlichkeitsauswertung GPT-Ähnlichkeit Misst die Ähnlichkeit zwischen vom Benutzer bereitgestellten Antworten auf Bodenwahrheiten und der vorhergesagten Antwort mithilfe des GPT-Modells. Ja Frage, Antwort, Grundwahrheit (Kontext nicht erforderlich) im Bereich [0, 1].
QnA-Relevanzbewertung Relevanz Misst, wie relevant die vorhergesagten Antworten des Modells auf die gestellten Fragen sind. Ja Frage, Antwort, Kontext (keine Grundwahrung) 1 bis 5, wobei 1 das Schlechteste ist und 5 das Beste ist.
QnA-Kohärenzbewertung Kohärenz Misst die Qualität aller Sätze in der vorhergesagten Antwort eines Modells und wie diese auf natürliche Weise zusammenpassen. Ja Frage, Antwort (keine Grundwahrheit oder Kontext) 1 bis 5, wobei 1 das Schlechteste ist und 5 das Beste ist.
QnA Fließfähigkeit-Bewertung Geläufigkeit Misst, wie grammatikalisch und sprachlich korrekt die vom Modell vorhergesagte Antwort ist. Ja Frage, Antwort (keine Grundwahrheit oder Kontext) 1 bis 5, wobei 1 das Schlechteste ist und 5 das Beste ist
Bewertung der QnA f1-Scores F1-Bewertung Misst das Verhältnis der Anzahl der übereinstimmenden Wörter zwischen der Modellvorhersage und der Grundwahrheit. Nein Frage, Antwort, Grundwahrheit (Kontext nicht erforderlich) im Bereich [0, 1].
QnA Ada Ähnlichkeitsbewertung Ada-Ähnlichkeit Berechnet Satz- bzw. Dokumentebenen-Embeddings mithilfe der Ada-Einbettungs-API sowohl für Ground-Truth-Daten als auch für die Vorhersage. Berechnet dann die Kosinusähnlichkeit zwischen ihnen (eine einzelne Gleitkommazahl) Ja Frage, Antwort, Grundwahrheit (Kontext nicht erforderlich) im Bereich [0, 1].

Möglichkeiten zur Verbesserung der Flussleistung

Nachdem Sie die integrierten Methoden aus der Auswertung überprüft haben, können Sie versuchen, die Flussleistung zu verbessern, indem Sie:

  • Überprüfen Sie die Ausgabedaten, um mögliche Fehler des Flusses zu debuggen.
  • Ändern Sie Ihren Prozessablauf, um die Leistung zu verbessern. Dazu gehören, aber nicht beschränkt auf:
    • Die Aufforderung ändern
    • Ändern der Systemmeldung
    • Ändern von Parametern des Flusses
    • Ändern der Flusslogik

Weitere Informationen zum Erstellen einer Eingabeaufforderung, die Ihr Ziel erreichen kann, finden Sie unter Einführung in die Einführung in die Technik von Eingabeaufforderungen, Prompt Engineering-Techniken und Systemnachrichtenframework und Vorlagenempfehlungen für große Sprachmodelle(LLMs).

In diesem Dokument haben Sie erfahren, wie Sie eine Batchausführung übermitteln und eine integrierte Auswertungsmethode verwenden, um die Qualität Ihrer Flussausgabe zu messen. Außerdem haben Sie gelernt, wie Sie das Auswertungsergebnis und die Metriken anzeigen und eine neue Auswertungsrunde mit einer anderen Methode oder Teilmenge von Varianten starten. Wir hoffen, dass dieses Dokument Ihnen hilft, Ihre Workflow-Leistung zu verbessern und Ihre Ziele mit einem PromptFlow zu erreichen.

Nächste Schritte