バッチ実行を送信してフローを評価する (クラシック)

適用対象:Foundry (クラシック) ポータル。この記事は、新しい Foundry ポータルでは使用できません。新しいポータルの詳細を確認します。

メモ

この記事のリンクは、現在表示している Foundry (クラシック) ドキュメントではなく、新しい Microsoft Foundry ドキュメントのコンテンツを開く場合があります。

警告

プロンプトフロー機能の開発は、2026 年 4 月 20 日に終了しました。この機能は、2027 年 4 月 20 日に完全に廃止されます。提供終了日に、プロンプトフローは読み取り専用モードになります。既存のフローは、その日付まで動作し続けます。

Recommended action: 2027 年 4 月 20 日より前に、プロンプトフローワークロードを Microsoft Agent Framework に移行します。

大規模なデータセットでフローのパフォーマンスを評価するには、バッチ実行を送信し、プロンプトフローで評価メソッドを使用します。

この記事では、次の方法について説明します。

バッチ実行を送信し、評価メソッドを使用する
評価結果とメトリックを表示する
評価の新しいラウンドを開始する
バッチ実行履歴を確認し、メトリックを比較する
組み込みの評価方法を理解する
フローパフォーマンスを向上させる方法

前提条件

重要

この記事では、ハブベースのプロジェクトのレガシサポートを提供します。 Foundry プロジェクトでは機能しません。「自分が持っているプロジェクトの種類を確認する方法」を参照してください。

SDK 互換性に関するメモ: コード例では、特定のMicrosoft Foundry SDK バージョンが必要です。互換性の問題が発生した場合は、ハブベースから Foundry プロジェクトへの移行を検討してください。

アクティブなサブスクリプションを持つAzure アカウント。お持ちでない場合は、無料試用版サブスクリプションを含む無料Azure アカウントを作成します。
ない場合は、ハブベースのプロジェクトを作成します。

バッチ実行と評価メソッドを使用するには、次の準備が必要です。

バッチ実行のテストデータセット。データセットは、 .csv、 .tsv、または .jsonlのいずれかの形式にする必要があります。データには、フローの入力名に一致するヘッダーも含める必要があります。フロー入力にリストやディクショナリなどの複雑な構造が含まれている場合は、 jsonl 形式を使用してデータを表します。
バッチ実行を実行するために使用可能なコンピューティングセッション。コンピューティングセッションは、フローを実行し、出力を生成するクラウドベースのリソースです。コンピューティングセッションの詳細については、コンピューティングセッションに関するページを参照してください。

バッチ実行を送信し、評価メソッドを使用する

バッチ実行を使用すると、大規模なデータセットを使用してフローを実行し、データ行ごとに出力を生成できます。評価方法を選択して、フローの出力を特定の条件と目標と比較することもできます。評価方法は、さまざまな側面に基づいてフロー出力のメトリックを計算する 特殊な種類の フローです。評価実行は、バッチ実行に含めて送信された際にメトリックを計算するために実行されます。

評価を使用してバッチ実行を開始するには、[ 評価 ] ボタン - [カスタム評価] を選択します。カスタム評価を選択すると、評価方法を使用してバッチ実行を送信するか、フローの評価なしでバッチ実行を送信できます。

まず、バッチ実行にわかりやすい名前を付ける必要があります。また、説明を記述し、タグ (キーと値のペア) をバッチ実行に追加することもできます。構成が完了したら、[ 次へ ] を選択して続行します。

次に、フローをテストするデータセットを選択またはアップロードする必要があります。また、このバッチ実行を実行するために、使用可能なコンピューティングセッションを選択する必要もあります。

プロンプトフローでは、フロー入力をデータセット内の特定のデータ列にマッピングすることもできます。つまり、特定の入力に列を割り当てることができます。 ${data.XXX}形式で参照することで、入力に列を割り当てることができます。定数値を入力に割り当てる場合は、その値を直接入力できます。

次の手順では、評価方法を使用して、このフローのパフォーマンスを検証できます。評価方法を適用したりメトリックを計算したりしない場合は、[ 次へ ] ボタンを直接選択してこの手順をスキップできます。それ以外の場合は、今すぐ評価を使用してバッチ実行を実行する場合は、1 つ以上の評価方法を選択できます。評価は、バッチ実行が完了した後に開始されます。バッチ実行が完了した後に、別の評価ラウンドを開始することもできます。評価の新しいラウンドを開始する方法の詳細については、「新しい評価のラウンドを開始する」を参照してください。

次のステップの 入力マッピング セクションでは、評価方法に必要な入力データのソースを指定する必要があります。たとえば、グラウンドトゥルース列はデータセットから取得できます。既定では、評価では、テスト対象の実行に提供されたテストデータセットと同じデータセットが使用されます。ただし、対応するラベルやターゲットのグラウンドトゥルース (実測値) が別のデータセットにある場合は、簡単に切り替えることができます。

データソースが実行出力の場合、ソースは ${run.output.[ として示されます。OutputName]}
データソースがテストデータセットの場合、ソースは ${data として示されます 。[ColumnName]}

メモ

評価でデータセットのデータが必要ない場合は、入力マッピングセクションのデータセット列を参照する必要はありません。これは、データセットの選択がオプションの構成であることを示します。データセットの選択は、評価結果には影響しません。

評価方法で大規模言語モデル (LLM) を使用してフロー応答のパフォーマンスを測定する場合は、評価方法で LLM ノードの接続を設定する必要もあります。

次に、[ 次へ ] を選択して設定を確認し、[ 送信] を選択して評価によるバッチ実行を開始できます。

評価結果とメトリックを表示する

送信後、送信されたバッチ実行は、プロンプトフローページの [実行リスト] タブで確認できます。実行を選択して、実行結果ページに移動します。

実行の詳細ページで、[ 詳細 ] を選択して、このバッチ実行の詳細を確認できます。

出力

基本的な結果とトレース

これにより、まず [ 出力] タブ に移動し、入力と出力を 1 行ずつ表示します。出力タブページには、 行 ID、入力、出力、状態、 システムメトリック、 作成時刻など、結果のテーブル一覧が表示されます。

トレースは既定で無効になっています。トレースを有効にするには、環境変数 PF_DISABLE_TRACING を false に設定する必要があります。これを行う方法の 1 つは、Python ノードに以下を追加することです。

import os
os.environ["PF_DISABLE_TRACING"] = "false"

各行で [ トレースの表示 ] を選択すると、トレースの詳細ページでその特定のテストケースを観察およびデバッグできます。

評価結果とトレースを追加する

[追加評価出力] を選択すると、関連する評価実行を選択でき、テーブルの末尾に追加列が表示され、データの各行の評価結果が表示されます。比較のために複数の評価出力を追加できます。

最新の評価メトリックは、左側の [概要] パネルで確認できます。

基本的な概要

右側の [概要] には、データポイントごとの実行数、合計トークン数、実行時間など、実行に関する全体的な情報が表示されます。

既定では、最新の評価実行の集計メトリックがここに表示されます。 [評価実行の表示] を選択してジャンプし、評価実行自体を表示できます。

概要は、ここで展開または折りたたむことができます。この実行の詳細を表示するには、[ 完全な情報の表示 ] を選択して、[出力] タブの横にある [概要] タブに移動します。

評価の新しいラウンドを開始する

バッチ実行が既に完了している場合は、別の評価ラウンドを開始して、 フローを再実行せずに出力のメトリックを計算する新しい評価実行を送信できます。これは役に立ち、次の場合にフローを再実行するためのコストを節約できます。

バッチ実行の送信時にメトリックを計算する評価方法を選択せず、今すぐ実行することにしました。
評価方法を使用してメトリックを計算しました。別の評価ラウンドを開始して、別のメトリックを計算できます。
評価の実行は失敗しましたが、フローによって出力が正常に生成されました。評価版をもう一度送信できます。

プロンプトフローの [実行 ] タブに移動できます。次に、バッチ実行の詳細ページに移動し、[ 評価 ] を選択して、評価の別のラウンドを開始します。

構成を設定したら、この新しい評価ラウンドに [送信] を選択できます。送信後、プロンプトフローの実行一覧に新しいレコードを表示できます。同様に、評価の実行が完了したら、バッチ実行の詳細パネルの [出力 ] タブで評価の結果を確認できます。結果を表示するには、新しい評価実行を選択する必要があります。

組み込みの評価方法によって計算されるメトリックの詳細については、組み込みの評価方法を理解する方法に移動します。

概要

[ 概要] タブ を選択すると、実行プロパティ、入力データセット、出力データセット、タグ、説明など、実行に関する包括的な情報が表示されます。

ログ

[ログ] タブを選択すると、実行ログを表示できます。これは、実行エラーの詳細なデバッグに役立ちます。ログファイルはローカルコンピューターにダウンロードできます。

スナップショット

[ スナップショット] タブ を選択すると、実行スナップショットが表示されます。フローの DAG を表示できます。さらに、それを複製して新しいフローを作成することもできます。オンラインエンドポイントとして デプロイ することもできます。

バッチ実行履歴を確認し、メトリックを比較する

一部のシナリオでは、フローを変更してパフォーマンスを向上させます。複数のバッチ実行を送信して、フローのパフォーマンスを異なるバージョンと比較できます。また、さまざまな評価方法によって計算されたメトリックを比較して、フローに適したメトリックを確認することもできます。

フローのバッチ実行履歴を確認するには、フローページの [ バッチ実行の表示 ] ボタンを選択します。このフローに対して送信したバッチ実行の一覧が表示されます。

各バッチ実行を選択して詳細を確認できます。複数のバッチ実行を選択し、[ 出力の視覚化 ] を選択して、バッチ実行のメトリックと出力を比較することもできます。

[出力の視覚化] パネルの [実行とメトリック ] テーブルには、選択した実行の情報が強調表示されて表示されます。選択した実行の出力を入力として受け取る他の実行も一覧表示されます。

[出力] テーブルでは、選択したバッチ実行をサンプルの各行で比較できます。 [実行とメトリック] テーブルで [目の視覚化] アイコンを選択すると、その実行の出力が対応する基本実行に追加されます。

組み込みの評価方法を理解する

プロンプトフローでは、フロー出力のパフォーマンスを測定するのに役立つ複数の組み込み評価方法が用意されています。各評価方法では、異なるメトリックが計算されます。組み込みの評価方法とその説明については、次の表を参照してください。

評価方法	メトリック	説明	接続が必要	必須の入力	スコア値
分類の精度の評価	精度	出力を地上の真理値と比較して、分類システムのパフォーマンスを測定します。	いいえ	予測、グラウンドトゥルース	数値範囲は[0, 1]です。
QnA 関連性スコアペアワイズ評価	スコア、勝ち負け	質問回答システムによって生成された回答の品質を評価します。これには、ユーザーの質問とどの程度一致するかに基づいて各回答に関連性スコアを割り当て、ベースライン回答と異なる回答を比較し、結果を集計して平均勝率や関連性スコアなどのメトリックを生成する必要があります。	はい	質問、回答（根拠や文脈なし）	スコア:0-100、勝ち負け:1/0
QnA 根拠性評価	安定性	モデルの予測された回答が入力ソースでどのように接地されているかを測定します。 LLM の応答が真実である場合であっても、ソースに対して検証できない場合は根拠がありません。	はい	質問、回答、コンテキスト (根拠のない真実)	1から5、1が最悪であり、5が最高です。
QnA GPT の類似性評価	GPT の類似性	GPT モデルを使用して、ユーザーが提供する地上真偽回答とモデル予測回答の類似性を測定します。	はい	質問、回答、地上の真実 (コンテキストは必要ありません)	数値範囲は[0, 1]です。
QnA 関連性評価	関連	モデルの予測回答が質問にどの程度関連しているかを測定します。	はい	質問、回答、コンテキスト (根拠のない真実)	1から5、1が最悪であり、5が最高です。
QnA コヒーレンス評価	コヒーレンス	モデルの予測された回答内のすべての文の品質と、それらが自然にどのように一緒に収まるかを測定します。	はい	質問、回答（根拠や文脈なし）	1から5、1が最悪であり、5が最高です。
QnA 流暢性評価	言語の流暢さ	モデルの予測回答が文法的および言語的にどのように修正されるかを測定します。	はい	質問、回答（根拠や文脈なし）	1 から 5、1 が最悪、5 が最高
QnA F1 スコアの評価	F1 スコア	モデル予測と地上真理値の間の共有単語数の比率を測定します。	いいえ	質問、回答、地上の真実 (コンテキストは必要ありません)	数値範囲は[0, 1]です。
QnA Ada 類似性評価	Ada の類似性	Ada 埋め込み API を使用して文章 (ドキュメント) レベルの埋め込みを計算し、グラウンドトゥルースと予測の両方を行います。次に、それらの間のコサインの類似性 (1 つの浮動小数点数) を計算します。	はい	質問、回答、地上の真実 (コンテキストは必要ありません)	数値範囲は[0, 1]です。

フローパフォーマンスを向上させる方法

評価から組み込みのメソッドを確認した後、次の方法でフローのパフォーマンスを向上させることができます。

出力データを調べて、フローの潜在的な障害をデバッグします。
フローを変更してパフォーマンスを向上させます。これには次のものが含まれますが、これらに限定されません。
- プロンプトを変更する
- システムメッセージを変更する
- フローのパラメーターを変更する
- フローロジックを変更する

目標を達成できるプロンプトを作成する方法の詳細については、「プロンプトエンジニアリングの概要」、プロンプトエンジニアリング手法、および大規模言語モデル (LLM) のシステムメッセージフレームワークとテンプレートの推奨事項を参照してください。

このドキュメントでは、バッチ実行を送信し、組み込みの評価方法を使用してフロー出力の品質を測定する方法について説明しました。また、評価結果とメトリックを表示する方法と、異なる方法またはバリアントのサブセットを使用して新しい評価ラウンドを開始する方法についても学習しました。このドキュメントが、フローのパフォーマンスを向上させ、迅速なフローで目標を達成するのに役立つことを願っています。

次の手順

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-29