適用対象:Foundry (クラシック) ポータル。 この記事は、新しい Foundry ポータルでは使用できません。
新しいポータルの詳細を確認します。
メモ
この記事のリンクは、現在表示している Foundry (クラシック) ドキュメントではなく、新しい Microsoft Foundry ドキュメントのコンテンツを開く場合があります。
警告
プロンプト フロー機能の開発は、2026 年 4 月 20 日に終了しました。 この機能は、2027 年 4 月 20 日に完全に廃止されます。 提供終了日に、プロンプト フローは読み取り専用モードになります。 既存のフローは、その日付まで動作し続けます。
Recommended action: 2027 年 4 月 20 日より前に、プロンプト フローワークロードを Microsoft Agent Framework に移行します。
大規模なデータセットでフローのパフォーマンスを評価するには、バッチ実行を送信し、プロンプト フローで評価メソッドを使用します。
この記事では、次の方法について説明します。
- バッチ実行を送信し、評価メソッドを使用する
- 評価結果とメトリックを表示する
- 評価の新しいラウンドを開始する
- バッチ実行履歴を確認し、メトリックを比較する
- 組み込みの評価方法を理解する
- フロー パフォーマンスを向上させる方法
前提 条件
重要
この記事では、ハブ ベースのプロジェクトのレガシ サポートを提供します。 Foundry プロジェクトでは機能しません。 「自分が持っているプロジェクトの種類を確認する方法」を参照してください。
SDK 互換性に関するメモ: コード例では、特定のMicrosoft Foundry SDK バージョンが必要です。 互換性の問題が発生した場合は、 ハブ ベースから Foundry プロジェクトへの移行を検討してください。
- アクティブなサブスクリプションを持つAzure アカウント。 お持ちでない場合は、無料試用版サブスクリプションを含む無料Azure アカウントを作成します。
- ない場合は、 ハブベースのプロジェクトを作成します。
バッチ実行と評価メソッドを使用するには、次の準備が必要です。
- バッチ実行のテスト データセット。 データセットは、
.csv、.tsv、または.jsonlのいずれかの形式にする必要があります。 データには、フローの入力名に一致するヘッダーも含める必要があります。 フロー入力にリストやディクショナリなどの複雑な構造が含まれている場合は、jsonl形式を使用してデータを表します。 - バッチ実行を実行するために使用可能なコンピューティング セッション。 コンピューティング セッションは、フローを実行し、出力を生成するクラウドベースのリソースです。 コンピューティング セッションの詳細については、 コンピューティング セッションに関するページを参照してください。
バッチ実行を送信し、評価メソッドを使用する
バッチ実行を使用すると、大規模なデータセットを使用してフローを実行し、データ行ごとに出力を生成できます。 評価方法を選択して、フローの出力を特定の条件と目標と比較することもできます。 評価方法は、さまざまな側面に基づいてフロー出力のメトリックを計算する 特殊な種類の フローです。 評価実行は、バッチ実行に含めて送信された際にメトリックを計算するために実行されます。
評価を使用してバッチ実行を開始するには、[ 評価 ] ボタン - [カスタム評価] を選択します。 カスタム評価を選択すると、評価方法を使用してバッチ実行を送信するか、フローの評価なしでバッチ実行を送信できます。
まず、バッチ実行にわかりやすい名前を付ける必要があります。 また、説明を記述し、タグ (キーと値のペア) をバッチ実行に追加することもできます。 構成が完了したら、[ 次へ ] を選択して続行します。
次に、フローをテストするデータセットを選択またはアップロードする必要があります。 また、このバッチ実行を実行するために、使用可能なコンピューティング セッションを選択する必要もあります。
プロンプト フローでは、フロー入力をデータセット内の特定のデータ列にマッピングすることもできます。 つまり、特定の入力に列を割り当てることができます。
${data.XXX}形式で参照することで、入力に列を割り当てることができます。 定数値を入力に割り当てる場合は、その値を直接入力できます。
次の手順では、評価方法を使用して、このフローのパフォーマンスを検証できます。 評価方法を適用したりメトリックを計算したりしない場合は、[ 次へ ] ボタンを直接選択してこの手順をスキップできます。 それ以外の場合は、今すぐ評価を使用してバッチ実行を実行する場合は、1 つ以上の評価方法を選択できます。 評価は、バッチ実行が完了した後に開始されます。 バッチ実行が完了した後に、別の評価ラウンドを開始することもできます。 評価の新しいラウンドを開始する方法の詳細については、「新 しい評価のラウンドを開始する」を参照してください。
次のステップの 入力マッピング セクションでは、評価方法に必要な入力データのソースを指定する必要があります。 たとえば、グラウンド トゥルース列はデータセットから取得できます。 既定では、評価では、テスト対象の実行に提供されたテスト データセットと同じデータセットが使用されます。 ただし、対応するラベルやターゲットのグラウンド トゥルース (実測値) が別のデータセットにある場合は、簡単に切り替えることができます。
- データ ソースが実行出力の場合、ソースは ${run.output.[ として示されます。OutputName]}
- データ ソースがテスト データセットの場合、ソースは ${data として示されます 。[ColumnName]}
メモ
評価でデータセットのデータが必要ない場合は、入力マッピング セクションのデータセット列を参照する必要はありません。これは、データセットの選択がオプションの構成であることを示します。 データセットの選択は、評価結果には影響しません。
評価方法で大規模言語モデル (LLM) を使用してフロー応答のパフォーマンスを測定する場合は、評価方法で LLM ノードの接続を設定する必要もあります。
次に、[ 次へ ] を選択して設定を確認し、[ 送信] を選択して評価によるバッチ実行を開始できます。
評価結果とメトリックを表示する
送信後、送信されたバッチ実行は、プロンプト フロー ページの [実行リスト] タブで確認できます。 実行を選択して、実行結果ページに移動します。
実行の詳細ページで、[ 詳細 ] を選択して、このバッチ実行の詳細を確認できます。
出力
基本的な結果とトレース
これにより、まず [ 出力] タブ に移動し、入力と出力を 1 行ずつ表示します。 出力タブ ページには、 行 ID、 入力、 出力、 状態、 システム メトリック、 作成時刻など、結果のテーブル一覧が表示されます。
トレースは既定で無効になっています。トレースを有効にするには、環境変数 PF_DISABLE_TRACING を false に設定する必要があります。 これを行う方法の 1 つは、Python ノードに以下を追加することです。
import os
os.environ["PF_DISABLE_TRACING"] = "false"
各行で [ トレースの表示 ] を選択すると、トレースの詳細ページでその特定のテスト ケースを観察およびデバッグできます。
評価結果とトレースを追加する
[追加評価出力] を選択すると、関連する評価実行を選択でき、テーブルの末尾に追加列が表示され、データの各行の評価結果が表示されます。 比較のために複数の評価出力を追加できます。
最新の評価メトリックは、左側の [概要] パネルで確認できます。
基本的な概要
右側の [概要] には、データ ポイントごとの実行数、合計トークン数、実行時間など、実行に関する全体的な情報が表示されます。
既定では、最新の評価実行の集計メトリックがここに表示されます。 [評価実行の表示] を選択してジャンプし、評価実行自体を表示できます。
概要は、ここで展開または折りたたむことができます。 この実行の詳細を表示するには、[ 完全な情報の表示 ] を選択して、[出力] タブの横にある [概要] タブ に移動します。
評価の新しいラウンドを開始する
バッチ実行が既に完了している場合は、別の評価ラウンドを開始して、 フローを再実行せずに出力のメトリックを計算する新しい評価実行を送信できます。 これは役に立ち、次の場合にフローを再実行するためのコストを節約できます。
- バッチ実行の送信時にメトリックを計算する評価方法を選択せず、今すぐ実行することにしました。
- 評価方法を使用してメトリックを計算しました。 別の評価ラウンドを開始して、別のメトリックを計算できます。
- 評価の実行は失敗しましたが、フローによって出力が正常に生成されました。 評価版をもう一度送信できます。
プロンプト フローの [実行 ] タブに移動できます。次に、バッチ実行の詳細ページに移動し、[ 評価 ] を選択して、評価の別のラウンドを開始します。
構成を設定したら、この新しい評価ラウンドに [送信] を選択できます。 送信後、プロンプト フローの実行一覧に新しいレコードを表示できます。 同様に、評価の実行が完了したら、バッチ実行の詳細パネルの [出力 ] タブで評価の結果を確認できます。 結果を表示するには、新しい評価実行を選択する必要があります。
組み込みの評価方法によって計算されるメトリックの詳細については、 組み込みの評価方法を理解する方法に移動します。
概要
[ 概要] タブ を選択すると、実行プロパティ、入力データセット、出力データセット、タグ、説明など、実行に関する包括的な情報が表示されます。
ログ
[ログ] タブ を選択すると、実行ログを表示できます。これは、実行エラーの詳細なデバッグに役立ちます。 ログ ファイルはローカル コンピューターにダウンロードできます。
スナップショット
[ スナップショット] タブ を選択すると、実行スナップショットが表示されます。 フローの DAG を表示できます。 さらに、それを 複製 して新しいフローを作成することもできます。 オンライン エンドポイントとして デプロイ することもできます。
バッチ実行履歴を確認し、メトリックを比較する
一部のシナリオでは、フローを変更してパフォーマンスを向上させます。 複数のバッチ実行を送信して、フローのパフォーマンスを異なるバージョンと比較できます。 また、さまざまな評価方法によって計算されたメトリックを比較して、フローに適したメトリックを確認することもできます。
フローのバッチ実行履歴を確認するには、フロー ページの [ バッチ実行の表示 ] ボタンを選択します。 このフローに対して送信したバッチ実行の一覧が表示されます。
各バッチ実行を選択して詳細を確認できます。 複数のバッチ実行を選択し、[ 出力の視覚化 ] を選択して、バッチ実行のメトリックと出力を比較することもできます。
[出力の視覚化] パネルの [実行とメトリック ] テーブルには、選択した実行の情報が強調表示されて表示されます。 選択した実行の出力を入力として受け取る他の実行も一覧表示されます。
[出力] テーブルでは、選択したバッチ実行をサンプルの各行で比較できます。 [実行とメトリック] テーブルで [目の視覚化] アイコンを選択すると、その実行の出力が対応する基本実行に追加されます。
組み込みの評価方法を理解する
プロンプト フローでは、フロー出力のパフォーマンスを測定するのに役立つ複数の組み込み評価方法が用意されています。 各評価方法では、異なるメトリックが計算されます。 組み込みの評価方法とその説明については、次の表を参照してください。
| 評価方法 | メトリック | 説明 | 接続が必要 | 必須の入力 | スコア値 |
|---|---|---|---|---|---|
| 分類の精度の評価 | 精度 | 出力を地上の真理値と比較して、分類システムのパフォーマンスを測定します。 | いいえ | 予測、グラウンド トゥルース | 数値範囲は[0, 1]です。 |
| QnA 関連性スコア ペアワイズ評価 | スコア、勝ち負け | 質問回答システムによって生成された回答の品質を評価します。 これには、ユーザーの質問とどの程度一致するかに基づいて各回答に関連性スコアを割り当て、ベースライン回答と異なる回答を比較し、結果を集計して平均勝率や関連性スコアなどのメトリックを生成する必要があります。 | はい | 質問、回答(根拠や文脈なし) | スコア:0-100、勝ち負け:1/0 |
| QnA 根拠性評価 | 安定性 | モデルの予測された回答が入力ソースでどのように接地されているかを測定します。 LLM の応答が真実である場合であっても、ソースに対して検証できない場合は根拠がありません。 | はい | 質問、回答、コンテキスト (根拠のない真実) | 1から5、1が最悪であり、5が最高です。 |
| QnA GPT の類似性評価 | GPT の類似性 | GPT モデルを使用して、ユーザーが提供する地上真偽回答とモデル予測回答の類似性を測定します。 | はい | 質問、回答、地上の真実 (コンテキストは必要ありません) | 数値範囲は[0, 1]です。 |
| QnA 関連性評価 | 関連 | モデルの予測回答が質問にどの程度関連しているかを測定します。 | はい | 質問、回答、コンテキスト (根拠のない真実) | 1から5、1が最悪であり、5が最高です。 |
| QnA コヒーレンス評価 | コヒーレンス | モデルの予測された回答内のすべての文の品質と、それらが自然にどのように一緒に収まるかを測定します。 | はい | 質問、回答(根拠や文脈なし) | 1から5、1が最悪であり、5が最高です。 |
| QnA 流暢性評価 | 言語の流暢さ | モデルの予測回答が文法的および言語的にどのように修正されるかを測定します。 | はい | 質問、回答(根拠や文脈なし) | 1 から 5、1 が最悪、5 が最高 |
| QnA F1 スコアの評価 | F1 スコア | モデル予測と地上真理値の間の共有単語数の比率を測定します。 | いいえ | 質問、回答、地上の真実 (コンテキストは必要ありません) | 数値範囲は[0, 1]です。 |
| QnA Ada 類似性評価 | Ada の類似性 | Ada 埋め込み API を使用して文章 (ドキュメント) レベルの埋め込みを計算し、グラウンド トゥルースと予測の両方を行います。 次に、それらの間のコサインの類似性 (1 つの浮動小数点数) を計算します。 | はい | 質問、回答、地上の真実 (コンテキストは必要ありません) | 数値範囲は[0, 1]です。 |
フロー パフォーマンスを向上させる方法
評価から 組み込みのメソッドを 確認した後、次の方法でフローのパフォーマンスを向上させることができます。
- 出力データを調べて、フローの潜在的な障害をデバッグします。
- フローを変更してパフォーマンスを向上させます。 これには次のものが含まれますが、これらに限定されません。
- プロンプトを変更する
- システム メッセージを変更する
- フローのパラメーターを変更する
- フロー ロジックを変更する
目標を達成できるプロンプトを作成する方法の詳細については、「 プロンプト エンジニアリングの概要」、 プロンプト エンジニアリング手法、および 大規模言語モデル (LLM) のシステム メッセージ フレームワークとテンプレートの推奨事項を参照してください。
このドキュメントでは、バッチ実行を送信し、組み込みの評価方法を使用してフロー出力の品質を測定する方法について説明しました。 また、評価結果とメトリックを表示する方法と、異なる方法またはバリアントのサブセットを使用して新しい評価ラウンドを開始する方法についても学習しました。 このドキュメントが、フローのパフォーマンスを向上させ、迅速なフローで目標を達成するのに役立つことを願っています。