ToolCallAccuracyEvaluator クラス

定義

提供されたツールの使用における AI システムの有効性を評価する IEvaluator

public ref class ToolCallAccuracyEvaluator sealed : Microsoft::Extensions::AI::Evaluation::IEvaluator
[System.Diagnostics.CodeAnalysis.Experimental("AIEVAL001")]
public sealed class ToolCallAccuracyEvaluator : Microsoft.Extensions.AI.Evaluation.IEvaluator
public sealed class ToolCallAccuracyEvaluator : Microsoft.Extensions.AI.Evaluation.IEvaluator
[<System.Diagnostics.CodeAnalysis.Experimental("AIEVAL001")>]
type ToolCallAccuracyEvaluator = class
    interface IEvaluator
type ToolCallAccuracyEvaluator = class
    interface IEvaluator
Public NotInheritable Class ToolCallAccuracyEvaluator
Implements IEvaluator
継承
ToolCallAccuracyEvaluator
属性
実装

注釈

ToolCallAccuracyEvaluator AI システムは、提供された応答に存在するツール呼び出し (つまり、 FunctionCallContent) を調べて、会話に対するこれらのツール呼び出しの関連性、 ToolDefinitionsを介して提供されたツール定義に関するこれらのツール呼び出しのパラメーターの正確性、および指定された会話からのパラメーター値抽出の精度を評価することによって、ツールを使用する精度を測定します。

現時点では、 ToolCallAccuracyEvaluator では、 AIFunctionDeclarationとして定義されているツールの呼び出しの評価のみがサポートされることに注意してください。 ToolDefinitionsを介して提供されるその他のAITool定義は無視されます。

ToolCallAccuracyEvaluator は、'Tool Call Accuracy' のスコアを含む BooleanMetric を返します。 スコアは、ツール呼び出しが無関係であるか、会話に存在しない情報が含まれている場合に false され、ツール呼び出しが会話から適切に抽出されたパラメーターと関連している場合は true されます。

注:ToolCallAccuracyEvaluator は、AI モデルを使用してその評価を実行する AI ベースのエバリュエーターです。 このエバリュエーターが評価を実行するために使用するプロンプトはモデルに依存しないように設計されていますが、このプロンプト (および結果の評価) のパフォーマンスは、使用されるモデルによって異なる場合があり、小さいモデルやローカル モデルを使用する場合は特に低下する可能性があります。

ToolCallAccuracyEvaluator使用するプロンプトは、次のモデルに対してテスト (および適切に動作するように調整) されています。 そのため、次の一覧のモデルでこのエバリュエーターを使用すると、最適な結果が得られる可能性があります。 (使用するモデルは、 ChatClientを使用して構成できます)。

GPT-4o

コンストラクター

名前 説明
ToolCallAccuracyEvaluator()

提供されたツールの使用における AI システムの有効性を評価する IEvaluator

プロパティ

名前 説明
EvaluationMetricNames

このNameによって生成されたEvaluationMetricIEvaluatorを取得します。

ToolCallAccuracyMetricName

Nameによって返されるBooleanMetricToolCallAccuracyEvaluatorを取得します。

メソッド

名前 説明
EvaluateAsync(IEnumerable<ChatMessage>, ChatResponse, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

指定したmodelResponseを評価し、1 つ以上のEvaluationResultを含むEvaluationMetricを返します。

拡張メソッド

名前 説明
EvaluateAsync(IEvaluator, ChatMessage, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

指定したmodelResponseを評価し、1 つ以上のEvaluationResultを含むEvaluationMetricを返します。

EvaluateAsync(IEvaluator, ChatMessage, ChatMessage, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

指定したmodelResponseを評価し、1 つ以上のEvaluationResultを含むEvaluationMetricを返します。

EvaluateAsync(IEvaluator, ChatMessage, ChatResponse, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

指定したmodelResponseを評価し、1 つ以上のEvaluationResultを含むEvaluationMetricを返します。

EvaluateAsync(IEvaluator, ChatResponse, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

指定したmodelResponseを評価し、1 つ以上のEvaluationResultを含むEvaluationMetricを返します。

EvaluateAsync(IEvaluator, String, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

指定したmodelResponseを評価し、1 つ以上のEvaluationResultを含むEvaluationMetricを返します。

EvaluateAsync(IEvaluator, String, String, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

指定したmodelResponseを評価し、1 つ以上のEvaluationResultを含むEvaluationMetricを返します。

適用対象