TaskAdherenceEvaluator Classe

Definição

Um IEvaluator que avalia a eficácia de um sistema de IA ao aderir à tarefa atribuída a ele.

public ref class TaskAdherenceEvaluator sealed : Microsoft::Extensions::AI::Evaluation::IEvaluator
[System.Diagnostics.CodeAnalysis.Experimental("AIEVAL001")]
public sealed class TaskAdherenceEvaluator : Microsoft.Extensions.AI.Evaluation.IEvaluator
public sealed class TaskAdherenceEvaluator : Microsoft.Extensions.AI.Evaluation.IEvaluator
[<System.Diagnostics.CodeAnalysis.Experimental("AIEVAL001")>]
type TaskAdherenceEvaluator = class
    interface IEvaluator
type TaskAdherenceEvaluator = class
    interface IEvaluator
Public NotInheritable Class TaskAdherenceEvaluator
Implements IEvaluator
Herança
TaskAdherenceEvaluator
Atributos
Implementações

Comentários

TaskAdherenceEvaluator mede com que precisão um sistema de IA adere à tarefa atribuída a ele examinando o alinhamento da resposta fornecida com instruções e definições presentes no histórico de conversas, a precisão e a clareza da resposta e o uso adequado das definições de ferramenta fornecidas por meio ToolDefinitionsde .

Observe que, no momento, TaskAdherenceEvaluator só dá suporte à avaliação de chamadas para ferramentas definidas como AIFunctionDeclarations. Todas as outras AITool definições fornecidas por meio ToolDefinitions serão ignoradas.

TaskAdherenceEvaluator retorna um NumericMetric que contém uma pontuação para 'Task Adherence'. A pontuação é um número entre 1 e 5, com 1 indicando uma pontuação ruim e 5 indicando uma excelente pontuação.

Nota:TaskAdherenceEvaluator é um avaliador baseado em IA que usa um modelo de IA para executar sua avaliação. Embora o prompt que esse avaliador usa para executar sua avaliação seja projetado para ser independente de modelo, o desempenho desse prompt (e a avaliação resultante) pode variar dependendo do modelo usado e pode ser especialmente ruim quando um modelo menor/local é usado.

O prompt que TaskAdherenceEvaluator usa foi testado (e ajustado para funcionar bem com) os modelos a seguir. Portanto, usar esse avaliador com um modelo da lista a seguir provavelmente produzirá os melhores resultados. (O modelo a ser usado pode ser configurado por meio de ChatClient.)

GPT-4o

Construtores

Nome Description
TaskAdherenceEvaluator()

Um IEvaluator que avalia a eficácia de um sistema de IA ao aderir à tarefa atribuída a ele.

Propriedades

Nome Description
EvaluationMetricNames

Obtém os Names dos EvaluationMetrics produzidos por este IEvaluator.

TaskAdherenceMetricName

Obtém o Name do NumericMetric retornado por TaskAdherenceEvaluator.

Métodos

Nome Description
EvaluateAsync(IEnumerable<ChatMessage>, ChatResponse, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

Avalia o fornecido modelResponse e retorna um EvaluationResult ou mais EvaluationMetrics contendo.

Métodos de Extensão

Nome Description
EvaluateAsync(IEvaluator, ChatMessage, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

Avalia o fornecido modelResponse e retorna um EvaluationResult ou mais EvaluationMetrics contendo.

EvaluateAsync(IEvaluator, ChatMessage, ChatMessage, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

Avalia o fornecido modelResponse e retorna um EvaluationResult ou mais EvaluationMetrics contendo.

EvaluateAsync(IEvaluator, ChatMessage, ChatResponse, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

Avalia o fornecido modelResponse e retorna um EvaluationResult ou mais EvaluationMetrics contendo.

EvaluateAsync(IEvaluator, ChatResponse, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

Avalia o fornecido modelResponse e retorna um EvaluationResult ou mais EvaluationMetrics contendo.

EvaluateAsync(IEvaluator, String, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

Avalia o fornecido modelResponse e retorna um EvaluationResult ou mais EvaluationMetrics contendo.

EvaluateAsync(IEvaluator, String, String, ChatConfiguration, IEnumerable<EvaluationContext>, CancellationToken)

Avalia o fornecido modelResponse e retorna um EvaluationResult ou mais EvaluationMetrics contendo.

Aplica-se a