Compartilhar via


Avaliadores de uso geral

Use avaliadores de coerência e fluência para medir a qualidade de escrita do texto gerado por IA, independentemente da correção factual. O texto gerado por IA pode não ter fluxo lógico ou qualidade gramatical além da correção mínima – esses avaliadores exibem essas lacunas sistematicamente.

Coerência

O avaliador de coerência mede a apresentação lógica e ordenada de ideias em uma resposta, o que permite que o leitor siga e entenda facilmente a formação de pensamento do escritor. Uma resposta coerente aborda diretamente a questão com conexões claras entre frases e parágrafos, usando transições apropriadas e uma sequência lógica de ideias. Pontuações mais altas significam melhor coerência.

Fluência

O avaliador de fluência mede a eficácia e a clareza da comunicação escrita. Essa medida se concentra na precisão gramatical, intervalo de vocabulário, complexidade da frase, coerência e legibilidade geral. Ele avalia a facilidade com que as ideias são transmitidas e com que facilidade o leitor pode entender o texto.

Configurar e executar avaliadores

Os avaliadores de uso geral avaliam a qualidade de gravação do texto gerado por IA independentemente de casos de uso específicos. Use a coerência quando o fluxo lógico e a questão da argumentação , por exemplo, em resposta a perguntas ou resumo. Use a fluência quando a qualidade gramatical e a legibilidade forem importantes independentemente do conteúdo. Execute ambos os avaliadores juntos para obter uma imagem completa da qualidade da escrita.

Para avaliadores LLM como juiz, você pode usar modelos de raciocínio e não raciocínio do Azure OpenAI ou OpenAI para o juiz llm. Para obter o melhor equilíbrio de desempenho e custo, use gpt-5-mini.

Exemplos:

Avaliador O que é medido Entradas necessárias Parâmetros necessários
builtin.coherence Fluxo lógico e organização de ideias query, response deployment_name
builtin.fluency Precisão gramatical e legibilidade response deployment_name

Exemplo de entrada

Seu conjunto de dados de teste deve conter os campos referenciados em seus mapeamentos de dados:

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

Exemplo de configuração

Sintaxe de mapeamento de dados:

  • {{item.field_name}} faz referência a campos do conjunto de dados de teste (por exemplo, {{item.query}}).
  • {{sample.output_text}} referencia o texto de resposta gerado ou recuperado durante a avaliação. Use isso ao avaliar com um destino de modelo ou um destino de agente.
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

Consulte Executar avaliações do SDK para obter detalhes sobre como executar avaliações e configurar fontes de dados.

Saída de exemplo

Esses avaliadores retornam pontuações em uma escala de 1 a 5 Likert (1 = muito ruim, 5 = excelente). O limite de aprovação padrão é 3. Pontuações acima ou acima do limite são consideradas passagens. Campos de saída de chave:

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

Observação

Esses avaliadores usam a pontuação LLM como juiz e incorrem em custos de inferência de modelo por chamada de avaliação. A confiabilidade de pontuação pode variar para respostas muito curtas (em aproximadamente 20 tokens). Atualmente, ambos os avaliadores dão suporte a respostas em inglês.