Avaliadores de propósito geral

Use avaliadores de coerência e fluência para medir a qualidade da escrita do texto gerado por IA, independentemente da correção factual. O texto gerado por IA pode carecer de fluidez lógica ou qualidade gramatical para além do mínimo de correção — estes avaliadores destacam essas lacunas de forma sistemática.

Coherence

O avaliador de coerência mede a apresentação lógica e ordenada das ideias numa resposta, o que permite ao leitor acompanhar e compreender facilmente o raciocínio do escritor. Uma resposta coerente aborda diretamente a questão com ligações claras entre frases e parágrafos, utilizando transições apropriadas e uma sequência lógica de ideias. Pontuações mais altas significam melhor coerência.

Fluency

O avaliador de fluência mede a eficácia e clareza da comunicação escrita. Esta medida foca-se na precisão gramatical, gama de vocabulário, complexidade das frases, coerência e legibilidade geral. Avalia quão suavemente as ideias são transmitidas e quão facilmente o leitor consegue compreender o texto.

Configurar e executar avaliadores

Os avaliadores de uso geral avaliam a qualidade da escrita do texto gerado por IA independentemente de casos de uso específicos. Use a coerência quando o fluxo lógico e a argumentação importam — por exemplo, na resposta a perguntas ou na sumar. Use fluência quando a qualidade gramatical e a legibilidade são relevantes, independentemente do conteúdo. Compara ambos os avaliadores em conjunto para ter uma visão completa da qualidade da escrita.

Para avaliadores LLM como juiz, podes usar modelos de raciocínio e não raciocínio Azure OpenAI ou OpenAI para o juiz LLM. Para o melhor equilíbrio entre desempenho e custo, use gpt-5-mini.

Examples:

Evaluator O que mede Required inputs Required parameters
builtin.coherence Fluxo lógico e organização das ideias query, response deployment_name
builtin.fluency Precisão gramatical e legibilidade response deployment_name

Example input

O seu conjunto de dados de teste deve conter os campos referenciados nos seus mapeamentos de dados:

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

Configuration example

Sintaxe do mapeamento de dados:

  • {{item.field_name}} Referências a campos do seu conjunto de dados de teste (por exemplo, {{item.query}}).
  • {{sample.output_text}} Referências: Texto de resposta gerado ou recuperado durante a avaliação. Use isto ao avaliar com um alvo modelo ou alvo agente.
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

Consulte Run evaluations from the SDK para detalhes sobre avaliações em execução e configuração de fontes de dados.

Example output

Estes avaliadores apresentam pontuações numa escala de Likert de 1 a 5 (1 = muito mau, 5 = excelente). O limite padrão de aprovação é 3. Pontuações com ou acima do limiar são consideradas aprovadas. Campos-chave de saída:

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

Note

Estes avaliadores utilizam o LLM como pontuação de juiz e incorrem em custos de inferência do modelo por chamada de avaliação. A fiabilidade da pontuação pode variar para respostas muito curtas (com menos de cerca de 20 tokens). Ambos os avaliadores apoiam atualmente respostas em inglês.