Avaliadores de finalidade geral

Use avaliadores de coerência e fluência para medir a qualidade de escrita do texto gerado por IA, independentemente da correção factual. O texto gerado por IA pode não ter fluxo lógico ou qualidade gramatical além da correção mínima – esses avaliadores exibem essas lacunas sistematicamente.

Coherence

O avaliador de coerência mede a apresentação lógica e ordenada de ideias em uma resposta, o que permite que o leitor siga e entenda facilmente a formação de pensamento do escritor. Uma resposta coerente aborda diretamente a questão com conexões claras entre frases e parágrafos, usando transições apropriadas e uma sequência lógica de ideias. Pontuações mais altas significam melhor coerência.

Fluency

O avaliador de fluência mede a eficácia e a clareza da comunicação escrita. Essa medida se concentra na precisão gramatical, intervalo de vocabulário, complexidade da frase, coerência e legibilidade geral. Ele avalia a facilidade com que as ideias são transmitidas e com que facilidade o leitor pode entender o texto.

Configurar e executar avaliadores

Os avaliadores de uso geral avaliam a qualidade de gravação do texto gerado por IA independentemente de casos de uso específicos. Use a coerência quando o fluxo lógico e a questão da argumentação , por exemplo, em resposta a perguntas ou resumo. Use a fluência quando a qualidade gramatical e a legibilidade forem importantes independentemente do conteúdo. Execute ambos os avaliadores juntos para obter uma imagem completa da qualidade da escrita.

Para avaliadores llm-as-judge, você pode usar Azure modelos de raciocínio OpenAI ou OpenAI e não raciocínio para o juiz llm. Para obter o melhor equilíbrio de desempenho e custo, use gpt-5-mini.

Examples:

Evaluator O que ele mede Required inputs Required parameters
builtin.coherence Fluxo lógico e organização de ideias query, response deployment_name
builtin.fluency Precisão gramatical e legibilidade response deployment_name

Example input

Seu conjunto de dados de teste deve conter os campos referenciados em seus mapeamentos de dados:

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

Configuration example

Sintaxe de mapeamento de dados:

  • {{item.field_name}} faz referência a campos do conjunto de dados de teste (por exemplo, {{item.query}}).
  • {{sample.output_text}} referencia o texto de resposta gerado ou recuperado durante a avaliação. Use isso ao avaliar com um destino de modelo ou um destino de agente.
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

Consulte Executar avaliações do SDK para obter detalhes sobre como executar avaliações e configurar fontes de dados.

Example output

Esses avaliadores retornam pontuações em uma escala de 1 a 5 Likert (1 = muito ruim, 5 = excelente). O limite de aprovação padrão é 3. Pontuações acima ou acima do limite são consideradas passagens. Campos de saída de chave:

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

Note

Esses avaliadores usam a pontuação LLM como juiz e incorrem em custos de inferência de modelo por chamada de avaliação. A confiabilidade de pontuação pode variar para respostas muito curtas (em aproximadamente 20 tokens). Atualmente, ambos os avaliadores dão suporte a respostas em inglês.