Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Use avaliadores de coerência e fluência para medir a qualidade de escrita do texto gerado por IA, independentemente da correção factual. O texto gerado por IA pode não ter fluxo lógico ou qualidade gramatical além da correção mínima – esses avaliadores exibem essas lacunas sistematicamente.
Coerência
O avaliador de coerência mede a apresentação lógica e ordenada de ideias em uma resposta, o que permite que o leitor siga e entenda facilmente a formação de pensamento do escritor. Uma resposta coerente aborda diretamente a questão com conexões claras entre frases e parágrafos, usando transições apropriadas e uma sequência lógica de ideias. Pontuações mais altas significam melhor coerência.
Fluência
O avaliador de fluência mede a eficácia e a clareza da comunicação escrita. Essa medida se concentra na precisão gramatical, intervalo de vocabulário, complexidade da frase, coerência e legibilidade geral. Ele avalia a facilidade com que as ideias são transmitidas e com que facilidade o leitor pode entender o texto.
Configurar e executar avaliadores
Os avaliadores de uso geral avaliam a qualidade de gravação do texto gerado por IA independentemente de casos de uso específicos. Use a coerência quando o fluxo lógico e a questão da argumentação , por exemplo, em resposta a perguntas ou resumo. Use a fluência quando a qualidade gramatical e a legibilidade forem importantes independentemente do conteúdo. Execute ambos os avaliadores juntos para obter uma imagem completa da qualidade da escrita.
Para avaliadores LLM como juiz, você pode usar modelos de raciocínio e não raciocínio do Azure OpenAI ou OpenAI para o juiz llm. Para obter o melhor equilíbrio de desempenho e custo, use gpt-5-mini.
Exemplos:
| Avaliador | O que é medido | Entradas necessárias | Parâmetros necessários |
|---|---|---|---|
builtin.coherence |
Fluxo lógico e organização de ideias |
query, response |
deployment_name |
builtin.fluency |
Precisão gramatical e legibilidade | response |
deployment_name |
Exemplo de entrada
Seu conjunto de dados de teste deve conter os campos referenciados em seus mapeamentos de dados:
{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}
Exemplo de configuração
Sintaxe de mapeamento de dados:
-
{{item.field_name}}faz referência a campos do conjunto de dados de teste (por exemplo,{{item.query}}). -
{{sample.output_text}}referencia o texto de resposta gerado ou recuperado durante a avaliação. Use isso ao avaliar com um destino de modelo ou um destino de agente.
testing_criteria = [
{
"type": "azure_ai_evaluator",
"name": "coherence",
"evaluator_name": "builtin.coherence",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
},
{
"type": "azure_ai_evaluator",
"name": "fluency",
"evaluator_name": "builtin.fluency",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"response": "{{item.response}}"},
},
]
Consulte Executar avaliações do SDK para obter detalhes sobre como executar avaliações e configurar fontes de dados.
Saída de exemplo
Esses avaliadores retornam pontuações em uma escala de 1 a 5 Likert (1 = muito ruim, 5 = excelente). O limite de aprovação padrão é 3. Pontuações acima ou acima do limite são consideradas passagens. Campos de saída de chave:
{
"type": "azure_ai_evaluator",
"name": "Coherence",
"metric": "coherence",
"score": 4,
"label": "pass",
"reason": "The response directly addresses the question with clear, logical connections between ideas.",
"threshold": 3,
"passed": true
}
Observação
Esses avaliadores usam a pontuação LLM como juiz e incorrem em custos de inferência de modelo por chamada de avaliação. A confiabilidade de pontuação pode variar para respostas muito curtas (em aproximadamente 20 tokens). Atualmente, ambos os avaliadores dão suporte a respostas em inglês.