Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Use avaliadores de coerência e fluência para medir a qualidade de escrita do texto gerado por IA, independentemente da correção factual. O texto gerado por IA pode não ter fluxo lógico ou qualidade gramatical além da correção mínima – esses avaliadores exibem essas lacunas sistematicamente.
Coherence
O avaliador de coerência mede a apresentação lógica e ordenada de ideias em uma resposta, o que permite que o leitor siga e entenda facilmente a formação de pensamento do escritor. Uma resposta coerente aborda diretamente a questão com conexões claras entre frases e parágrafos, usando transições apropriadas e uma sequência lógica de ideias. Pontuações mais altas significam melhor coerência.
Fluency
O avaliador de fluência mede a eficácia e a clareza da comunicação escrita. Essa medida se concentra na precisão gramatical, intervalo de vocabulário, complexidade da frase, coerência e legibilidade geral. Ele avalia a facilidade com que as ideias são transmitidas e com que facilidade o leitor pode entender o texto.
Configurar e executar avaliadores
Os avaliadores de uso geral avaliam a qualidade de gravação do texto gerado por IA independentemente de casos de uso específicos. Use a coerência quando o fluxo lógico e a questão da argumentação , por exemplo, em resposta a perguntas ou resumo. Use a fluência quando a qualidade gramatical e a legibilidade forem importantes independentemente do conteúdo. Execute ambos os avaliadores juntos para obter uma imagem completa da qualidade da escrita.
Para avaliadores llm-as-judge, você pode usar Azure modelos de raciocínio OpenAI ou OpenAI e não raciocínio para o juiz llm. Para obter o melhor equilíbrio de desempenho e custo, use gpt-5-mini.
Examples:
| Evaluator | O que ele mede | Required inputs | Required parameters |
|---|---|---|---|
builtin.coherence |
Fluxo lógico e organização de ideias |
query, response |
deployment_name |
builtin.fluency |
Precisão gramatical e legibilidade | response |
deployment_name |
Example input
Seu conjunto de dados de teste deve conter os campos referenciados em seus mapeamentos de dados:
{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}
Configuration example
Sintaxe de mapeamento de dados:
-
{{item.field_name}}faz referência a campos do conjunto de dados de teste (por exemplo,{{item.query}}). -
{{sample.output_text}}referencia o texto de resposta gerado ou recuperado durante a avaliação. Use isso ao avaliar com um destino de modelo ou um destino de agente.
testing_criteria = [
{
"type": "azure_ai_evaluator",
"name": "coherence",
"evaluator_name": "builtin.coherence",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
},
{
"type": "azure_ai_evaluator",
"name": "fluency",
"evaluator_name": "builtin.fluency",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"response": "{{item.response}}"},
},
]
Consulte Executar avaliações do SDK para obter detalhes sobre como executar avaliações e configurar fontes de dados.
Example output
Esses avaliadores retornam pontuações em uma escala de 1 a 5 Likert (1 = muito ruim, 5 = excelente). O limite de aprovação padrão é 3. Pontuações acima ou acima do limite são consideradas passagens. Campos de saída de chave:
{
"type": "azure_ai_evaluator",
"name": "Coherence",
"metric": "coherence",
"score": 4,
"label": "pass",
"reason": "The response directly addresses the question with clear, logical connections between ideas.",
"threshold": 3,
"passed": true
}
Note
Esses avaliadores usam a pontuação LLM como juiz e incorrem em custos de inferência de modelo por chamada de avaliação. A confiabilidade de pontuação pode variar para respostas muito curtas (em aproximadamente 20 tokens). Atualmente, ambos os avaliadores dão suporte a respostas em inglês.