Partilhar via


Definir "qualidade": Conjuntos de avaliação

Este artigo descreve conjuntos de avaliação e como eles ajudam a garantir a qualidade do seu aplicativo.

O que é um conjunto de avaliação?

Para medir a qualidade, a Databricks recomenda a criação de um conjunto de avaliação com rótulos humanos. Um conjunto de avaliação é um conjunto representativo e com curadoria de perguntas, juntamente com respostas fundamentadas e (opcionalmente) os documentos comprovativos corretos que devem ser recuperados. O contributo humano é crucial neste processo, uma vez que garante que o conjunto de avaliações reflete com exatidão as expectativas e os requisitos dos utilizadores finais.

A curadoria de etiquetas humanas pode ser um processo demorado. Você pode começar criando um conjunto de avaliação que inclui apenas perguntas e adicionar as respostas básicas ao longo do tempo. Mosaic AI Agent Evaluation pode avaliar a qualidade da sua cadeia sem a verdade fundamental, embora, se a verdade fundamental estiver disponível, ele calcule métricas adicionais, como a precisão da resposta.

Elementos de um bom conjunto de avaliação

Um bom conjunto de avaliação tem as seguintes características:

  • Representante: Reflete com precisão a variedade de solicitações que o aplicativo encontrará na produção.
  • Desafiante: O conjunto deve incluir casos difíceis e diversos para testar efetivamente as capacidades do modelo. Idealmente, inclui exemplos adversariais, como perguntas que tentam injeção de prompt ou perguntas que tentam gerar respostas inadequadas do LLM.
  • Continuamente atualizado: O conjunto deve ser atualizado periodicamente para refletir como o aplicativo é usado na produção, a natureza variável dos dados indexados e quaisquer alterações nos requisitos do aplicativo.

A Databricks recomenda pelo menos 30 perguntas no seu conjunto de avaliação e, idealmente, 100 a 200. Os melhores conjuntos de avaliação crescerão ao longo do tempo para conter 1.000 perguntas.

Conjuntos de treinamento, teste e validação

Para evitar sobreajustes, a Databricks recomenda dividir seu conjunto de avaliação em conjuntos de treinamento, teste e validação:

  • Conjunto de treinamento: ~70% das perguntas. Usado para uma avaliação inicial de cada experimento para identificar os de maior potencial.
  • Conjunto de testes: ~20% das perguntas. Usado para avaliar os experimentos de melhor desempenho do conjunto de treinamento.
  • Conjunto de validação: ~10% das perguntas. Usado para uma verificação de validação final antes de implantar um experimento na produção.

O Mosaic AI Agent Evaluation ajuda você a criar um conjunto de avaliações, fornecendo uma interface de bate-papo baseada na Web para que as partes interessadas forneçam feedback sobre os resultados do aplicativo. Os resultados da cadeia e o feedback das partes interessadas são salvos em Tabelas Delta, que podem ser selecionadas em um conjunto de avaliação. Saiba mais sobre como avaliar e melhorar iterativamente a qualidade da sua app em 3. Iterar na qualidade dos agentes de IA.