Avaliar a qualidade da recuperação da busca vetorial

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar prévias do Azure Databricks.

O Mosaic AI Vector Search fornece uma avaliação incorporada de qualidade de recuperação que mede e compara a relevância de diferentes estratégias de pesquisa em seus dados. Você pode gerar automaticamente consultas de avaliação de seus documentos, executar várias estratégias de recuperação e gerar um relatório detalhado.

Requisitos

Um índice de pesquisa de vetor do Delta Sync gerenciado. Consulte Criar pontos de extremidade e índices de pesquisa de vetor.

Permissões

O trabalho de avaliação e o painel de resultados herdam as permissões do Unity Catalog do índice de busca vetorial. Qualquer usuário com acesso de consulta ao índice pode iniciar uma execução de avaliação e exibir o painel de resultados. O usuário que inicia a execução de avaliação é o proprietário do trabalho, não o proprietário do índice.

Como funciona a avaliação da qualidade da recuperação de pesquisa vetorial

A avaliação executa um pipeline de quatro estágios em seus dados:

Gerar consultas: o sistema amostra documentos de sua tabela de origem e usa uma LLM para gerar consultas de pesquisa realistas. Ele gera uma combinação de consultas de linguagem natural e consultas de palavra-chave.
Pesquise através das estratégias: cada consulta gerada é executada em seu índice usando várias estratégias de recuperação, incluindo ANN, Híbrida e Texto Completo. Cada estratégia também é avaliada com e sem o reranker. Essa abordagem compara estratégias lado a lado no mesmo conjunto de consultas. Para obter mais informações sobre cada estratégia de recuperação, consulte algoritmos de recuperação.
Relevância da pontuação: um juiz LLM avalia cada consulta e par de documentos recuperados em uma escala de relevância de 4 pontos.
Calcular métricas e analisar: o sistema computa métricas de qualidade de recuperação com intervalos de confiança. Os resultados são persistentes para que você possa exibi-los mais tarde ou comparar entre execuções de avaliação.

Iniciar um processo de avaliação da qualidade de recuperação

Para iniciar o processo, clique em Avaliar a qualidade da pesquisa na página de índice de pesquisa de vetor. Nenhuma configuração é necessária, pois os valores padrão são preenchidos previamente com base nos metadados do índice.

Quando a execução for concluída, clique em Exibir resultados para exibir o painel de resultados. Para obter uma visão geral do painel, consulte o painel Resultados.

Exibir link de resultados.

Para iniciar uma nova avaliação a qualquer momento, clique em Iniciar nova avaliação.

Painel de resultados

O painel apresenta os resultados das execuções de avaliação. Use o menu suspenso Selecionar Executar para escolher a execução a ser exibida.

Painel de resultados de exemplo.

Na parte superior do painel estão três indicadores de resumo: a melhor pontuação de DCG@10 em todos os tipos de consulta, o tipo de consulta recomendado que a alcançou e o número de consultas avaliadas.

Veja por que o Databricks recomenda DCG@10.

Abaixo dos indicadores de resumo, o painel mostra um gráfico de barras que compara as pontuações DCG@10 para cada tipo de consulta, com e sem a utilização do reclassificador. Ao lado do gráfico de barras estão duas tabelas mostrando DCG@10 e a relevância média para cada tipo de consulta, com e sem o reclassificador.

A seguir, um gráfico de linhas mostrando como a relevância média muda entre as posições de resultado para cada tipo de consulta.

O painel também apresenta as consultas de desempenho mais alto e mais baixo por pontuação média de relevância, uma tabela comparando o desempenho de base e de reclassificador para cada tipo de consulta, uma tabela de consultas com falha (consultas em que o resultado top-1 foi pontuado 0 (irrelevante)) e um gráfico de linhas que mostra uma métrica selecionada em execuções de avaliação ao longo do tempo, por métrica de consulta.

Pontuação de relevância

A avaliação de qualidade de recuperação usa um LLM como juiz para pontuar cada par de consulta e documento recuperado em uma escala de relevância graduada de 4 pontos.

Pontuação	Etiqueta	Descrição	Exemplo
3	Altamente relevante	O documento responde diretamente à consulta ou fornece exatamente as informações procuradas	Consulta: "como calcular a área de um retângulo?" Documento explica a fórmula de comprimento × largura
2	Relevante	O documento está relacionado e fornece informações úteis, mas pode não responder totalmente à consulta	Consulta: "onde está o número de roteamento em um cheque?" Documento diz "impresso no fundo de um cheque" (parcialmente concluído)
1	Parcialmente relevante	O documento menciona o tópico, mas não fornece informações úteis para a consulta	Consulta: "como calcular a área de um retângulo?" Documento discute área de retângulos somente em termos gerais
0	Não relevante	O documento não está relacionado à consulta ou o idioma do documento não corresponde ao idioma da consulta	Consulta em inglês Documento responde corretamente, mas em francês

Em comparação com uma escala binária relevante/não relevante, a escala classificada captura distinções importantes. Por exemplo, um documento que responde diretamente a uma pergunta (pontuação 3) é significativamente diferente daquele que simplesmente toca no tópico (pontuação 1). Essa granularidade flui para as métricas, particularmente o DCG, que pondera mais fortemente os resultados de maior qualidade.

Todas as métricas incluem 95% intervalos de confiança computados entre valores por consulta, para que você possa avaliar se as diferenças entre estratégias são estatisticamente significativas.

Métricas de recuperação

Na parte inferior do painel, você pode exibir uma métrica selecionada ao longo do tempo. Selecione a métrica a ser exibida no menu suspenso Selecionar Métrica .

Exibir a métrica ao longo do tempo.

Esta seção descreve as métricas disponíveis.

DCG@k — Ganho cumulativo com desconto

DCG@10 captura o quão relevantes são os resultados e onde eles aparecem na classificação, usando a escala de relevância de 0 a 3 completa. O Databricks recomenda usar DCG@10 como a métrica primária para avaliar a qualidade geral da recuperação.

O que ele mede: A utilidade total dos top 10 resultados, ponderada por posição. Os resultados mais bem classificados contribuem com mais do que os mais baixos.
Como funciona: a pontuação de relevância de cada resultado é ponderada por um desconto logarítmico com base em sua posição. O primeiro resultado contribui com toda a sua relevância, enquanto os resultados de classificação inferior contribuem progressivamente menos.
Intervalo: 0 até o máximo teórico mostrado na tabela a seguir. Mais alto é melhor.

Valores máximos teóricos de DCG, se cada resultado receber 3:

k	DCG máximo teórico
1	3.00
3	6.39
5	8.85
10	13.63
20	21.12

Para colocar esses números em perspectiva: se todos os 10 resultados tiverem uma relevância de 2 (em uma escala de 0 a 3), DCG@10 será 13,6. Nesse cenário, um ganho de DCG@10 de 1 ponto é uma melhoria muito significativa (+7% relativa). Você pode pensar nisso como aproximadamente um resultado na página tornando-se visivelmente melhor, com mais peso para o topo.

NDCG@k – Ganho Acumulado Descontado Normalizado

O que ele mede: quão bem os resultados são ordenados em relação à melhor ordenação possível. O NDCG normaliza o DCG dividindo-o pelo DCG ideal (o DCG se os resultados foram classificados em ordem decrescente de relevância).
Intervalo: 0 a 1. Uma pontuação de 1,0 significa que os resultados estão em perfeita ordem.
Quando usar: quando você quiser saber se o sistema está classificando os resultados corretamente, independentemente do número total de documentos relevantes disponíveis. Veja por que DCG@10 é a métrica primária recomendada para uma comparação detalhada.

Recall@k

O que ele mede: a fração de documentos relevantes conhecidos que aparecem nos resultados top-k.
Intervalo: 0 a 1. Uma pontuação de 1,0 significa que todos os documentos relevantes conhecidos foram recuperados.
Quando usar: quando a integridade é importante, como em aplicativos RAG em que a falta de um documento relevante significa que o LLM gera uma resposta incompleta.

Precision@k

O que ele mede: a fração de resultados top-k relevantes (pontuação >de relevância = 2).
Intervalo: 0 a 1. Uma pontuação de 1,0 significa que cada resultado na parte superior k é relevante.
Quando usar: quando a qualidade do resultado importa mais do que a integridade, como em interfaces de pesquisa em que resultados irrelevantes podem afetar negativamente a confiança do usuário.

Pontuação média de relevância

O que ele mede: a pontuação média de relevância avaliada por LLM em todos os pares de consulta e resultado.
Intervalo: 0 a 3. Mais alto é melhor.
Quando usar: como um instantâneo de qualidade rápida.

Distribuição de relevância

O que ele mede: o percentual de resultados em cada categoria de relevância:
- %Altamente Relevante: resultados com pontuação de 3 (respostas diretas).
- Relevante+ %: Resultados com pontuação de 2 ou mais (útil).
- % Não Relevante: Resultados pontuados com 0 ou 1 (não útil).
Quando usar: para entender a forma de distribuição de qualidade. Duas estratégias podem ter a mesma pontuação média, mas distribuições muito diferentes. Por exemplo, uma distribuição bimodal (muitos 3s e muitos 0s) pode sugerir que um padrão de consulta não está sendo bem recuperado e precisa de atenção.

MRR (Classificação Recíproca Média)

O que ele mede: a rapidez com que os usuários encontram o primeiro resultado relevante. MRR é a média de 1/classificação em todas as consultas, onde a classificação é a posição do primeiro resultado relevante (pontuação >= 2).
Intervalo: 0 a 1. Uma pontuação de 1,0 significa que o primeiro resultado é sempre relevante.
Quando usar: quando o resultado superior é mais importante, como em sistemas de perguntas e respostas.

MAP@k – Precisão Média

O que ele mede: a qualidade da classificação em todos os resultados relevantes, não apenas no primeiro. O MAP calcula a precisão na posição de cada resultado relevante e, em seguida, as médias.
Intervalo: 0 a 1. Valores mais altos indicam que documentos relevantes são consistentemente classificados perto da parte superior.
Quando usar: quando você precisa de um único número que capture a qualidade geral da classificação em todos os documentos relevantes.

Por que DCG@10 é a métrica primária recomendada

DCG@10 fornece a imagem mais completa da qualidade de recuperação para a maioria dos aplicativos:

Relevância classificada captura nuances: as métricas binárias como a precisão tratam todos os documentos relevantes igualmente. Um documento que responde perfeitamente à consulta (pontuação 3) conta o mesmo que aquele que menciona vagamente o tópico (pontuação 1). O DCG usa a escala de relevância total de 0 a 3, portanto, um resultado pontuado 3 contribui significativamente mais do que um resultado pontuado 1.
A posição é importante: os usuários primeiro analisam os principais resultados. O DCG aplica um desconto logarítmico, de modo que os resultados na posição 1 contam muito mais do que os resultados na posição 10. O primeiro resultado contribui com sua pontuação de relevância total, enquanto a contribuição do 10º resultado é dividida pelo log₂(11) ≈ 3,46.
Utilidade absoluta revela o que as métricas normalizadas perdem: Considere o exemplo mostrado na tabela a seguir. Ambos os conjuntos de resultados alcançam um NDCG perfeito de 1,00 porque cada um tem resultados em ordem decrescente ideal. No entanto, o Conjunto de Resultados B fornece quase o dobro do valor total (DCG 8.02 vs 4.26) porque cada resultado é útil. O NDCG não pode distinguir entre "classificação perfeita de 2 bons resultados entre três irrelevantes" e "classificação perfeita de 5 bons resultados". O DCG responde à pergunta: "Quantas informações úteis o usuário realmente conseguiu?"

Para obter mais informações sobre DCG e NDCG, consulte o ganho cumulativo com desconto.

Resultados	Posição 1	Posição 2	Posição 3	Posição 4	Posição 5	NDCG@5	DCG@5
Conjunto de resultados A	3	2	0	0	0	1,00	4.26
Conjunto de resultados B	3	3	3	2	2	1,00	8.02

Nenhuma métrica única conta toda a história. Use o conjunto de métricas completo para uma imagem completa e selecione a métrica que melhor corresponde aos requisitos de qualidade do aplicativo.

Cenários comuns

A tabela a seguir explica os padrões comuns de resultados de avaliação, o que eles significam e como resolvê-los:

Padrão	O que significa	Ação sugerida
Híbrido significativamente melhor que ANN	As consultas se beneficiam da correspondência de palavras-chave.	Use pesquisa híbrida em produção.
ANN aproximadamente igual ao híbrido	Palavras-chave não estão adicionando valor para seus dados.	Qualquer estratégia funciona. ANN é mais simples.
Texto completo significativamente melhor que ANN	As incorporações podem não capturar bem sua área de especialização.	Considere ajustar seu modelo de inserção ou usar a pesquisa de texto completo.
O reclassificador melhora significativamente as métricas	O codificador cruzado fornece um aumento significativo de qualidade.	Habilite o reranker se o limite de latência permitir.
Intervalos de confiança amplos	Não há consultas suficientes para comparação confiável.	Aumente o número de consultas de avaliação.
Todas as estratégias pontuam baixo	Problemas de qualidade ou relevância de dados.	Consulte o guia de qualidade de recuperação de pesquisa do Vector para obter um guia passo a passo para melhorar a qualidade da recuperação.

Comentários

Esta página foi útil?

Last updated on 2026-04-19