Testar e monitorizar um Espaço Génio

Teste um Genie Space com perguntas reais, reveja o SQL gerado e as visualizações, edite as respostas quando o Genie se enganar e monitorize a utilização do espaço e os comentários dos utilizadores para manter o espaço correto à medida que os dados e as perguntas evoluem. Use benchmarks para avaliar a precisão da resposta em grande escala.

Testa o teu Genie Space

A maioria das interações do usuário ocorre na janela de chat. A melhor maneira de saber se o seu espaço está funcionando como você quer é testá-lo com perguntas realistas que você espera que os usuários corporativos façam.

Nova janela de bate-papo, conforme descrito no texto a seguir.

Exemplos de perguntas configuradas nas configurações de espaço aparecem na janela de chat. O Genie também pode gerar exemplos de perguntas com base no contexto do espaço para ajudar os usuários a começar a explorar os dados. Os usuários podem clicar em uma pergunta de exemplo ou inserir suas próprias perguntas no campo de texto na parte inferior da tela.

As respostas aparecem acima do campo de texto. Depois que um usuário insere uma pergunta, ela é salva no histórico de bate-papo.

Para iniciar uma nova conversa:

Clique em Nova conversa para iniciar uma nova conversa. Clique no para abrir uma conversa anterior.
Digite a sua pergunta no campo de texto Faça a sua pergunta....

Revisão de respostas

As respostas são normalmente fornecidas como respostas em linguagem natural às perguntas e uma tabela que mostra o conjunto de resultados relevante. Quando o Genie deteta que uma visualização pode melhorar a clareza da resposta, ele também retorna uma visualização. A estrutura precisa da resposta varia de acordo com a pergunta. Se uma consulta SQL foi gerada para responder à pergunta, ela é incluída na resposta.

Um exemplo de resposta com visualização, feedback e outras opções é mostrado.

Note

Como outros grandes modelos de linguagem (LLMs), Genie pode exibir comportamentos não determinísticos. Isso significa que você pode ocasionalmente receber saídas diferentes ao enviar o mesmo prompt várias vezes. Fornecer consultas SQL de exemplo com as quais o Genie pode aprender pode ajudar a tornar o Genie mais consistente. Consulte Adicionar exemplos de consultas e funções SQL.

Feedback sobre a resposta

Cada resposta solicita que o usuário responda Está correto?. Os usuários podem responder de uma das seguintes maneiras:

Sim: Confirma que a resposta parece correta.
Corrija-o: Sinaliza a resposta como incorreta. Os usuários podem selecionar entre problemas comuns ou inserir sua própria explicação. Podem, então:
- Clique em Enviar e tente novamente gerar novamente a resposta usando os comentários fornecidos.
- Clique em Enviar para enviar o feedback sem regenerar a resposta.
Solicitar revisão: Sinaliza a resposta para revisão manual. Os usuários podem adicionar um comentário opcional para fornecer contexto adicional.

Como editor, você pode visualizar comentários e respostas sinalizadas na interface do Genie. O comportamento do seu Genie Space não muda apenas com base no feedback dos utilizadores. Você deve usar o feedback para identificar oportunidades de melhoria ou responder diretamente às perguntas dos usuários. A Databricks recomenda incentivar os usuários a fornecer feedback sobre o espaço usando esse mecanismo.

Os utilizadores empresariais podem ver atualizações das perguntas que marcaram para revisão na sua página Monitor. Utilizadores com pelo menos a permissão PODER GERIR do Espaço Genie podem rever a troca específica que foi feita, comentar sobre o pedido e confirmar ou corrigir a resposta. Eles podem acessar comentários e revisar solicitações na página de monitoramento. De seguida, poderá usar esse feedback para aprimorar as respostas e aperfeiçoar o seu espaço. Veja Monitorizar o espaço.

Outras ações de resposta

Para respostas que incluem SQL gerado, opções adicionais permitem que você interaja com os dados retornados.

Copiar CSV: Os utilizadores do espaço podem transferir até 1 GB de dados de resultados, aproximadamente, em formato CSV. O tamanho final do download do arquivo pode ser um pouco maior ou menor que 1GB, pois o limite de 1GB é aplicado a uma etapa anterior ao download do arquivo final. Para baixar resultados, clique no ícone de download na resposta.
Mostrar código: Clique em Mostrar código para visualizar a consulta gerada. Isso pode ser útil para solucionar problemas de respostas não confiáveis. Consulte Editar e salvar consultas.
O Aceda às seguintes ações:
- Copiar CSV: copie o CSV da resposta para a área de transferência.
- Adicionar como instrução: Para interações que possam ser úteis para ensinar o Genie a responder a perguntas semelhantes, clique em Adicionar como instrução. Isso abre a interface do usuário para salvar consultas SQL de exemplo, preenchidas com a pergunta e SQL geradas. Você pode deixar o exemplo como escrito ou editar e salvar para fazer alterações. Consulte Adicionar exemplos de consultas e funções SQL.
- Adicionar como referência: Adicione a pergunta como uma pergunta de referência. Consulte Benchmarks.
- Atualizar dados: atualize os dados executando a consulta gerada anteriormente.
- Regenere a resposta: envie a pergunta novamente e peça ao Genie que regenere a resposta.

Editar e salvar consultas

As consultas SQL do Genie podem ser revisadas quanto à precisão e editadas conforme necessário. Os autores do Genie Space normalmente conhecem o domínio e os dados que lhes permitem reconhecer quando o Genie está a gerar uma resposta incorreta. Muitas vezes, os erros podem ser corrigidos com uma pequena quantidade de ajuste manual para a consulta SQL gerada. Clique em Mostrar código gerado para inspecionar a consulta e exibir o SQL gerado para qualquer resposta.

Podes editar a instrução SQL gerada para a corrigir se tiveres privilégios CAN EDIT ou superiores no Genie Space. Depois de fazer as correções, execute a consulta. Então, você pode salvá-lo como uma instrução para ensinar Genie como responder no futuro. Para salvar a consulta editada, clique em Adicionar como instrução.

Monitorize o espaço

Um Genie Space pode ser visto como uma ferramenta de colaboração a longo prazo entre equipas de dados e utilizadores empresariais. Ele acumula conhecimento ao longo do tempo, em vez de servir como uma implantação única. À medida que os usuários fazem novas perguntas, você pode refinar o espaço para melhorar a cobertura e a precisão.

Utilize a aba Monitor para rever perguntas e respostas individuais, ver o feedback dos utilizadores e identificar respostas sinalizadas para revisão.

Um exemplo de guia de monitoramento mostrando os recursos descritos.

A aba "monitor" mostra todas as perguntas e respostas que foram feitas no espaço. Você pode filtrar perguntas por tempo, classificação, usuário ou status. Ao monitorizar o espaço, os utilizadores com permissões CAN MANAGE podem compreender proativamente as questões levantadas pelos utilizadores empresariais e como o Genie Space respondeu.

Identificar as perguntas com que o Génio tem dificuldades pode ajudar-te a atualizar o Espaço do Génio com instruções específicas para melhorar as suas respostas. Clique em uma pergunta para abrir o texto da pergunta e da resposta e visualizar o tópico de bate-papo completo.

Revise a utilização e as tendências

Use a secção de resumo semanal do separador Monitor para rever o volume semanal de mensagens, utilizadores ativos e feedback positivo/negativo. Para identificar as principais tendências de utilização e problemas comuns, clique em Analisar o uso do espaço. Isto lança o Genie Code, que analisa os dados de monitorização do seu espaço e resume padrões de utilização e áreas a melhorar. As respostas do Código Génio incluem citações que ligam às conversas relevantes no seu espaço. Clique numa citação para abrir a conversa diretamente no tópico Código Genie.

A secção de resumo semanal do separador de Monitorização mostra mensagens semanais, utilizadores e feedback.

Revisão da qualidade das conversas

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Ver Gerir as pré-visualizações de Azure Databricks.

Quando uma conversa é definida como Revisável pelos gestores de espaço, os utilizadores com a permissão CAN MANAGE podem abrir a conversa a partir do separador de monitorização para rever a troca completa. Isto permite-lhe avaliar a qualidade da resposta do Genie, responder ao feedback dos utilizadores e identificar áreas onde instruções adicionais ou exemplos de consultas poderiam melhorar a precisão. Para conversas definidas como Privadas, os gestores de espaço conseguem ver os prompts do utilizador no separador de monitorização, mas não conseguem ver a conversa completa ou os resultados. Para mais informações, consulte Partilhar uma conversa.

Note

As conversas criadas antes da ativação da Beta mantêm-se Privadas. Conversas criadas depois de ativado passam por padrão a ser Revisável pelos gestores de espaço.

Benchmarks

Os benchmarks permitem que você crie um conjunto de perguntas de teste que você pode executar para avaliar a precisão geral da resposta do Genie. Um conjunto bem desenhado de benchmarks que cobrem as perguntas mais frequentes dos utilizadores ajuda a avaliar a precisão do seu Genie Space à medida que o vai refinando. Cada Genie Space pode conter até 500 perguntas de referência.

As perguntas de avaliação funcionam como novas conversas. Eles não transmitem o mesmo contexto que uma conversa organizada do Genie. Cada pergunta é processada como uma nova consulta, usando as instruções definidas no espaço, incluindo qualquer exemplo fornecido de funções SQL e SQL.

As perguntas de benchmark suportam dois modos:

Modo chat: O modo padrão. O Genie avalia a precisão comparando os seus resultados gerados por SQL com uma resposta SQL fornecida.
Modo Agente: Executa perguntas de benchmark usando o mesmo raciocínio em vários passos do modo Agente do Genie. Um juiz de LLM avalia as respostas. Pode fornecer uma nota de avaliação opcional para orientar a avaliação.

Exemplos de benchmarks com precisão reportada em nove perguntas.

Adicionar perguntas de referência

As perguntas de referência devem refletir diferentes maneiras de formular as perguntas comuns que seus usuários fazem. Você pode usá-los para verificar a resposta do Genie a variações no fraseado das perguntas ou diferentes formatos de perguntas.

Ao criar uma pergunta de referência, você pode, opcionalmente, incluir uma consulta SQL cujo conjunto de resultados é a resposta correta. Durante as execuções de benchmark, a precisão é avaliada comparando o conjunto de resultados da sua consulta SQL com o gerado pelo Genie. Você também pode usar as funções SQL do Unity Catalog como respostas padrão de referência para benchmarks.

Para adicionar uma pergunta de referência:

Perto do topo do Espaço Genie, clique em Benchmarks.
Clique em Adicionar benchmark.
No campo Pergunta, insira uma pergunta de referência para testar.
Selecione um modo: Chat ou Agente.
- Modo chat: O Genie avalia a precisão comparando os seus resultados com uma resposta SQL que fornece.
- Modo agente: O Génio usa raciocínio em vários passos para responder à pergunta. Um juiz de LLM avalia as respostas.
(Só modo chat) Fornece uma consulta SQL que responda à questão. Pode escrever a sua própria consulta escrevendo na caixa de respostas SQL , incluindo as funções SQL do Unity Catalog. Como alternativa, clique em Gerar SQL para que o Genie escreva a consulta SQL para você. Use uma instrução SQL que responda com precisão à pergunta inserida.

Note

Esta etapa é recomendada. Somente as perguntas que incluem este exemplo de instrução SQL podem ser avaliadas automaticamente quanto à precisão. Quaisquer perguntas que não incluam uma Resposta SQL requerem revisão manual para serem pontuadas. Se você usar o botão Gerar SQL , revise a instrução para ter certeza de que ela está respondendo com precisão à pergunta.
(Modo agente apenas, opcional) No campo da nota de avaliação , introduza orientações sobre a resposta correta ou o conteúdo esperado. O Genie passa a nota de avaliação ao juiz LLM. A nota pode referenciar o conteúdo esperado em relatórios de texto que o modo Agente gera.
(Modo de chat apenas, opcional) Clique em Executar para executar a sua consulta e visualizar os resultados.
Quando terminar de editar, clique em Adicionar benchmark.
Para atualizar uma pergunta depois de salvar, clique no para abrir a caixa de diálogo Atualizar pergunta.

Use critérios de referência para testar perguntas alternativas

Ao avaliar a precisão do seu Espaço Genie, é importante estruturar os testes para refletir cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. O Databricks recomenda adicionar vários sintagmas da mesma pergunta e usar o mesmo exemplo SQL em seus testes de benchmark para avaliar totalmente a precisão. A maioria dos Espaços Genie devem incluir entre duas e quatro versões diferentes da mesma questão.

Realizar perguntas de benchmark

Utilizadores com pelo menos permissões CAN EDIT num Genie Space podem executar uma avaliação de benchmark a qualquer momento. Você pode executar todas as perguntas de referência ou selecionar um subconjunto de perguntas para testar.

Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna resultados. O SQL gerado e os resultados são então comparados com a Resposta SQL definida na pergunta de benchmark.

Para executar todas as perguntas de referência:

Perto do topo do Espaço Genie, clique em Benchmarks.
Clique em Executar benchmarks para iniciar a execução do teste.

Para executar um subconjunto de perguntas de referência:

Perto do topo do Espaço Genie, clique em Benchmarks.
Marque as caixas de seleção ao lado das perguntas que deseja testar.
Clique em Executar seleção para iniciar execução do teste nas perguntas selecionadas.

Você também pode selecionar um subconjunto de perguntas de um resultado de benchmark anterior e executar novamente essas perguntas específicas para testar melhorias.

Os benchmarks continuam a ser executados quando você navega para fora da página. Você pode verificar os resultados na guia Avaliação quando a execução estiver concluída.

Interpretar classificações

O modo benchmark determina como o Genie calcula as classificações.

Classificações do modo chat

Os seguintes critérios determinam como o Genie avalia as respostas do modo Chat:

Condition	Rating
O Genie gera SQL que corresponde exatamente à resposta SQL fornecida	Boa
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela Resposta SQL	Boa
O Genie gera um conjunto de resultados com os mesmos dados da Resposta SQL , mas classificados de forma diferente	Boa
O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos da Resposta SQL	Boa
O Genie gera SQL que produz um conjunto de resultados vazio ou retorna um erro	Ruim
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pela Resposta SQL	Ruim
O Genie gera um resultado de célula única que é diferente do resultado de célula única produzido pela Resposta SQL	Ruim

Revisão manual necessária: as respostas são marcadas com esse rótulo quando o Genie não pode avaliar a correção ou quando os resultados da consulta gerados pelo Genie não contêm uma correspondência exata com os resultados da resposta SQL fornecida. Todas as perguntas de referência que não incluam uma Resposta SQL devem ser revisadas manualmente.

Classificações do modo agente

Um juiz de LLM avalia respostas em modo agente em vez de usar comparações SQL. Se forneceu uma nota de avaliação, o juiz do LLM usa-a como orientação ao avaliar a resposta, incluindo qualquer conteúdo esperado no relatório de texto que o modo Agente gere. O juiz classifica as respostas que satisfazem os critérios da nota de avaliação como Boas.

Aceda a avaliações de benchmark

Pode aceder a todas as suas avaliações de benchmark para acompanhar a precisão do seu Genie Space ao longo do tempo. Quando você abre os Benchmarks de um espaço, uma lista com carimbo de data/hora de execuções de avaliação aparece na guia Avaliações . Se não forem encontradas execuções de avaliação, consulte Adicionar perguntas de referência ou Executar perguntas de referência.

Tela de avaliações conforme descrito no texto a seguir.

A guia Avaliações mostra uma visão geral das avaliações e do seu desempenho, conforme reportado nas seguintes categorias:

Nome da avaliação: carimbo de data/hora que indica quando ocorreu uma sessão de avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status de execução: Indica se a avaliação foi concluída, pausada ou malsucedida. Se uma execução de avaliação incluir perguntas de referência que não tenham respostas SQL predefinidas, ela será marcada para revisão nesta coluna. Precisão: Uma avaliação numérica da precisão em todas as perguntas de referência. Para processos de avaliação que exigem revisão manual, a medição da precisão aparece somente depois que as perguntas foram revisadas. Criado por: Indica o nome do usuário que executou a avaliação.

Rever avaliações individuais

Pode rever avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação para qualquer pergunta e atualizar todos os itens que precisam de revisão manual.

Para rever avaliações individuais:

Perto do topo do Espaço Genie, selecione 'Benchmark'.
Clique na data/hora de qualquer avaliação na coluna Nome da avaliação para abrir uma exibição detalhada da execução do teste.
Use a lista de perguntas no lado esquerdo da tela para ver uma visão detalhada de cada pergunta.
Analise e compare a resposta de saída do Modelo com a resposta de verdade fundamental.

Para resultados classificados como incorretos, aparece uma explicação descrevendo por que o resultado foi classificado como Ruim. Isso ajuda você a entender as diferenças específicas entre a saída gerada e a verdade de base esperada.

Note

Os resultados destas respostas aparecem nos detalhes da avaliação durante uma semana. Após uma semana, os resultados já não são visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.
Clique em Atualizar verdade de base para salvar a resposta como o novo Ground truth para esta pergunta. Isso é útil se nenhuma verdade fundamentada existir, ou se a resposta for melhor ou mais precisa do que a declaração de verdade básica existente.
Clique no rótulo para editar a avaliação.

Marque cada resultado como Bom ou Ruim para obter uma pontuação precisa para esta avaliação.

Comentários

Esta página foi útil?

Last updated on 2026-05-30