Submeter um processo em lote e avaliar um fluxo de trabalho (clássico)

Aplica-se apenas a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal da Foundry. Saiba mais sobre o novo portal.

Nota

Os links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação do Foundry (clássico) que está a ver agora.

Aviso

O desenvolvimento da funcionalidade Prompt Flow terminou a 20 de abril de 2026. A rubrica será totalmente retirada a 20 de abril de 2027. Na data de reforma, o Prompt Flow entra em modo apenas de leitura. Os seus fluxos existentes continuarão a funcionar até essa data.

Ação recomendada: Migre as suas cargas de trabalho Prompt Flow para Microsoft Agent Framework antes de 20 de abril de 2027.

Para avaliar o desempenho do seu fluxo com um grande conjunto de dados, pode submeter uma execução em lote e usar um método de avaliação no flow do prompt.

Neste artigo aprende a:

  • Submeta um processo em lote e use um método de avaliação
  • Consulte o resultado da avaliação e as métricas
  • Inicie uma nova ronda de avaliação
  • Verifique o histórico de execuções em lote e compare as métricas
  • Compreenda os métodos de avaliação incorporados
  • Formas de melhorar o desempenho do fluxo

Pré-requisitos

Importante

Este artigo fornece suporte legado para projetos baseados em hubs. Não funciona para projetos da Foundry. Veja : Como sei que tipo de projeto tenho?

Nota de compatibilidade SDK: Exemplos de código requerem uma versão específica do Microsoft Foundry SDK. Se encontrar problemas de compatibilidade, considere migrar de um projeto baseado em hub para um projeto Foundry.

Para uma execução em lote e para usar um método de avaliação, precisa de ter o seguinte pronto:

  • Um conjunto de dados de teste para execução em lote. O seu conjunto de dados deve estar num destes formatos: .csv, .tsv, ou .jsonl. Os seus dados também devem incluir cabeçalhos que correspondam aos nomes de entrada do seu fluxo. Se as suas entradas de fluxo incluírem uma estrutura complexa como uma lista ou dicionário, use jsonl o formato para representar os seus dados.
  • Uma sessão de computação disponível para executar o seu processamento em lote. Uma sessão de computação é um recurso baseado na cloud que executa o seu fluxo e gera resultados. Para saber mais sobre sessões de computação, consulte sessão de computação.

Submeta um processo em lote e use um método de avaliação

Uma execução em lote permite-lhe executar o seu fluxo com um grande conjunto de dados e gerar saídas para cada linha de dados. Também pode escolher um método de avaliação para comparar os resultados do seu fluxo com certos critérios e objetivos. Um método de avaliação é um tipo especial de fluxo que calcula métricas para a saída do seu fluxo com base em diferentes aspetos. É executada uma execução de avaliação para calcular as métricas quando submetidas com a execução em lote.

Para iniciar uma corrida em lote com avaliação, pode selecionar no botão Avaliar - Avaliação personalizada. Ao selecionar Avaliação Personalizada, pode submeter uma execução em lote com métodos de avaliação ou submeter uma execução em lote sem avaliação para o seu fluxo.

Esta captura de ecrã mostra o botão de disparo para execução em lote e avaliação

Primeiro, é pedido que dê à sua execução de lote um nome descritivo e reconhecível. Também pode escrever uma descrição e adicionar tags (pares chave-valor) à sua execução em lote. Depois de terminar a configuração, selecione Seguinte para continuar.

Esta captura de ecrã mostra a definição básica da avaliação personalizada

Em segundo lugar, precisas de selecionar ou carregar um conjunto de dados com o qual queres testar o teu fluxo. Também é necessário selecionar uma sessão de computação disponível para executar esta execução em lote.

O fluxo de prompts também suporta mapear a entrada do fluxo para uma coluna de dados específica no seu conjunto de dados. Isto significa que podes atribuir uma coluna a uma determinada entrada. Pode atribuir uma coluna a uma entrada ao referenciar com ${data.XXX} formato. Se quiseres atribuir um valor constante a uma entrada, podes escrever diretamente esse valor.

Esta captura de ecrã mostra a definição de batch run da avaliação personalizada

Depois, no passo seguinte, pode decidir usar um método de avaliação para validar o desempenho deste fluxo. Pode selecionar diretamente o botão Seguinte para saltar este passo se não quiser aplicar nenhum método de avaliação ou calcular métricas. Caso contrário, se quiser correr o processamento em lote com avaliação agora, pode selecionar um ou mais métodos de avaliação. A avaliação começa após a conclusão do processamento em lote. Também pode iniciar outra ronda de avaliação depois de concluída a execução em lote. Para saber mais sobre como iniciar uma nova ronda de avaliação, consulte Iniciar uma nova ronda de avaliação.

Esta captura de ecrã mostra como selecionar métodos de avaliação.

Na secção de mapeamento de entrada do passo seguinte, é necessário especificar as fontes dos dados de entrada necessárias para o método de avaliação. Por exemplo, uma coluna de verdade no terreno pode vir de um conjunto de dados. Por padrão, a avaliação utiliza o mesmo conjunto de dados que o conjunto de dados de teste fornecido à execução testada. No entanto, se as etiquetas correspondentes ou os valores de verdade do terreno alvo estiverem num conjunto de dados diferente, pode facilmente mudar para esse.

  • Se a fonte de dados for da sua saída de execução, a fonte é indicada como ${run.output.[ NomeDeSaída]}
  • Se a fonte de dados for do seu conjunto de dados de teste, a fonte é indicada como ${data.[ NomeColumn]}

Esta captura de ecrã mostra como configurar as definições de avaliação, incluindo o mapeamento de entrada e a ligação.

Nota

Se a sua avaliação não exigir dados do conjunto de dados, não precisa de referenciar nenhuma coluna do conjunto de dados na secção de mapeamento de entrada, indicando que a seleção do conjunto de dados é uma configuração opcional. A seleção do conjunto de dados não afeta o resultado da avaliação.

Se um método de avaliação utiliza Grandes Modelos de Linguagem (LLMs) para medir o desempenho da resposta de fluxo, você também deve definir conexões para os nós LLM nos métodos de avaliação.

Depois pode selecionar Seguinte para rever as suas definições e selecionar Enviar para iniciar a corrida em lote com avaliação.

Consulte o resultado da avaliação e as métricas

Após a submissão, pode encontrar a execução em lote submetida no separador da lista de execuções, na página de fluxo de prompts. Selecione uma corrida para navegar até à página de resultados da corrida.

Na página de detalhes da corrida, pode selecionar Detalhes para verificar os detalhes desta corrida em lote.

Produção

Resultado básico e rastreamento

Primeiro, isto irá direcioná-lo para a aba de Saída para ver as entradas e saídas linha a linha. A aba de saída apresenta uma tabela de resultados, incluindo o ID da linha, entrada, saída, estado, métricas do sistema e tempo de criação.

O rastreamento está desativado por defeito, para permitir o rastreamento precisa de definir a variável PF_DISABLE_TRACING de ambiente para false. Uma forma de o fazer é adicionando o seguinte ao nó Python:

import os
os.environ["PF_DISABLE_TRACING"] = "false"

Para cada linha, selecionar Visualizar traço permite-lhe observar e depurar esse caso de teste particular na sua página detalhada do traço.

Esta captura de ecrã mostra a saída do processamento em lote.

 Captura de ecrã do detalhe dos vestígios.

Anexar o resultado da avaliação e rastrear

Selecionar Adicionar output de avaliação permite-lhe selecionar execuções de avaliação relacionadas e verá colunas anexadas no final da tabela que mostram o resultado da avaliação para cada linha de dados. Podem ser acrescentados múltiplos resultados de avaliação para comparação.

Captura de ecrã dos resultados da execução em lote para anexar a saída de avaliação.

Pode ver as métricas de avaliação mais recentes no painel de Visão Geral à esquerda.

Visão geral essencial

No lado direito, a Visão Geral oferece informações gerais sobre a corrida, como o número de execuções por ponto de dados, o total de tokens e a duração da corrida.

As métricas agregadas da execução de avaliação mais recente são disponibilizadas aqui por defeito. Pode selecionar Ver execução de avaliação para aceder directamente à execução de avaliação em si.

Captura de ecrã da visão geral da execução em lote na página de saída.

Pode expandir ou colapsar a visão geral aqui. Para ver informações mais detalhadas sobre esta execução, selecione Ver informações completas para ir ao separador Overview ao lado do separador Saída.

Inicie uma nova ronda de avaliação

Se já tiver concluído uma execução em lote, pode iniciar outro ciclo de avaliação para submeter uma nova execução de avaliação para calcular métricas das saídas sem precisar de executar o fluxo novamente. Isto é útil e pode poupar-lhe custos ao executar novamente o seu fluxo quando:

  • Não selecionou um método de avaliação para calcular as métricas ao submeter o processamento em lote, e decide fazê-lo agora.
  • Já usaste o método de avaliação para calcular uma métrica. Pode iniciar outra ronda de avaliação para calcular outra métrica.
  • A sua execução de avaliação falhou, mas o seu fluxo gerou resultados com sucesso. Pode submeter a sua avaliação novamente.

Pode ir ao separador Execuções do fluxo de prompts. Depois, vá à página de detalhes da execução em lote e selecione Avaliar para iniciar outra ronda de avaliação.

Esta captura de ecrã mostra como iniciar uma nova avaliação baseada numa execução em lote.

Depois de definir a configuração, pode selecionar "Submeter" para esta nova fase de avaliação. Após a submissão, poderá ver um novo registo na lista de execução do fluxo de comandos. Após a conclusão da execução da avaliação, pode verificar o resultado da avaliação no separador "Outputs" do painel de detalhes do processo em lote. Para visualizar o resultado, precisa selecionar a nova execução de avaliação.

Para saber mais sobre as métricas calculadas pelos métodos de avaliação incorporados, navegue para compreender os métodos de avaliação incorporados.

Visão geral

Selecionar o separador de Visão Geral mostra informações abrangentes sobre a execução, incluindo propriedades da execução, conjunto de dados de entrada, conjunto de dados de saída, tags e descrição.

Registos

Selecionar o separador Logs permite-lhe visualizar os registos de execução de comandos, o que pode ser útil para uma depuração detalhada de erros de execução. Pode descarregar os ficheiros de registo para a sua máquina local.

Instantâneo

Ao selecionar o separador Snapshot , mostra-te o snapshot da execução. Pode ver o DAG do seu fluxo. Além disso, tens a opção de o clonar para criar um novo fluxo. Também podes implementá-lo como endpoint online.

Captura de ecrã do instantâneo do processo em lote.

Verifique o histórico de execuções em lote e compare as métricas

Em alguns cenários, modificas o teu fluxo para melhorar o seu desempenho. Pode submeter mais do que uma execução em lote para comparar o desempenho do seu fluxo com diferentes versões. Também pode comparar as métricas calculadas por diferentes métodos de avaliação para ver qual é mais adequada ao seu fluxo.

Para verificar o histórico de execuções em lote do seu fluxo, pode selecionar o botão Ver execução em lote na página do seu fluxo. Vês uma lista de execuções em lote que submeteste para este fluxo.

Esta captura de ecrã mostra o botão de visualizar saída na página da lista de execução.

Pode selecionar cada execução de lote para verificar os detalhes. Também pode selecionar várias execuções em lote e selecionar em Visualizar resultados para comparar as métricas e os resultados das execuções em lote.

No painel "Visualizar saída", a tabela Execuções & métricas mostra a informação das execuções selecionadas em destaque. Outras execuções que recebem as saídas das sequências selecionadas como entrada também são listadas.

Na tabela "Outputs", pode comparar as execuções de lote selecionadas por linha de cada amostra. Ao selecionar o ícone "visualização ocular" na tabela "Corridas & métricas", as saídas dessa corrida serão adicionadas à corrida base correspondente.

Compreenda os métodos de avaliação incorporados

No fluxo rápido, fornecemos múltiplos métodos de avaliação integrados para o ajudar a medir o desempenho da saída do seu fluxo. Cada método de avaliação calcula métricas diferentes. Consulte a tabela seguinte para uma lista de métodos de avaliação incorporados e as suas descrições.

Método de Avaliação Métricas Descrição Ligação necessária Entrada Necessária Valor da Pontuação
Avaliação da Precisão da Classificação Precisão Mede o desempenho de um sistema de classificação comparando as suas saídas com a verdade fundamental. Não Previsão, verdade de base no intervalo [0, 1].
Avaliação pareada das pontuações de relevância da QnA Pontuar, ganhar/perder Avalia a qualidade das respostas geradas por um sistema de resposta a perguntas. Envolve atribuir pontuações de relevância a cada resposta com base em quão bem corresponde à pergunta do utilizador, comparar diferentes respostas com uma resposta base e agregar os resultados para produzir métricas como as médias de taxas de vitória e pontuações de relevância. Sim Pergunta, resposta (sem verdade ou contexto) Pontuação: 0-100, vitória/derrota: 1/0
Avaliação de Fundamentação da QnA Enraizamento Mede quão fundamentadas estão as respostas previstas do modelo na fonte de entrada. Mesmo que as respostas do LLM sejam verdadeiras, se não verificáveis contra a fonte, então não têm fundamento. Sim Pergunta, resposta, contexto (sem verdade fundamentada) 1 a 5, sendo 1 o pior e 5 o melhor.
QnA Avaliação de Similaridade com GPT Semelhança GPT Mede a similaridade entre as respostas de verdade fornecidas pelo utilizador e a resposta prevista pelo modelo usando o Modelo GPT. Sim Pergunta, resposta, verdade de base (contexto não necessário) no intervalo [0, 1].
Avaliação de Relevância de QnA Relevância Mede quão relevantes são as respostas previstas do modelo para as perguntas colocadas. Sim Pergunta, resposta, contexto (sem verdade fundamentada) 1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação de Coerência de QnA Coerência Mede a qualidade de todas as frases na resposta prevista de um modelo e como elas se encaixam naturalmente. Sim Pergunta, resposta (sem verdade ou contexto) 1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação da Fluência do QnA Fluência Mede quão correta é gramatical e linguisticamente a resposta prevista pelo modelo. Sim Pergunta, resposta (sem verdade ou contexto) 1 a 5, sendo 1 o pior e 5 o melhor
Avaliação das pontuações do QnA f1 pontuação F1 Mede a razão entre o número de palavras partilhadas entre a previsão do modelo e a verdade fundamental. Não Pergunta, resposta, verdade de base (contexto não necessário) no intervalo [0, 1].
QnA Avaliação de Similaridade Ada Semelhança com Ada Calcula embeddings ao nível de frases (documentos) usando a API de embeddings Ada tanto para a verdade fundamental como para a previsão. Em seguida, calcula a similaridade do coseno entre eles (um número de ponto flutuante) Sim Pergunta, resposta, verdade de base (contexto não necessário) no intervalo [0, 1].

Formas de melhorar o desempenho do fluxo

Depois de verificar os métodos incorporados da avaliação, pode tentar melhorar o desempenho do seu fluxo ao:

  • Verifique os dados de saída para depurar qualquer falha potencial do seu fluxo.
  • Modifica o teu fluxo para melhorar o seu desempenho. Isto inclui, mas não se limita a:
    • Modificar o prompt
    • Modificar a mensagem do sistema
    • Modificar parâmetros do fluxo
    • Modificar a lógica do fluxo

Para saber mais sobre como construir um prompt que possa atingir o seu objetivo, consulte Introdução à engenharia de prompts, Técnicas de engenharia de prompts e Estrutura e recomendações de modelos de mensagens do sistema para Modelos de Linguagem de Grande Escala (LLMs).

Neste documento, aprendeu como submeter uma execução em lote e usar um método de avaliação incorporado para medir a qualidade da saída do seu fluxo. Também aprendeste a visualizar o resultado da avaliação e as métricas, e a começar uma nova ronda de avaliação com um método diferente ou um subconjunto de variantes. Esperamos que este documento o ajude a melhorar o desempenho do seu fluxo e a alcançar os seus objetivos com fluxo rápido.

Próximos passos