Inviare un'esecuzione batch e valutare un flusso (versione classica)

Si applica solo a:Portale di Foundry (versione classica). Questo articolo non è disponibile per il nuovo portale foundry. Altre informazioni sul nuovo portale.

Nota

I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.

Avviso

Lo sviluppo delle funzionalità di Prompt Flow è terminato il 20 aprile 2026. La funzionalità verrà ritirata completamente il 20 aprile 2027. Alla data di ritiro, Prompt Flow passa alla modalità di sola lettura. I flussi esistenti continueranno a funzionare fino a tale data.

Azione consigliata: Eseguire la migrazione dei carichi di lavoro di Prompt Flow a Microsoft Agent Framework prima del 20 aprile 2027.

Per valutare le prestazioni del tuo flusso con un set di dati di grandi dimensioni, è possibile eseguire un'operazione batch e usare un metodo di valutazione nel processo di prompt.

Questo articolo illustra come:

Inviare un'esecuzione batch e usare un metodo di valutazione
Visualizzare i risultati e le metriche di valutazione
Avviare un nuovo ciclo di valutazione
Controllare la cronologia di esecuzione batch e confrontare le metriche
Informazioni sui metodi di valutazione predefiniti
Modi per migliorare le prestazioni del flusso

Prerequisiti

Importante

Questo articolo fornisce il supporto legacy per i progetti basati su hub. Non funzionerà per i progetti Foundry. Vedere Come si conosce il tipo di progetto di cui si dispone?

nota di compatibilità SDK: gli esempi di codice richiedono una versione specifica Microsoft Foundry SDK. Se si verificano problemi di compatibilità, valutare la possibilità di eseguire la migrazione da un progetto basato su hub a un progetto Foundry.

Un account Azure con una sottoscrizione attiva. Se non ne hai uno, crea un account gratuito Azure, che include una sottoscrizione di valutazione gratuita.
Se non ne hai uno, crea un progetto basato su hub.

Per un'esecuzione batch e per usare un metodo di valutazione, è necessario disporre degli elementi seguenti:

Set di dati di test per l'esecuzione batch. Il set di dati deve trovarsi in uno dei formati seguenti: .csv, .tsvo .jsonl. I tuoi dati devono anche includere intestazioni che corrispondano ai nomi di input del tuo flusso. Se gli input del flusso includono una struttura complessa come un elenco o un dizionario, usare il jsonl formato per rappresentare i dati.
Sessione di elaborazione disponibile per eseguire un processo batch. Una sessione di calcolo è una risorsa basata sul cloud che esegue il flusso e genera output. Per altre informazioni sulle sessioni di calcolo, vedere Sessione di calcolo.

Inviare un'esecuzione batch e usare un metodo di valutazione

Un'esecuzione batch consente di eseguire il flusso con un set di dati di grandi dimensioni e generare output per ogni riga di dati. È anche possibile scegliere un metodo di valutazione per confrontare l'output del flusso con determinati criteri e obiettivi. Un metodo di valutazione è un tipo speciale di flusso che calcola le metriche per l'output del flusso in base a diversi aspetti. Viene eseguita un'esecuzione di valutazione per calcolare le metriche quando vengono inviate con l'esecuzione batch.

Per avviare un'esecuzione batch con valutazione, è possibile selezionare il pulsante Valuta - Valutazione personalizzata. Selezionando Valutazione personalizzata, è possibile inviare un'esecuzione batch con metodi di valutazione o inviarne una senza valutazione, per il proprio flusso.

Prima di tutto, viene chiesto di assegnare al batch un nome descrittivo e riconoscibile. È anche possibile scrivere una descrizione e aggiungere tag (coppie chiave-valore) all'elaborazione batch. Al termine della configurazione, selezionare Avanti per continuare.

In secondo luogo, è necessario selezionare o caricare un set di dati con cui testare il flusso. È anche necessario selezionare una sessione di calcolo disponibile per eseguire questa esecuzione batch.

Il flusso di richiesta supporta anche il mapping dell'input del flusso a una colonna di dati specifica nel set di dati. Ciò significa che è possibile assegnare una colonna a un determinato input. È possibile assegnare una colonna a un input facendo riferimento al ${data.XXX} formato . Se si desidera assegnare un valore costante a un input, è possibile digitare direttamente tale valore.

Quindi, nel passaggio successivo, è possibile decidere di usare un metodo di valutazione per convalidare le prestazioni di questo flusso. È possibile selezionare direttamente il pulsante Avanti per ignorare questo passaggio se non si vuole applicare alcun metodo di valutazione o calcolare alcuna metrica. Se invece si desidera eseguire il batch con una valutazione ora, è possibile selezionare uno o più metodi di valutazione. La valutazione inizia dopo il completamento dell'esecuzione del batch. Si può anche avviare un altro round di valutazione dopo che l'esecuzione del batch è completata. Per altre informazioni su come avviare un nuovo ciclo di valutazione, vedere Avviare un nuovo ciclo di valutazione.

Nella sezione mapping di input del passaggio successivo è necessario specificare le origini dei dati di input necessari per il metodo di valutazione. Ad esempio, la colonna ground truth può provenire da un set di dati. Per impostazione predefinita, la valutazione usa lo stesso set di dati del set di dati di test fornito per l'esecuzione testata. Tuttavia, se le etichette corrispondenti o i valori di verità del terreno di destinazione si trovano in un set di dati diverso, è possibile passare facilmente a tale valore.

Se l'origine dati proviene dall'output di esecuzione, l'origine viene indicata come ${run.output.[ OutputName]}
Se l'origine dati proviene dal set di dati di test, l'origine viene indicata come ${data.[ ColumnName]}

Nota

Se la valutazione non richiede dati dal set di dati, non è necessario fare riferimento ad alcuna colonna del set di dati nella sezione mapping di input, a indicare che la selezione del set di dati è una configurazione facoltativa. La selezione del set di dati non influisce sul risultato della valutazione.

Se un metodo di valutazione usa modelli di linguaggio di grandi dimensioni per misurare le prestazioni della risposta del flusso, è necessario impostare anche le connessioni per i nodi LLM nei metodi di valutazione.

È quindi possibile selezionare Avanti per esaminare le impostazioni e selezionare Invia per avviare l'esecuzione batch con la valutazione.

Visualizzare i risultati e le metriche di valutazione

Dopo l'invio, è possibile trovare l'esecuzione batch inviata nella scheda Elenco di esecuzione nella pagina flusso di richiesta. Selezionare un'esecuzione per passare alla pagina dei risultati dell'esecuzione.

Nella pagina dei dettagli dell'esecuzione è possibile selezionare Dettagli per controllare i dettagli di questa esecuzione batch.

Output

Risultato di base e tracciamento

Verrà innanzitutto visualizzata la scheda Output per visualizzare gli input e gli output riga per riga. Nella pagina della scheda output viene visualizzato un elenco tabulare di risultati, inclusi l'ID riga, l'input, l'output, lo stato, le metriche di sistema e ora di creazione.

La traccia è disabilitata per impostazione predefinita, per abilitare la traccia è necessario impostare la variabile PF_DISABLE_TRACING di ambiente su false. Un modo per eseguire questa operazione consiste nell'aggiungere quanto segue al nodo Python:

import os
os.environ["PF_DISABLE_TRACING"] = "false"

Per ogni riga, selezionando Visualizza traccia è possibile osservare ed eseguire il debug di un test case specifico nella pagina dettagliata della traccia.

Aggiungi i risultati della valutazione e la traccia

Se si seleziona Accoda output di valutazione , è possibile selezionare le esecuzioni di valutazione correlate e visualizzare le colonne accodate alla fine della tabella che mostra il risultato della valutazione per ogni riga di dati. È possibile aggiungere più output di valutazione per il confronto.

È possibile visualizzare le metriche di valutazione più recenti nel pannello Panoramica a sinistra.

Panoramica essenziale

Sul lato destro, la panoramica offre informazioni generali sull'esecuzione, ad esempio il numero di esecuzioni per punto dati, i token totali e la durata dell'esecuzione.

Le metriche aggregate più recenti dell'esecuzione della valutazione sono visualizzate qui per impostazione predefinita. È possibile selezionare Visualizzare l'esecuzione della valutazione per passare alla visualizzazione dell'esecuzione valutativa.

È possibile espandere o comprimere la panoramica qui. Per visualizzare informazioni più dettagliate su questa esecuzione, selezionare Visualizza informazioni complete per passare alla scheda Panoramica accanto alla scheda Output.

Avviare un nuovo ciclo di valutazione

Se è già stata completata un'esecuzione batch, è possibile avviare un altro round di valutazione per inviare una nuova esecuzione di valutazione per calcolare le metriche per gli output senza eseguire di nuovo il flusso. Questo è utile e può risparmiare i costi per rieseguire il flusso quando:

Non hai selezionato un metodo di valutazione per calcolare le metriche quando hai inviato l'esecuzione batch, e hai deciso di farlo ora.
Hai già utilizzato il metodo di valutazione per calcolare una metrica. È possibile avviare un altro round di valutazione per calcolare un'altra metrica.
L'esecuzione della valutazione non è riuscita, ma il flusso ha generato correttamente gli output. È possibile inviare di nuovo la valutazione.

È possibile passare alla scheda Esecuzioni del flusso di richiesta. Passare quindi alla pagina dei dettagli esecuzione batch e selezionare Valuta per avviare un altro round di valutazione.

Dopo aver configurato la configurazione, è possibile selezionare "Invia" per questo nuovo ciclo di valutazione. Dopo l'invio, potrai visualizzare un nuovo record nell'elenco di esecuzione del flusso di prompt. Al termine dell'esecuzione della valutazione, in modo analogo, è possibile controllare il risultato della valutazione nella scheda "Risultati" del pannello dei dettagli dell'esecuzione batch. È necessario selezionare la nuova esecuzione di valutazione per visualizzarne il risultato.

Per altre informazioni sulle metriche calcolate dai metodi di valutazione predefiniti, passare a informazioni sui metodi di valutazione predefiniti.

Panoramica

Selezionando la scheda Panoramica vengono visualizzate informazioni complete sull'esecuzione, incluse le proprietà di esecuzione, il set di dati di input, il set di dati di output, i tag e la descrizione.

Registri

Selezionando la scheda Log è possibile visualizzare i log di esecuzione, che possono essere utili per il debug dettagliato degli errori di esecuzione. È possibile scaricare i file di log nel computer locale.

Snapshot

Selezionando la scheda Snapshot viene visualizzato lo snapshot di esecuzione. È possibile visualizzare il DAG del flusso. Inoltre, è possibile clonarlo per creare un nuovo flusso. È anche possibile distribuirlo come endpoint online.

Controllare la cronologia di esecuzione batch e confrontare le metriche

In alcuni scenari si modifica il flusso per migliorarne le prestazioni. È possibile inviare più esecuzioni batch per confrontare le prestazioni del flusso con versioni diverse. È anche possibile confrontare le metriche calcolate con metodi di valutazione diversi per vedere quale è più adatto per il flusso.

Per controllare la cronologia di esecuzione batch del flusso, è possibile selezionare il pulsante Visualizza esecuzione batch della pagina del flusso. Viene visualizzato un elenco di esecuzioni batch inviate per questo flusso.

È possibile selezionare ogni esecuzione batch per controllare i dettagli. È anche possibile selezionare più esecuzioni batch e selezionare l'opzione Visualizza output per confrontare le metriche e gli output delle esecuzioni batch.

Nel pannello "Visualizza output" la tabella Esecuzioni e metriche mostra le informazioni delle esecuzioni selezionate con evidenziazione. Vengono elencate anche altre esecuzioni che accettano gli output delle esecuzioni selezionate come input.

Nella tabella "Output" è possibile confrontare le esecuzioni batch selezionate in base a ogni riga di esempio. Selezionando l'icona "visualizzazione oculare" nella tabella "Esecuzioni e metriche", gli output di tale esecuzione verranno accodati all'esecuzione di base corrispondente.

Informazioni sui metodi di valutazione predefiniti

Nel flusso di richiesta sono disponibili più metodi di valutazione predefiniti che consentono di misurare le prestazioni dell'output del flusso. Ogni metodo di valutazione calcola metriche diverse. Per un elenco dei metodi di valutazione predefiniti e delle relative descrizioni, vedere la tabella seguente.

Metodo di valutazione	Metriche	Descrizione	Connessione richiesta	Input obbligatorio	Valore del punteggio
Valutazione dell'accuratezza della classificazione	Precisione	Misura le prestazioni di un sistema di classificazione confrontando gli output con la verità di base.	No	previsione, verità di riferimento	nell'intervallo [0, 1].
Valutazione a coppie dei punteggi di pertinenza di QnA	Punteggio, vittoria/perdita	Valuta la qualità delle risposte generate da un sistema di risposte alle domande. Implica l'assegnazione di punteggi di pertinenza a ogni risposta in base al livello di corrispondenza della domanda dell'utente, al confronto di risposte diverse a una risposta di base e all'aggregazione dei risultati per produrre metriche come i punteggi medi di vittoria e pertinenza.	Sì	domanda, risposta (nessuna verità o contesto di base)	Punteggio: 0-100, vittoria/perdita: 1/0
Valutazione dell'affidabilità QnA	Connessione alla realtà	Misura quanto le risposte previste dal modello sono radicate nell'origine dei dati di input. Anche se le risposte di LLM sono vere, se non sono verificabili rispetto alla fonte, allora non sono fondate.	Sì	domanda, risposta, contesto (nessun dato di riferimento)	da 1 a 5, con 1 essere il peggiore e 5 essere il migliore.
Valutazione della somiglianza di QnA GPT	Somiglianza GPT	Misura la somiglianza tra le risposte alla verità di base fornite dall'utente e la risposta stimata dal modello usando il modello GPT.	Sì	domanda, risposta, verità sul terreno (contesto non necessario)	nell'intervallo [0, 1].
Valutazione della rilevanza delle QnA	Rilevanza	Misura la rilevanza delle risposte stimate del modello alle domande poste.	Sì	domanda, risposta, contesto (nessun dato di riferimento)	da 1 a 5, con 1 essere il peggiore e 5 essere il migliore.
Valutazione della coerenza QnA	Coerenza	Misura la qualità di tutte le frasi nella risposta stimata di un modello e il modo in cui si adattano naturalmente.	Sì	domanda, risposta (nessuna verità o contesto di base)	da 1 a 5, con 1 essere il peggiore e 5 essere il migliore.
Valutazione della fluidità in QnA	Fluidità	Misura la modalità di correzione grammaticale e linguistica della risposta stimata del modello.	Sì	domanda, risposta (nessuna verità o contesto di base)	da 1 a 5, con 1 essere il peggiore e 5 essere il migliore
Valutazione dei punteggi F1 di QnA	Punteggio F1	Misura il rapporto tra il numero di parole condivise tra la previsione del modello e la verità di riferimento.	No	domanda, risposta, verità sul terreno (contesto non necessario)	nell'intervallo [0, 1].
Analisi della somiglianza di QnA Ada	Somiglianza Ada	Calcola embedding a livello di frase (documento) usando l'API embedding di Ada sia per il valore di riferimento che per la previsione. Calcola quindi la somiglianza del coseno tra di essi (un numero a virgola mobile)	Sì	domanda, risposta, verità sul terreno (contesto non necessario)	nell'intervallo [0, 1].

Modi per migliorare le prestazioni del flusso

Dopo aver controllato i metodi predefiniti dalla valutazione, è possibile provare a migliorare le prestazioni del flusso:

Controllare i dati di output per eseguire il debug di eventuali potenziali errori del flusso.
Modificare il flusso per migliorarne le prestazioni. Ciò include, a titolo esemplificativo, i seguenti elementi:
- Modificare il prompt
- Modificare il messaggio di sistema
- Modificare i parametri del flusso
- Modificare la logica del flusso

Per altre informazioni su come creare un prompt in grado di raggiungere l'obiettivo, vedere Introduzione all'ingegneria dei prompt, tecniche di progettazione dei prompt, e framework dei messaggi di sistema e raccomandazioni sui template per modelli di linguaggio di grandi dimensioni (LLMs).

In questo documento si è appreso come inviare un'esecuzione batch e usare un metodo di valutazione predefinito per misurare la qualità dell'output del flusso. Si è anche appreso come visualizzare i risultati e le metriche di valutazione e come avviare un nuovo round di valutazione con un metodo o un subset diverso di varianti. Questo documento aiuta a migliorare le prestazioni del flusso e a raggiungere i tuoi obiettivi con il flusso rapido.

Passaggi successivi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-29