Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Visualizzazione attuale:Versione del portale Foundry (versione classica) - Passa alla versione per il nuovo portale Foundry
Importante
Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.
Microsoft Foundry offre un set completo di analizzatori predefiniti per valutare la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo. Questo riferimento illustra in dettaglio tutti gli analizzatori disponibili, i relativi scopi, gli input necessari e le indicazioni sulla selezione dell'analizzatore corretto per il caso d'uso. È anche possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici.
Nota
Il Microsoft Foundry SDK per la valutazione e il portale foundry sono disponibili in anteprima pubblica, ma le API sono disponibili a livello generale per la valutazione del modello e del set di dati (la valutazione dell'agente rimane in anteprima pubblica). I Azure AI Evaluation SDK e gli analizzatori contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica ovunque.
Analizzatori per utilizzo generico
| Valutatore | Scopo |
|---|---|
| Coerenza | Misura la coerenza logica e il flusso delle risposte. |
| Fluidità | Misura la qualità e la leggibilità del linguaggio naturale. |
Per altre informazioni, vedere Analizzatori per utilizzo generico.
Valutatori di somiglianza testuale
| Valutatore | Scopo |
|---|---|
| Somiglianza | Misurazione della somiglianza testuale assistita dall'intelligenza artificiale. |
| Punteggio F1 | Media armonica di precisione e richiamo nelle sovrapposizioni di token tra risposta e verità di base. |
| BLEU | Il punteggio Understudy della valutazione bilingue per la qualità della traduzione misura le sovrapposizioni in n-grammi tra risposta e verità di base. |
| GLEU | La variante Google-BLEU per la valutazione a livello di frase misura le sovrapposizioni in n-grammi tra la risposta e la verità di base. |
| ROUGE | L'Understudy orientato al richiamo per la valutazione del compendio misura le sovrapposizioni in n-grammi tra risposta e verità di base. |
| METEOR | La metrica per la valutazione della traduzione con Ordinamento Esplicito misura le sovrapposizioni in n-grammi tra la risposta e la verità di riferimento. |
Per altre informazioni, vedere Analizzatori di somiglianza testuale.
Analizzatori RAG
| Valutatore | Scopo |
|---|---|
| Recupero | Misura il modo in cui il sistema recupera le informazioni pertinenti. |
| Recupero documenti | Misura l'accuratezza nei risultati del recupero in base alla verità del terreno. |
| Connessione alla realtà | Misura la coerenza della risposta rispetto al contesto recuperato. |
| Groundedness Pro (anteprima) | Misura se la risposta è coerente rispetto al contesto recuperato. |
| Rilevanza | Misura la rilevanza della risposta rispetto alla query. |
| Completezza della risposta | Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno. |
Per altre informazioni, vedere Analizzatori di generazione aumentata (RAG, Retrieval-Augmented Generation).
Analizzatori di rischi e sicurezza
| Valutatore | Scopo |
|---|---|
| Odio e ingiustità | Identifica contenuti distorti, discriminatori o odiosi. |
| Sessuale | Identifica contenuti sessuali inappropriati. |
| Violenza | Rileva contenuti violenti o incitamenti. |
| Autolesionismo | Rileva contenuti che promuovono o descrivono l'autolesionismo. |
| Sicurezza dei contenuti | Valutazione completa dei vari problemi di sicurezza. |
| Materiali protetti | Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright. |
| Vulnerabilità del codice | Identifica i problemi di sicurezza nel codice generato. |
| Attributi non collegati | Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente. |
Per altre informazioni, vedere Analizzatori di rischi e sicurezza.
Valutatori di agenti
| Valutatore | Scopo |
|---|---|
| Risoluzione delle finalità (anteprima) | Misura l'accuratezza con cui l'agente identifica e gestisce le intenzioni dell'utente. |
| Adesione alle attività (anteprima) | Misura il modo in cui l'agente segue nelle attività identificate. |
| Accuratezza della chiamata dello strumento (anteprima) | Misura il modo in cui l'agente seleziona e chiama gli strumenti corretti. |
Per altre informazioni, vedere Valutatori di agenti.
Esaminatori di Azure OpenAI
| Valutatore | Scopo |
|---|---|
| Etichettatore di Modelli | Classifica il contenuto usando linee guida ed etichette personalizzate. |
| Controllo stringhe | Esegue convalide di testo flessibili e riconoscimento di modelli. |
| Somiglianza del testo | Valuta la qualità del testo o determina la prossimità semantica. |
| Valutatore del modello | Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate. |
Per altre informazioni, vedere Azure OpenAI Graders.
Analizzatori personalizzati
Oltre agli analizzatori predefiniti, è possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici. Gli analizzatori personalizzati consentono di definire logica di assegnazione dei punteggi univoca, regole di convalida e metriche di qualità allineate ai requisiti aziendali e alle esigenze specifiche dell'applicazione.
Per altre informazioni, vedere Analizzatori personalizzati.
Combinazione di valutatori
Per una valutazione della qualità completa, combinare più analizzatori:
- Applicazioni RAG: recupero + rilevanza + rilevanza + sicurezza del contenuto
- Applicazioni agente: Accuratezza della chiamata dello strumento + Adesione al compito + Risoluzione intento + Sicurezza del contenuto
- Applicazioni di traduzione: BLEU + METEOR + Fluency + Coerenza
- Tutte le applicazioni: Aggiungere valutatori di rischio e sicurezza (Odio e Ingiustizia, Sessuale, Violenza, Self-Harm) per pratiche di IA responsabili
Contenuto correlato
- Osservabilità nell'intelligenza artificiale generativa
- Analizzatori per utilizzo generico
- Analizzatori di somiglianza testuale
- Valutatori di generazione aumentata di recupero (RAG)
- Analizzatori di rischi e sicurezza
- Analizzatori di agenti
- Azure OpenAI Graders
- Valutatori personalizzati
- Valutare con Foundry SDK
- Valutare le app di AI generativa in Foundry