Informazioni di riferimento per gli analizzatori predefiniti

Important

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni per l'utilizzo Microsoft Azure anteprime.

Microsoft Foundry include analizzatori predefiniti per valutare la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo. Questo riferimento elenca tutti gli analizzatori disponibili, i relativi scopi e le linee guida per selezionare quello giusto per il caso d'uso. È anche possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici.

Analizzatori per utilizzo generico

Evaluator	Purpose
Coherence	Misura la coerenza logica e il flusso delle risposte.
Fluency	Misura la qualità e la leggibilità del linguaggio naturale.

Per altre informazioni, vedere Analizzatori per utilizzo generico.

Analizzatori di somiglianza testuale

Evaluator	Purpose
Similarity	Misurazione della somiglianza testuale assistita dall'intelligenza artificiale.
F1 Score	Media armonica di precisione e richiamo nel token si sovrappone tra la risposta e la verità del terreno.
BLEU	Il punteggio di valutazione bilingue understudy per le misure di qualità della traduzione si sovrappone a n grammi tra risposta e verità del terreno.
GLEU	Google-BLEU variante per le misure di valutazione a livello di frase si sovrappone in n-grammi tra risposta e verità fondamentale.
ROUGE	Recall-Oriented Understudy per Gisting Evaluation misura sovrapposizioni in n-grammi tra risposta e verità sul campo.
METEOR	Metrica per la valutazione della traduzione con misure esplicite di ordinamento si sovrappone a n grammi tra risposta e verità sul terreno.

Per altre informazioni, vedere Analizzatori di somiglianza testuale.

RAG evaluators

Evaluator	Purpose
Retrieval	Misura il modo in cui il sistema recupera le informazioni pertinenti.
Document Retrieval	Misura l'accuratezza nei risultati del recupero in base alla verità del terreno.
Groundedness	Misura il modo in cui la risposta è a terra nel contesto recuperato. Restituisce un punteggio compreso tra 1 e 5 usando un giudizio basato su modello.
Groundedness Pro (anteprima)	Misura se la risposta viene rilevata nel contesto recuperato usando il servizio Sicurezza dei contenuti di Azure AI. Restituisce un pass/fail binario senza richiedere una distribuzione del modello.
Relevance	Misura la rilevanza della risposta rispetto alla query.
Completamento risposta (anteprima)	Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno.

Per altre informazioni, vedere Analizzatori di generazione aumentata (RAG, Retrieval-Augmented Generation).

Analizzatori di rischi e sicurezza

Evaluator	Purpose
Odio e ingiustità	Identifica contenuti distorti, discriminatori o odiosi.
Sexual	Identifica contenuti sessuali inappropriati.
Violence	Rileva contenuti violenti o incitamenti.
Self-Harm	Rileva contenuti che promuovono o descrivono l'autolesionismo.
Protected Materials	Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright.
Attacco indiretto (XPIA)	Misura se la risposta è diminuita per un tentativo di jailbreak indiretto inserito tramite il contesto recuperato.
Code Vulnerability	Identifica i problemi di sicurezza nel codice generato.
Ungrounded Attributes	Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente.
Azioni non consentite (anteprima)	Misura la capacità di un agente di intelligenza artificiale di impegnarsi in comportamenti che violano azioni esplicitamente non consentite.
Perdita di dati sensibili (anteprima)	Misura la vulnerabilità di un agente di intelligenza artificiale per esporre informazioni riservate.

Per altre informazioni, vedere Analizzatori di rischi e sicurezza.

Agent evaluators

Evaluator	Purpose
Adesione alle attività (anteprima)	Misura se l'agente segue le attività identificate in base alle istruzioni di sistema.
Completamento attività (anteprima)	Misura se l'agente ha completato correttamente l'attività richiesta end-to-end.
Risoluzione delle finalità (anteprima)	Misura in modo accurato l'agente identifica e indirizza le intenzioni dell'utente.
Efficienza navigazione attività	Determina se la sequenza di passaggi dell'agente corrisponde a un percorso ottimale o previsto per misurare l'efficienza.
Accuratezza chiamata strumento	Misura la qualità complessiva delle chiamate degli strumenti, tra cui la selezione, la correttezza dei parametri e l'efficienza.
Tool Selection	Misura se l'agente ha selezionato gli strumenti più appropriati ed efficienti per un'attività.
Accuratezza input strumento	Verifica che tutti i parametri di chiamata dello strumento siano corretti con criteri rigorosi, tra cui terra, tipo, formato, completezza e appropriatezza.
Utilizzo dell'output degli strumenti	Misura se l'agente interpreta correttamente e usa gli output degli strumenti contestualmente nelle risposte e nelle chiamate successive.
Operazione riuscita chiamata strumento	Valuta se tutte le chiamate degli strumenti vengono eseguite correttamente senza errori tecnici.

Per altre informazioni, vedere Analizzatori di agenti.

Azure classificatori OpenAI

Evaluator	Purpose
Model Labeler	Classifica il contenuto usando linee guida ed etichette personalizzate.
String Checker	Esegue convalide di testo flessibili e criteri di ricerca.
Text Similarity	Valuta la qualità del testo o determina la prossimità semantica.
Model Scorer	Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate.

Per altre informazioni, vedere Azure OpenAI Graders.

Analizzatori personalizzati (anteprima)

Oltre agli analizzatori predefiniti, è possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici. Gli analizzatori personalizzati consentono di definire logica di assegnazione dei punteggi univoca, regole di convalida e metriche di qualità allineate ai requisiti aziendali e alle esigenze specifiche dell'applicazione.

Per altre informazioni, vedere Analizzatori personalizzati.

Combining evaluators

Per una valutazione della qualità completa, combinare più analizzatori:

Applicazioni RAG: recupero + rilevanza + rilevanza + sicurezza del contenuto
Applicazioni agente: Accuratezza chiamata strumento + Conformità attività + Risoluzione finalità + Sicurezza del contenuto
Applicazioni di traduzione: BLEU + METEOR + Fluency + La coerenza
Tutte le applicazioni: Aggiungere valutatori di rischio e sicurezza (Odio e Ingiustizia, Sessuale, Violenza, Self-Harm) per pratiche di IA responsabili

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30