Informazioni di riferimento per gli analizzatori predefiniti

Important

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni per l'utilizzo Microsoft Azure anteprime.

Microsoft Foundry include analizzatori predefiniti per valutare la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo. Questo riferimento elenca tutti gli analizzatori disponibili, i relativi scopi e le linee guida per selezionare quello giusto per il caso d'uso. È anche possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici.

Analizzatori per utilizzo generico

Evaluator Purpose
Coherence Misura la coerenza logica e il flusso delle risposte.
Fluency Misura la qualità e la leggibilità del linguaggio naturale.

Per altre informazioni, vedere Analizzatori per utilizzo generico.

Analizzatori di somiglianza testuale

Evaluator Purpose
Similarity Misurazione della somiglianza testuale assistita dall'intelligenza artificiale.
F1 Score Media armonica di precisione e richiamo nel token si sovrappone tra la risposta e la verità del terreno.
BLEU Il punteggio di valutazione bilingue understudy per le misure di qualità della traduzione si sovrappone a n grammi tra risposta e verità del terreno.
GLEU Google-BLEU variante per le misure di valutazione a livello di frase si sovrappone in n-grammi tra risposta e verità fondamentale.
ROUGE Recall-Oriented Understudy per Gisting Evaluation misura sovrapposizioni in n-grammi tra risposta e verità sul campo.
METEOR Metrica per la valutazione della traduzione con misure esplicite di ordinamento si sovrappone a n grammi tra risposta e verità sul terreno.

Per altre informazioni, vedere Analizzatori di somiglianza testuale.

RAG evaluators

Evaluator Purpose
Retrieval Misura il modo in cui il sistema recupera le informazioni pertinenti.
Document Retrieval Misura l'accuratezza nei risultati del recupero in base alla verità del terreno.
Groundedness Misura il modo in cui la risposta è a terra nel contesto recuperato. Restituisce un punteggio compreso tra 1 e 5 usando un giudizio basato su modello.
Groundedness Pro (anteprima) Misura se la risposta viene rilevata nel contesto recuperato usando il servizio Sicurezza dei contenuti di Azure AI. Restituisce un pass/fail binario senza richiedere una distribuzione del modello.
Relevance Misura la rilevanza della risposta rispetto alla query.
Completamento risposta (anteprima) Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno.

Per altre informazioni, vedere Analizzatori di generazione aumentata (RAG, Retrieval-Augmented Generation).

Analizzatori di rischi e sicurezza

Evaluator Purpose
Odio e ingiustità Identifica contenuti distorti, discriminatori o odiosi.
Sexual Identifica contenuti sessuali inappropriati.
Violence Rileva contenuti violenti o incitamenti.
Self-Harm Rileva contenuti che promuovono o descrivono l'autolesionismo.
Protected Materials Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright.
Attacco indiretto (XPIA) Misura se la risposta è diminuita per un tentativo di jailbreak indiretto inserito tramite il contesto recuperato.
Code Vulnerability Identifica i problemi di sicurezza nel codice generato.
Ungrounded Attributes Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente.
Azioni non consentite (anteprima) Misura la capacità di un agente di intelligenza artificiale di impegnarsi in comportamenti che violano azioni esplicitamente non consentite.
Perdita di dati sensibili (anteprima) Misura la vulnerabilità di un agente di intelligenza artificiale per esporre informazioni riservate.

Per altre informazioni, vedere Analizzatori di rischi e sicurezza.

Agent evaluators

Evaluator Purpose
Adesione alle attività (anteprima) Misura se l'agente segue le attività identificate in base alle istruzioni di sistema.
Completamento attività (anteprima) Misura se l'agente ha completato correttamente l'attività richiesta end-to-end.
Risoluzione delle finalità (anteprima) Misura in modo accurato l'agente identifica e indirizza le intenzioni dell'utente.
Efficienza navigazione attività Determina se la sequenza di passaggi dell'agente corrisponde a un percorso ottimale o previsto per misurare l'efficienza.
Accuratezza chiamata strumento Misura la qualità complessiva delle chiamate degli strumenti, tra cui la selezione, la correttezza dei parametri e l'efficienza.
Tool Selection Misura se l'agente ha selezionato gli strumenti più appropriati ed efficienti per un'attività.
Accuratezza input strumento Verifica che tutti i parametri di chiamata dello strumento siano corretti con criteri rigorosi, tra cui terra, tipo, formato, completezza e appropriatezza.
Utilizzo dell'output degli strumenti Misura se l'agente interpreta correttamente e usa gli output degli strumenti contestualmente nelle risposte e nelle chiamate successive.
Operazione riuscita chiamata strumento Valuta se tutte le chiamate degli strumenti vengono eseguite correttamente senza errori tecnici.

Per altre informazioni, vedere Analizzatori di agenti.

Azure classificatori OpenAI

Evaluator Purpose
Model Labeler Classifica il contenuto usando linee guida ed etichette personalizzate.
String Checker Esegue convalide di testo flessibili e criteri di ricerca.
Text Similarity Valuta la qualità del testo o determina la prossimità semantica.
Model Scorer Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate.

Per altre informazioni, vedere Azure OpenAI Graders.

Analizzatori personalizzati (anteprima)

Oltre agli analizzatori predefiniti, è possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici. Gli analizzatori personalizzati consentono di definire logica di assegnazione dei punteggi univoca, regole di convalida e metriche di qualità allineate ai requisiti aziendali e alle esigenze specifiche dell'applicazione.

Per altre informazioni, vedere Analizzatori personalizzati.

Combining evaluators

Per una valutazione della qualità completa, combinare più analizzatori:

  • Applicazioni RAG: recupero + rilevanza + rilevanza + sicurezza del contenuto
  • Applicazioni agente: Accuratezza chiamata strumento + Conformità attività + Risoluzione finalità + Sicurezza del contenuto
  • Applicazioni di traduzione: BLEU + METEOR + Fluency + La coerenza
  • Tutte le applicazioni: Aggiungere valutatori di rischio e sicurezza (Odio e Ingiustizia, Sessuale, Violenza, Self-Harm) per pratiche di IA responsabili