Cenni preliminari su guardrail e controlli in Microsoft Foundry

Microsoft Foundry fornisce protezioni di sicurezza e incolumità che è possibile applicare a modelli e agenti principali. Le barriere di protezione dell'agente sono disponibili in anteprima. I guardrail sono costituiti da un set di controlli. I controlli definiscono un rischio da rilevare, i punti di intervento da analizzare per individuare il rischio e l'azione di risposta da intraprendere nel modello o nell'agente quando viene rilevato il rischio.

Una protezione è una raccolta denominata di controlli. Le variazioni nelle configurazioni dell'API e nella progettazione dell'applicazione potrebbero influire sui completamenti e quindi sul comportamento di filtro.

I rischi sono contrassegnati dai modelli di classificazione progettati per rilevare contenuto dannoso. Sono supportati quattro punti di intervento:

  • Input utente : richiesta inviata a un modello o a un agente.
  • Chiamata allo strumento (anteprima): azione e dati che l'agente propone di inviare a uno strumento. Solo agenti.
  • Risposta dello strumento (anteprima): contenuto restituito da uno strumento all'agente. Solo agenti.
  • Output : completamento finale restituito all'utente.

Per altre informazioni sui punti di intervento, vedere Punti di intervento e controlli.

Nota

Le guardrail sfruttano i modelli di classificazione da Sicurezza dei contenuti di Azure AI per rilevare contenuti dannosi tra le categorie di rischio supportate.

Importante

Il sistema di protezione si applica a tutti i Model venduti direttamente da Azure, ad eccezione di richieste e completamenti elaborati da modelli audio come Whisper. Per altre informazioni, vedere Modelli audio. Il sistema di guardrail si applica attualmente solo agli agenti sviluppati nel Foundry Agent Service, non ad altri agenti registrati nel Foundry Control Plane.

Prerequisiti

Limiti per agenti vs modelli

Un singolo guardrail Foundry può essere applicato a uno o più modelli e ad uno o più agenti in un progetto. Alcuni controlli all'interno di un guardrail potrebbero non essere rilevanti per i modelli perché il rischio, il punto di intervento o l'azione è specifico per il comportamento agente o le chiamate agli strumenti. Questi controlli non vengono eseguiti su modelli che usano tale protezione.

Alcuni rischi presenti nella versione di anteprima non sono ancora supportati per gli agenti. Quando i controlli che coinvolgono tali rischi vengono aggiunti a un guardrail e il guardrail viene applicato a un agente, tali controlli non hanno effetto per tale agente. Si applicano ancora ai modelli che usano lo stesso guardrail.

Applicabilità dei rischi

La tabella seguente riepiloga i rischi applicabili a modelli e agenti:

Rischio Applicabile ai modelli Applicabile agli agenti (anteprima)
Odio
Sessuale
Autolesionismo
Violenza
Attacchi di richiesta dell'utente
Attacchi indiretti
Contenuti in evidenza (anteprima)
Materiale protetto per il codice
Materiale protetto per il testo
Groundedness (anteprima)
Informazioni personali (anteprima)
Adesione al compito

Livelli di gravità

Per i rischi per i contenuti (Odio, Sessuale, Autolesionismo, Violenza), ogni controllo usa una soglia di livello di gravità che determina il contenuto contrassegnato:

Livello di gravità Comportamento
Fuori Il rilevamento è disabilitato per questo rischio. Disponibile solo per i clienti approvati, vedere Filtri di contenuto
Basso Contrassegna il contenuto con gravità bassa o superiore. Più restrittivo.
Medio Contrassegna il contenuto a gravità media e livelli superiori.
Alto Contrassegna solo il contenuto più grave. Meno restrittivo.

Per una suddivisione dettagliata dei rilevamenti di ogni livello di gravità, vedere Categorie di filtro del contenuto.

Applicabilità del punto di intervento

La tabella seguente riepiloga i punti di intervento applicabili a modelli e agenti:

Punto di intervento Applicabile ai modelli Applicabile agli agenti (anteprima)
Input utente
Chiamata dello strumento ✅ (Anteprima)
Risposta dello strumento ✅ (Anteprima)
Output

Importante

I rischi vengono rilevati in un agente in base al guardrail assegnato, non alla protezione del modello sottostante. La guardia agente sostituisce completamente il guardrail del modello.

Esempio: Comportamento di override di protezione

Si consideri questo scenario:

  • Un'implementazione del modello ha un controllo con rilevamento della violenza impostato su Alto per input e output utente.
  • Un agente che usa tale modello ha un controllo con il rilevamento della violenza impostato su Basso per l'input e l'output dell'utente. L'agente non ha alcun controllo per il rilevamento di violenza nelle chiamate e risposte degli strumenti.

Applicabilità dell'azione

Quando un controllo rileva un rischio, può eseguire una delle due azioni. La tabella seguente riepiloga le azioni applicabili a modelli e agenti:

Azione Applicabile ai modelli Applicabile agli agenti (anteprima)
Annotare
Annotare e bloccare

Ereditarietà e sovrascittura di vincoli di sicurezza

Importante

I rischi vengono rilevati in un agente in base al guardrail assegnato, non alla protezione del modello sottostante. La guardia agente sostituisce completamente il guardrail del modello.

Scenario di esempio:

  • Un'implementazione del modello ha un controllo con rilevamento della violenza impostato su Alto per input e output utente.
  • Un agente che usa tale modello ha un controllo con il rilevamento della violenza impostato su Basso per l'input e l'output dell'utente. L'agente non dispone affatto di controlli per il rilevamento della violenza per le chiamate e le risposte degli strumenti.

Comportamento previsto per il rilevamento della violenza in tale agente:

Data la configurazione precedente, ecco come funziona il rilevamento della violenza in ogni fase:

  • Le query degli utenti all'agente vengono analizzate per violenza a un livello basso
  • Le chiamate degli strumenti generate internamente all'agente dal modello sottostante, incluso il contenuto poi inviato a tale strumento durante l'esecuzione della chiamata allo strumento, non verranno analizzate per la violenza
  • La risposta restituita dallo strumento non verrà analizzata per la violenza
  • L'output finale viene analizzato per individuare violenza a un livello basso prima di essere restituito all'utente in risposta alla query originale.

Protezioni predefinite

Per impostazione predefinita, ai modelli viene assegnato il Microsoft. DefaultV2 guardrail. Per altre informazioni sui controlli inclusi, vedere Filtro contenuto.

L'assegnazione di protezione predefinita per gli agenti segue queste regole:

  • Se si assegna una protezione personalizzata a un agente, viene usata tale protezione.
  • Nel caso in cui non venga assegnato alcun guardrail personalizzato, l'agente eredita il guardrail della distribuzione del modello sottostante.
  • Un agente usa solo il Microsoft. DefaultV2 guardrail se la distribuzione del modello usa tale protezione o se la si assegna in modo esplicito.

Nota

Ad esempio, se non viene specificata alcuna protezione personalizzata per un agente e tale agente usa una distribuzione mini GPT-4o con un guardrail denominato "MyCustomGuardrails", l'agente usa anche "MyCustomGuardrails" fino a quando non si assegna un guardrail diverso.

Risoluzione dei problemi

Guardrail non applicabile all'agente

Sintomo: Il comportamento dell'agente non corrisponde alla configurazione della protezione assegnata.

Cause:

  • Guardrail contiene controlli con rischi di anteprima non ancora supportati per gli agenti (Spotlighting, Groundedness)
  • L'agente utilizza invece la barriera protettiva del modello al posto di quella assegnata.

Soluzione:

  • Verificare la protezione assegnata usando il portale Azure AI Foundry o SDK
  • Verificate che i controlli di guardrail non siano basati su rischi non gestiti dall'agente
  • Assegnare esplicitamente il guardrail all'agente per scavalcare le impostazioni predefinite del modello

Contenuto contrassegnato in modo imprevisto

Sintomo: Contenuto legittimo bloccato da guardrail.

Cause:

  • Livello di gravità impostato troppo restrittivo (blocco elevato)
  • Il modello di classificazione ha rilevato un pattern di caso limite

Soluzione:

  • Esaminare le impostazioni del livello di gravità per la categoria di rischio interessata
  • Testare con livelli di gravità diversi per trovare la soglia appropriata
  • Per segnalare i falsi positivi persistenti, contattare il supporto tecnico di Azure per esaminare la classificazione.

Le chiamate degli strumenti non vengono scansionate

Sintomo: Il contenuto dannoso passa attraverso chiamate/risposte degli strumenti.

Cause:

  • Punti di intervento di chiamata e risposta degli strumenti non configurati in guardrail
  • Uso delle funzionalità di anteprima che potrebbero non essere completamente abilitate

Soluzione:

  • Verificare che le protezioni includano controlli per i punti di intervento delle chiamate agli strumenti e delle loro risposte
  • Verificare che le funzionalità di anteprima del servizio Foundry Agent siano abilitate per il progetto

Passaggi successivi