Punti di intervento

L'intelligenza artificiale agente espande sia la capacità che la superficie di attacco. Quando un agente può chiamare strumenti esterni, scrivere nei database o attivare processi downstream, malfunzionamenti o attacchi dannosi possono deviarlo dal corso, esporre dati sensibili o eseguire azioni nocive.

Le protezioni applicate solo a livello di modello possono lasciare esposti questi vettori. Per chiudere questo divario, Microsoft Foundry consente di applicare protezioni direttamente agli agenti e configurare singoli controlli in quattro diversi punti di intervento.

Punti di intervento

Punto di intervento Descrizione Controllo di esempio in questo punto di intervento
Input utente Query inviata da un utente a un modello o a un agente. Talvolta chiamato "prompt". A questo punto di intervento, alcuni controlli richiedono l'inclusione dell'incorporamento del documento da parte dell'utente per avere effetto. Rischio: attacchi di input dell'utente
Azione: Annotare e bloccare

Quando questo controllo viene specificato nella protezione di un agente o di un modello, l'input dell'utente viene analizzato da un modello di classificazione che rileva gli attacchi jailbreak. Se viene rilevato un attacco, l'input dell'utente viene bloccato dall'invio al modello, interrompendo l'interazione.
Chiamata dello strumento (anteprima) L'azione successiva che l'agente propone di eseguire, come generato dal modello sottostante. La chiamata allo strumento è costituita dallo strumento chiamato e dagli argomenti con cui viene chiamato, inclusi i dati inviati allo strumento. Rischio: Odio (alto)
Azione: Annotare e bloccare

Quando questo controllo viene specificato, ogni volta che l'agente sta per eseguire una chiamata allo strumento, il contenuto proposto inviato allo strumento viene analizzato per individuare contenuti di incitamento all'odio. Se viene rilevato alcun elemento, la chiamata allo strumento non verrà eseguita e l'agente smette di funzionare fino a quando non è presente un altro input dell'utente.
Risposta dello strumento (anteprima) Il contenuto restituito da uno strumento, all'interno dell'orchestrazione di un agente e prima che venga aggiunto alla memoria dell'agente o restituito all'utente finale. Rischio: Attacco indiretto
Azione: Annotare e bloccare

Quando questo controllo viene specificato, il payload completo inviato da ogni strumento a questo agente viene analizzato per individuare tentativi di attacchi indiretti di prompt injection. Se rilevato, l'agente smette di funzionare immediatamente e impedisce che il contenuto dannoso venga salvato dall'agente e che l'agente venga portato volutamente fuori strada.
Output Contenuto finale inviato all'utente finale in risposta alla loro richiesta. Rischio: Materiale protetto per il testo
Azione: Annota solo

Quando si specifica questo controllo, il contenuto finale che deve essere visualizzato all'utente viene analizzato per determinati tipi di testo protetto da copyright. Se rilevato, è presente un flag nella risposta di annotazione per l'API usata per chiamare questo modello o agente.

Nota

Considerazioni sulle prestazioni
L'elaborazione delle barriere di sicurezza ad ogni punto d'intervento aggiunge circa 50-100 ms di latenza. La latenza effettiva varia in base alla lunghezza del contenuto e al numero di controlli attivi nel guardrail.

Configurare i controlli nei punti di intervento

Quando si crea una protezione, si selezionano i controlli da abilitare e in quale punto di intervento applicarli. Ad esempio, per proteggersi da attacchi indiretti nelle risposte degli strumenti:

  1. Creare una protezione nel portale di Foundry.
  2. Aggiungere un controllo per il rischio "Attacco indiretto".
  3. Selezionare "Risposta strumento" come punto di intervento.
  4. Scegliere "Annota e blocca" come azione.

Per i passaggi dettagliati, vedere Creare un guardrail.

Strumenti supportati

I punti di intervento chiamata e risposta strumenti richiedono il supporto della moderazione dallo stesso strumento. Attualmente, gli strumenti seguenti supportano la moderazione: Azure AI Search, Funzioni di Azure, OpenAPI, Sharepoint Grounding, Fabric Data Agent, Bing Grounding, Ricerca personalizzata Bing e Automazione browser. Se si configurano i controlli nei punti di intervento di chiamata dello strumento o di risposta agli strumenti, ma l'agente usa strumenti non inclusi in questo elenco, tali controlli non saranno effettivi per tali strumenti specifici.