Applicare controlli di sicurezza del contenuto alle richieste LLM

Il llm-content-safety criterio applica controlli di sicurezza del contenuto a richieste LLM (Large Language Model) o risposte (completamenti) inviandoli al servizio Sicurezza dei contenuti di Azure AI . Quando si abilitano i criteri e Sicurezza dei contenuti di Azure AI rileva contenuti dannosi, Gestione API blocca la richiesta o la risposta e restituisce un 403 codice di errore.

Annotazioni

I termini categoria e categorie usati in Gestione API sono sinonimi di categorie di danni e categorie dannose nel servizio Sicurezza dei contenuti di Azure AI. Per altre informazioni, vedere Categorie di danni in Sicurezza dei contenuti per intelligenza artificiale di Azure.

Usare i criteri in scenari come i seguenti:

Blocca le richieste o le risposte che contengono categorie predefinite di contenuti dannosi o discorsi di odio.
Applicare elenchi di blocchi personalizzati per impedire l'invio o la ricezione di contenuto specifico.
Schermata contro i prompt che corrispondono ai modelli di attacco.

Annotazioni

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di Gestione API.

Prerequisiti

Una risorsa di Sicurezza dei contenuti di Intelligenza artificiale di Azure .
Un back-end di Gestione API configurato per instradare le chiamate api di sicurezza del contenuto ed eseguire l'autenticazione al servizio Sicurezza del contenuto di Intelligenza artificiale di Azure:
- L'identità gestita di Gestione API deve essere configurata nel servizio Sicurezza del contenuto di Intelligenza artificiale di Azure con il ruolo utente di Servizi cognitivi.
- L'URL back-end di Sicurezza dei contenuti di Azure AI, a cui fa backend-id riferimento nei llm-content-safety criteri, deve essere nel formato https://<content-safety-service-name>.cognitiveservices.azure.com.
- Le credenziali di autorizzazione del back-end di Sicurezza dei contenuti di Azure AI devono essere impostate su Identità gestita abilitata con un ID risorsa esatto di https://cognitiveservices.azure.com.

Istruzione del criterio

<llm-content-safety backend-id="name of backend entity" shield-prompt="true | false" enforce-on-completions="true | false" window-size="integer" window-overlap-size="integer">
    <categories output-type="FourSeverityLevels | EightSeverityLevels">
        <category name="Hate | SelfHarm | Sexual | Violence" threshold="integer" />
        <!-- If there are multiple categories, add more category elements -->
        [...]
    </categories>
    <blocklists>
        <id>blocklist-identifier</id>
        <!-- If there are multiple blocklists, add more id elements -->
        [...]
    </blocklists>
</llm-content-safety>

Attributi

Attributo	Descrizione	Obbligatorio	Predefinito
backend-id	Identificatore (nome) del back-end di Sicurezza dei contenuti di Intelligenza artificiale di Azure per instradare le chiamate API di sicurezza del contenuto a. Le espressioni di criteri sono consentite.	Sì	Non disponibile
schermata-prompt	Se impostato su `true`, controllare il contenuto per gli attacchi utente. In caso contrario, ignorare questo controllo. Le espressioni di criteri sono consentite.	NO	`false`
enforce-on-completions	Se impostato su `true` quando si impostano i criteri nella sezione in ingresso per i controlli di sicurezza dei contenuti sulle richieste, applicare controlli di sicurezza del contenuto anche ai completamenti della chat per la convalida della risposta. Quando si impostano i criteri nella sezione in uscita per i controlli di sicurezza dei contenuti sulle risposte, questo attributo viene ignorato. Le espressioni di criteri sono consentite.	NO	`false`
dimensioni finestra	Dimensioni della finestra di testo in caratteri inviati dai criteri ad Sicurezza dei contenuti di Azure AI per la valutazione. Configurabile solo per le risposte; per le richieste, viene sempre usata la dimensione predefinita della finestra. Le espressioni di criteri sono consentite.	NO	10.000 caratteri (limite di sicurezza dei contenuti per intelligenza artificiale di Azure)
dimensioni della sovrapposizione di finestre	Dimensioni della sovrapposizione in caratteri tra finestre di testo quando il contenuto viene suddiviso usando l'attributo `window-size` . Se non si specifica un valore, le finestre non si sovrappongono. Le espressioni di criteri sono consentite.	NO	Non disponibile

Elementi

Elemento	Descrizione	Obbligatorio
categorie	Elenco di `category` elementi che specificano le impostazioni per le richieste di blocco quando viene rilevata la categoria.	NO
blocklist	Elenco di elementi dell'elenco`id` di elementi bloccati dell'istanza di Sicurezza dei contenuti di Intelligenza artificiale di Azure per cui il rilevamento causa il blocco della richiesta. Le espressioni di criteri sono consentite.	NO

attributi delle categorie

Attributo	Descrizione	Obbligatorio	Predefinito
tipo di output	Specifica il modo in cui i livelli di gravità vengono restituiti da Sicurezza dei contenuti di Intelligenza artificiale di Azure. L'attributo deve avere uno dei valori seguenti. - `FourSeverityLevels`: gravità dell'output in quattro livelli: 0,2,4,6. - `EightSeverityLevels`: gravità dell'output in otto livelli: 0,1,2,3,4,5,6,7. Le espressioni di criteri sono consentite.	NO	`FourSeverityLevels`

attributi di categoria

Attributo	Descrizione	Obbligatorio	Predefinito
nome	Specifica il nome di questa categoria. L'attributo deve avere uno dei valori seguenti: `Hate`, `SelfHarm`, `Sexual`, `Violence`. Le espressioni di criteri sono consentite.	Sì	Non disponibile
soglia	Specifica il valore soglia per questa categoria in cui le richieste o le risposte vengono bloccate. Le richieste con gravità del contenuto inferiori alla soglia non vengono bloccate. Il valore deve essere compreso tra 0 (più restrittivo) e 7 (meno restrittivo). Le espressioni di criteri sono consentite.	Sì	Non disponibile

Uso

Sezioni dei criteri: in ingresso, in uscita
Ambiti dei criteri: globale, area di lavoro, prodotto, API
Gateway: classico, v2, consumo, self-hosted, area di lavoro

Note sull'utilizzo

Configurare i criteri nella sezione in ingresso per controllare le richieste e nella sezione in uscita per controllare le risposte.
Per le risposte di streaming, il gestore di flusso memorizza nel buffer gli eventi in una finestra temporale scorrevole e, se viene rilevata una violazione della sicurezza del contenuto, interrompe l'inoltro di altri eventi al client. In questo caso non viene restituito un 403 errore.
Se la richiesta o la risposta supera il limite di caratteri di Sicurezza del contenuto di Intelligenza artificiale di Azure, il criterio restituisce un 403 errore.
È possibile usare questo criterio più volte per definizione di criteri.

Esempio

L'esempio seguente, se configurato nella sezione in ingresso, applica i controlli di sicurezza dei contenuti alle richieste LLM usando il servizio Sicurezza dei contenuti di Azure per intelligenza artificiale. I criteri bloccano le richieste che contengono il parlato nella Hate categoria o Violence con un livello di gravità pari a 4 o superiore. In altre parole, il filtro consente ai livelli 0-3 di continuare, mentre i livelli 4-7 sono bloccati. L'aumento della soglia di una categoria aumenta la tolleranza e riduce potenzialmente il numero di richieste bloccate. Abbassare la soglia riduce la tolleranza e potenzialmente aumenta il numero di richieste bloccate. L'attributo shield-prompt è impostato su true per verificare la presenza di attacchi antagonisti.

<policies>
    <inbound>
        <llm-content-safety backend-id="content-safety-backend" shield-prompt="true">
            <categories output-type="EightSeverityLevels">
                <category name="Hate" threshold="4" />
                <category name="Violence" threshold="4" />
            </categories>
        </llm-content-safety>
    </inbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere:

Esercitazione: Trasformare e proteggere l'API
Informazioni di riferimento sui criteri per un elenco completo delle istruzioni dei criteri e delle relative impostazioni
Espressioni di politica
Modificare o impostare criteri
Riutilizzare le configurazioni delle politiche
Repository dei frammenti di criteri
repository di esempi Policy
Toolkit delle politiche della Gestione API di Azure
Ottenere assistenza da Copilot per creare, spiegare e risolvere le politiche

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-01