Condividi tramite


Applicare controlli di sicurezza del contenuto alle richieste LLM

SI APPLICA A: Sviluppatore | Basic | Basic v2 | Standard | Standard v2 | Premium | Premium v2

Il llm-content-safety criterio applica controlli di sicurezza del contenuto a richieste LLM (Large Language Model) o risposte (completamenti) inviandoli al servizio Azure AI Content Safety . Quando si abilitano i criteri e Azure AI Content Safety rileva contenuti dannosi, Gestione API blocca la richiesta o la risposta e restituisce un 403 codice di errore.

Annotazioni

I termini categoria e categorie usati in Gestione API sono sinonimi di categorie di danni e categorie dannose nel servizio Azure AI Content Safety. Per altre informazioni, vedere Categorie di danni in Sicurezza dei contenuti per intelligenza artificiale di Azure.

Usare i criteri in scenari come i seguenti:

  • Blocca le richieste o le risposte che contengono categorie predefinite di contenuti dannosi o discorsi di odio.
  • Applicare elenchi di blocchi personalizzati per impedire l'invio o la ricezione di contenuto specifico.
  • Schermata contro i prompt che corrispondono ai modelli di attacco.

Annotazioni

Impostare gli elementi e gli elementi figlio del criterio nell'ordine specificato nell'istruzione del criterio. Altre informazioni su come impostare o modificare i criteri di Gestione API.

Prerequisiti

  • Una risorsa di Sicurezza dei contenuti di Intelligenza artificiale di Azure .
  • Un back-end di Gestione API configurato per instradare le chiamate api di sicurezza del contenuto ed eseguire l'autenticazione al servizio Sicurezza del contenuto di Intelligenza artificiale di Azure:
    • L'identità gestita di Gestione API deve essere configurata nel servizio Sicurezza del contenuto di Intelligenza artificiale di Azure con il ruolo utente di Servizi cognitivi.
    • L'URL back-end di Azure AI Content Safety, a cui fa backend-id riferimento nei llm-content-safety criteri, deve essere nel formato https://<content-safety-service-name>.cognitiveservices.azure.com.
    • Le credenziali di autorizzazione del back-end di Azure AI Content Safety devono essere impostate su Identità gestita abilitata con un ID risorsa esatto di https://cognitiveservices.azure.com.

Istruzione del criterio

<llm-content-safety backend-id="name of backend entity" shield-prompt="true | false" enforce-on-completions="true | false" window-size="integer" window-overlap-size="integer">
    <categories output-type="FourSeverityLevels | EightSeverityLevels">
        <category name="Hate | SelfHarm | Sexual | Violence" threshold="integer" />
        <!-- If there are multiple categories, add more category elements -->
        [...]
    </categories>
    <blocklists>
        <id>blocklist-identifier</id>
        <!-- If there are multiple blocklists, add more id elements -->
        [...]
    </blocklists>
</llm-content-safety>

Attributi

Attributo Descrizione Obbligatorio Predefinito
backend-id Identificatore (nome) del back-end di Sicurezza dei contenuti di Intelligenza artificiale di Azure per instradare le chiamate API di sicurezza del contenuto a. Le espressioni di criteri sono consentite. Non disponibile
schermata-prompt Se impostato su true, controllare il contenuto per gli attacchi utente. In caso contrario, ignorare questo controllo. Le espressioni di criteri sono consentite. NO false
enforce-on-completions Se impostato su true quando si impostano i criteri nella sezione in ingresso per i controlli di sicurezza dei contenuti sulle richieste, applicare controlli di sicurezza del contenuto anche ai completamenti della chat per la convalida della risposta. Quando si impostano i criteri nella sezione in uscita per i controlli di sicurezza dei contenuti sulle risposte, questo attributo viene ignorato. Le espressioni di criteri sono consentite. NO false
dimensioni finestra Dimensioni della finestra di testo in caratteri inviati dai criteri ad Azure AI Content Safety per la valutazione. Configurabile solo per le risposte; per le richieste, viene sempre usata la dimensione predefinita della finestra. Le espressioni di criteri sono consentite. NO 10.000 caratteri (limite di sicurezza dei contenuti per intelligenza artificiale di Azure)
dimensioni della sovrapposizione di finestre Dimensioni della sovrapposizione in caratteri tra finestre di testo quando il contenuto viene suddiviso usando l'attributo window-size . Se non si specifica un valore, le finestre non si sovrappongono. Le espressioni di criteri sono consentite. NO Non disponibile

Elementi

Elemento Descrizione Obbligatorio
categorie Elenco di category elementi che specificano le impostazioni per le richieste di blocco quando viene rilevata la categoria. NO
blocklist Elenco di elementi dell'elencoid di elementi bloccati dell'istanza di Sicurezza dei contenuti di Intelligenza artificiale di Azure per cui il rilevamento causa il blocco della richiesta. Le espressioni di criteri sono consentite. NO

attributi delle categorie

Attributo Descrizione Obbligatorio Predefinito
tipo di output Specifica il modo in cui i livelli di gravità vengono restituiti da Sicurezza dei contenuti di Intelligenza artificiale di Azure. L'attributo deve avere uno dei valori seguenti.

- FourSeverityLevels: gravità dell'output in quattro livelli: 0,2,4,6.
- EightSeverityLevels: gravità dell'output in otto livelli: 0,1,2,3,4,5,6,7.

Le espressioni di criteri sono consentite.
NO FourSeverityLevels

attributi di categoria

Attributo Descrizione Obbligatorio Predefinito
nome Specifica il nome di questa categoria. L'attributo deve avere uno dei valori seguenti: Hate, SelfHarm, Sexual, Violence. Le espressioni di criteri sono consentite. Non disponibile
soglia Specifica il valore soglia per questa categoria in cui le richieste o le risposte vengono bloccate. Le richieste con gravità del contenuto inferiori alla soglia non vengono bloccate. Il valore deve essere compreso tra 0 (più restrittivo) e 7 (meno restrittivo). Le espressioni di criteri sono consentite. Non disponibile

Uso

Note sull'utilizzo

  • Configurare i criteri nella sezione in ingresso per controllare le richieste e nella sezione in uscita per controllare le risposte.
  • Per le risposte di streaming, il gestore di flusso memorizza nel buffer gli eventi in una finestra temporale scorrevole e, se viene rilevata una violazione della sicurezza del contenuto, interrompe l'inoltro di altri eventi al client. In questo caso non viene restituito un 403 errore.
  • Se la richiesta o la risposta supera il limite di caratteri di Sicurezza del contenuto di Intelligenza artificiale di Azure, il criterio restituisce un 403 errore.
  • È possibile usare questo criterio più volte per definizione di criteri.

Esempio

L'esempio seguente, se configurato nella sezione in ingresso, applica i controlli di sicurezza dei contenuti alle richieste LLM usando il servizio Sicurezza dei contenuti di Azure per intelligenza artificiale. I criteri bloccano le richieste che contengono il parlato nella Hate categoria o Violence con un livello di gravità pari a 4 o superiore. In altre parole, il filtro consente ai livelli 0-3 di continuare, mentre i livelli 4-7 sono bloccati. L'aumento della soglia di una categoria aumenta la tolleranza e riduce potenzialmente il numero di richieste bloccate. Abbassare la soglia riduce la tolleranza e potenzialmente aumenta il numero di richieste bloccate. L'attributo shield-prompt è impostato su true per verificare la presenza di attacchi antagonisti.

<policies>
    <inbound>
        <llm-content-safety backend-id="content-safety-backend" shield-prompt="true">
            <categories output-type="EightSeverityLevels">
                <category name="Hate" threshold="4" />
                <category name="Violence" threshold="4" />
            </categories>
        </llm-content-safety>
    </inbound>
</policies>

Per ulteriori informazioni sull'utilizzo dei criteri, vedere: