Filtro di rilevamento del materiale protetto

Il filtro di rilevamento dei materiali protetti analizza l'output dei modelli di linguaggio di grandi dimensioni per identificare e contrassegnare materiale protetto noto. Aiuta le organizzazioni a impedire la generazione di contenuti che corrispondono strettamente al testo o al codice protetto da copyright.

Il filtro del testo del materiale protetto contrassegna il contenuto di testo noto che i modelli linguistici di grandi dimensioni potrebbero restituire, ad esempio testi di canzoni, articoli, ricette e contenuto Web selezionato.

Il filtro del codice materiale protetto contrassegna il contenuto di codice protetto che i modelli linguistici di grandi dimensioni potrebbero restituire. Questo è il contenuto presente nei repository GitHub noti e include librerie software, codice sorgente, algoritmi e altro contenuto di programmazione proprietaria.

Importante

I modelli «Guardrails» e controlli per il rilevamento dei materiali protetti, il rilevamento della coerenza rispetto ai dati di riferimento e le categorie personalizzate (standard) funzionano solo con input in lingua inglese.

Altri modelli di filtro del contenuto vengono sottoposti a training e testati in modo specifico nelle lingue seguenti: cinese, inglese, francese, tedesco, spagnolo, italiano, giapponese, portoghese. Tuttavia, queste funzionalità possono funzionare in molti altri linguaggi, ma la qualità potrebbe variare. In tutti i casi, è necessario eseguire test personalizzati per assicurarsi che funzioni per l'applicazione.

Suggerimento

Per informazioni su come usare il rilevamento dei materiali protetti nelle applicazioni, vedere Guida introduttiva: Materiale protetto per il testo e Guida introduttiva: Materiale protetto per il codice.

Attenzione

Lo scanner/indicizzatore del servizio Content Safety è aggiornato solo al 6 aprile 2023. Il codice aggiunto a GitHub dopo questa data non verrà rilevato. Usare la propria discrezione quando si usa materiale protetto per il codice per rilevare i corpi di codice recenti.

Rilevando e impedendo la visualizzazione di materiale protetto, le organizzazioni possono garantire la conformità alle leggi sulla proprietà intellettuale, mantenere l'originalità dei contenuti e proteggere la loro reputazione.

Questa guida fornisce informazioni dettagliate sui tipi di contenuto rilevati dall'API materiale protetto.

Scenari utente

Piattaforme di generazione di contenuti per la scrittura creativa

  • Scenario: una piattaforma di generazione di contenuti che usa l'intelligenza artificiale generativa per la scrittura creativa (ad esempio, post di blog, storie, copia di marketing) integra la funzionalità Materiale protetto per il testo per impedire la generazione di contenuti che corrispondono strettamente a materiale protetto da copyright noto.
  • Utente: amministratori della piattaforma e creatori di contenuti.
  • Azione: la piattaforma usa Sicurezza dei contenuti di Azure AI per analizzare il contenuto generato dall'intelligenza artificiale prima che venga fornito agli utenti. Se il testo generato corrisponde a materiale protetto, il contenuto viene contrassegnato e bloccato o rivisto.
  • Risultato: la piattaforma evita potenziali violazioni del copyright e garantisce che tutto il contenuto generato sia originale e conforme alle leggi sulla proprietà intellettuale.

Creazione automatica di contenuti di social media

  • Scenario: un'agenzia di marketing digitale usa l'intelligenza artificiale generativa per automatizzare la creazione di contenuti di social media. L'agenzia integra la funzionalità Protected Material for Text per evitare di pubblicare contenuti generati dall'IA che includono testo protetto da copyright, ad esempio testi di canzoni o estratti da libri.
  • Utente: marketer digitali e social media manager.
  • Azione: l'agenzia impiega Sicurezza dei contenuti di Azure AI per controllare tutti i contenuti dei social media generati dall'IA per individuare le corrispondenze con un database di materiale protetto. Il contenuto corrispondente viene contrassegnato per la revisione o bloccato dalla pubblicazione.
  • Risultato: l'agenzia mantiene la conformità alle leggi sul copyright ed evita rischi di reputazione associati alla pubblicazione di contenuti non autorizzati.

Scrittura di notizie assistita dall'intelligenza artificiale

  • Scenario: un news outlet usa l'intelligenza artificiale generativa per assistere i giornalisti nella stesura di articoli e report. Per garantire che il contenuto non replichi involontariamente articoli di notizie protette o altro materiale protetto da copyright, lo outlet utilizza la funzionalità Materiale protetto per il testo.
  • Utente: giornalisti, redattori e responsabili della conformità.
  • Azione: il punto vendita di notizie integra Sicurezza dei contenuti di Azure AI nel flusso di lavoro di creazione del contenuto. Le bozze generate dall'intelligenza artificiale vengono analizzate automaticamente per il contenuto protetto prima dell'invio per la revisione editoriale.
  • Risultato: il news outlet impedisce violazioni accidentali del copyright e mantiene l'integrità e l'originalità della sua segnalazione.

Piattaforme di E-Learning che usano l'intelligenza artificiale per la generazione di contenuti

  • Scenario: una piattaforma di e-learning usa l'intelligenza artificiale generativa per generare contenuti didattici, ad esempio riepiloghi, quiz e testo esplicativo. La piattaforma usa la funzionalità Materiale protetto per il testo per garantire che il contenuto generato non includa materiale protetto da libri di testo, articoli o documenti accademici.
  • Utente: creatori di contenuti didattici e responsabili della conformità.
  • Azione: la piattaforma integra la funzionalità per analizzare i materiali didattici generati dall'intelligenza artificiale. Se un contenuto corrisponde a materiale accademico protetto noto, viene contrassegnato per la revisione o rimosso automaticamente.
  • Risultato: la piattaforma mantiene la qualità dei contenuti didattici ed è conforme alle leggi sul copyright, evitando l'uso di materiale protetto nelle risorse di apprendimento generate dall'IA.

Generatori di ricette basate sull'intelligenza artificiale

  • Scenario: un sito Web di cibo e ricetta usa l'intelligenza artificiale generativa per generare nuove ricette in base alle preferenze dell'utente. Per evitare di generare contenuti che corrispondano a ricette protette da famosi cookbook o siti Web, il sito web integra la funzionalità Materiale protetto per il testo.
  • Utente: gestori di contenuti e amministratori della piattaforma.
  • Azione: il sito Web usa Sicurezza dei contenuti di Azure AI per controllare le ricette generate dall'intelligenza artificiale su un database di contenuto protetto noto. Se una ricetta generata corrisponde a quella protetta, viene contrassegnata e modificata o bloccata.
  • Risultato: il sito web garantisce che tutte le ricette generate dall'IA siano originali, riducendo il rischio di violazione del copyright.

Esempi di testo materiale protetto

Fare riferimento a questa tabella per informazioni dettagliate sulle principali categorie di rilevamento del testo del materiale protetto. Tutte e quattro le categorie vengono applicate quando si chiama l'API.

Categoria Ambito Considerato accettabile Considerato dannoso
Ricette Contenuto protetto da copyright relativo alle ricette.

Un altro testo dannoso o sensibile non è incluso nell'ambito di questo compito, a meno che non si sovrapponga al danno relativo al copyright su proprietà intellettuale delle ricette.
  • Collegamenti a pagine Web contenenti informazioni sulle ricette
  • Qualsiasi contenuto di ricette che non hanno protezione IP/Copyright o protezione IP/Copyright bassa.
    • Elenchi di ingredienti
    • Istruzioni di base per combinare e cucinare ingredienti
  • Rifiuto o rifiuto di fornire contenuto protetto da copyright:
    • Modifica di un argomento per evitare la condivisione di contenuti protetti da copyright
    • Rifiuto di condividere contenuti protetti da copyright
    • Fornire informazioni non rispondenti
  • Altri contenuti letterari in una ricetta
    • Raccolta di aneddoti, storie o commenti personali sulla ricetta (40 caratteri o più)
    • Nomi creativi per la ricetta che non sono limitati al nome noto del piatto, o un semplice riepilogo descrittivo del piatto che indica qual è l'ingrediente principale (40 caratteri o più)
    • Descrizioni creative degli ingredienti o dei passaggi per combinare o cucinare ingredienti, incluse descrizioni che contengono più informazioni di quanto necessario per creare il piatto, affidarsi a parole imprecise o contenere contenuto volgare (40 caratteri o più)
  • Metodi per accedere al contenuto protetto da copyright:
    • Modi per ignorare paywall per accedere alle ricette
Contenuto Web Tutti i siti Web che hanno webmd.com come nome di dominio URL. Si concentra solo sui problemi relativi ai contenuti coperti da copyright intorno al contenuto web selezionato.

Altro testo dannoso o sensibile non rientra nell'ambito di questa attività, a meno che non intersechi contenuti Web selezionati dannosi.
  • Collegamenti alle pagine Web
  • Brevi estratti o frammenti di contenuto Web selezionato, purché:
    • Sono rilevanti per la query dell'utente
    • Sono meno di 200 caratteri
  • Contenuto sostanziale del contenuto Web selezionato
    • Sezioni di risposta più lunghe di 200 caratteri che presentano una notevole somiglianza con un blocco di testo dal contenuto Web selezionato
    • Estratti da Contenuto Web selezionato con lunghezza superiore a 200 caratteri
    • Citazioni tratte dal contenuto Web selezionato con più di 200 caratteri
  • Metodi per accedere al contenuto protetto da copyright:
    • Modi per ignorare paywall o protezioni DRM per accedere al contenuto Web selezionato protetto da copyright
Notizie Concentrarsi solo sui problemi relativi ai contenuti protetti da copyright intorno alle notizie.

Altri testi dannosi o sensibili non rientrano nell'ambito di questa attività, a meno che non interferiscano con il copyright delle notizie IP.
  • Collegamenti a pagine Web che ospitano notizie o informazioni su notizie, riviste o articoli di blog, purché:
    • Hanno autorizzazioni legittime
    • Hanno ottenuto la licenza per la copertura delle notizie
    • Sono piattaforme autorizzate
  • Collegamenti a pagine Web autorizzate che contengono lettori audio/video incorporati, purché:
    • Hanno autorizzazioni legittime
    • Hanno ottenuto la licenza per la copertura delle notizie
    • Sono piattaforme di streaming autorizzate
    • Sono canali YouTube ufficiali
  • Brevi estratti/frammenti di codice, ad esempio titoli o didascalie di articoli di notizie, purché:
    • Sono rilevanti per la query dell'utente
    • Non sono una parte sostanziale dell'articolo
    • Non sono l'intero articolo
  • Riepilogo degli articoli di notizie purché:
    • È rilevante per la query dell'utente
    • È breve e effettivo
    • Non copia né parafrasa una parte sostanziale dell'articolo
    • È chiaramente e visibilmente citato come riepilogo
  • Analisi/Critica/Revisione di articoli di notizie purché:
    • È rilevante per la query dell'utente
    • È breve e effettivo
    • Non copia né parafrasa una parte sostanziale dell'articolo
    • È chiaramente e visibilmente citato come analisi/critica/recensione
  • Qualsiasi contenuto di notizie che non dispone di protezioni IP/Copyright:
    • Notizie/Riviste/Blog che si trovano nel dominio pubblico
    • Notizie/riviste/Blog per cui è trascorsa la protezione del copyright, è stato ceduto, o mai esistito
  • Rifiuto o rifiuto di fornire contenuto protetto da copyright:
    • Modifica dell'argomento per evitare la condivisione di contenuti protetti da copyright
    • Rifiuto di condividere contenuti protetti da copyright
    • Fornire informazioni non rispondenti
  • Collegamenti a pdf o a qualsiasi altro file contenente testo completo di notizie/riviste/articoli di blog, a meno che:
    • Vengono originati da piattaforme autorizzate con autorizzazioni e licenze legittime
  • Contenuto di notizie
    • Più di 200 caratteri presi verbatim da qualsiasi articolo di notizie
    • Più di 200 caratteri sostanzialmente simili a un blocco di testo da qualsiasi articolo di notizie
    • Accesso diretto a notizie,riviste/articoli di blog che si trovano dietro paywall
  • Metodi per accedere al contenuto protetto da copyright:
    • Procedura per scaricare notizie da un sito Web non autorizzato
    • Modi per ignorare paywall o protezioni DRM per accedere a notizie o video protetti da copyright
Testi delle canzoni Si concentra solo sui temi del contenuto protetto da copyright intorno alle canzoni.

Un altro testo dannoso o sensibile non rientra nell'ambito di questa attività, a meno che non intersechi il danno ai diritti d'autore della proprietà intellettuale (IP) delle canzoni.
  • Collegamenti a pagine Web contenenti informazioni sui brani, ad esempio:
    • Testi delle canzoni
    • Accordi o tablature della musica associata
    • Analisi o recensioni della canzone/musica
  • Collegamenti a pagine Web autorizzate che contengono lettori audio/video incorporati, purché:
    • Hanno autorizzazioni legittime
    • Hanno concesso in licenza musica
    • Sono piattaforme di streaming autorizzate
    • Sono canali YouTube ufficiali
  • Brevi estratti o frammenti di testi delle canzoni, purché:
    • Sono rilevanti per la query dell'utente
    • Non sono una parte sostanziale dei testi
    • Non sono l'intero testo della canzone
    • Non sono più di 11 parole lunghe
  • Brevi estratti o frammenti di accordi/tabulazioni delle canzoni, purché:
    • Sono rilevanti per la query dell'utente
    • Non sono una parte sostanziale degli accordi/tabulazioni
    • Non sono gli interi accordi e tablature
  • Qualsiasi contenuto di brani che non dispongono di protezioni IP/Copyright:
    • Canzoni/Testi/Accordi/Tabulature che si trovano nel dominio pubblico
    • Canzoni/Testi/Accordi/Tabulazioni per cui la protezione del copyright è scaduta, è stata rinunciata o non è mai esistita
  • Rifiuto o rifiuto di fornire contenuto protetto da copyright:
    • Modifica dell'argomento per evitare la condivisione di contenuti protetti da copyright
    • Rifiuto di condividere contenuti protetti da copyright
    • Fornire informazioni non rispondenti
  • Testi di una canzone
    • Testo completo
    • Parte sostanziale dei testi
    • Parte dei testi che contengono più di 11 parole
  • Accordi o tabulazioni di una canzone
    • Interi accordi/tabulazioni
    • Parte sostanziale degli accordi/tabulazioni
  • Collegamenti a pagine Web contenenti lettori audio/video incorporati che:
    • Non avere autorizzazioni legittime
    • Non dispongono di musica con licenza
    • Non sono piattaforme di streaming autorizzate
    • Non sono canali YouTube ufficiali
  • Metodi per accedere al contenuto protetto da copyright:
    • Procedura per scaricare brani da un sito Web non autorizzato
    • Modi per ignorare paywall o protezioni DRM per accedere a canzoni o video protetti da copyright

Risoluzione dei problemi

Falsi positivi

Se il rilevamento del materiale protetto contrassegna il contenuto non effettivamente protetto:

  • Verificare che la categoria di rilevamento (testi, notizie, ricette, codice) corrisponda al caso d'uso
  • Controllare se il contenuto contrassegnato supera le soglie di caratteri/parole (40 caratteri per le ricette, 200 caratteri per le notizie, 11 parole per i testi)
  • Esaminare i criteri "Considerati accettabili" nella tabella delle categorie di rilevamento

Contenuto non rilevato

Se il materiale protetto previsto non è contrassegnato:

  • Per il codice: Verificare che il repository sia stato indicizzato prima del 6 aprile 2023
  • Per il testo: verificare che il contenuto corrisponda a una delle quattro categorie di rilevamento (Ricette, Contenuto Web, Notizie, Testi)
  • Verificare che siano soddisfatti i requisiti di supporto per la lingua (inglese per i modelli guardrail)

Problemi di integrazione

Per i problemi di integrazione:

  • Verificare che la risorsa Sicurezza dei contenuti di Azure AI sia configurata correttamente
  • Verificare che le credenziali di autenticazione dell'API siano valide
  • Consultare la guida di avvio rapido per la protezione dei contenuti per l'utilizzo corretto dell'API.

Passaggi successivi