Nota sulla trasparenza per Azure Language negli strumenti di Foundry

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione definitiva.

Che cos'è una nota sulla trasparenza?

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo useranno, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle sue capacità e limitazioni e di come ottenere le migliori prestazioni. le note sulla trasparenza di Microsoft consentono di comprendere il funzionamento della tecnologia di intelligenza artificiale, le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno o saranno interessate dal sistema.

le note sulla trasparenza di Microsoft fanno parte di uno sforzo più ampio per Microsoft mettere in pratica i principi di IA. Per altre informazioni, vedere Microsoft principi di intelligenza artificiale.

Nozioni di base sul linguaggio di Azure in Strumenti Foundry

Introduzione

Language è un servizio basato sul cloud che fornisce funzionalità di elaborazione del linguaggio naturale (NLP) per il data mining del testo e l'analisi del testo, incluse le funzionalità seguenti:

Leggere la panoramica per ottenere un'introduzione a ogni funzionalità ed esaminare i casi d'uso di esempio. Vedere le guide pratiche e le informazioni di riferimento sulle API per informazioni più dettagliate sulle operazioni di ogni funzionalità e sulle funzionalità restituite dal sistema.

Questo articolo contiene linee guida di base per l'uso responsabile delle funzionalità del linguaggio. Leggere prima le informazioni generali e quindi passare all'articolo specifico se si usa una delle funzionalità seguenti.

Funzionalità

Casi d'uso

I servizi linguistici possono essere usati in più scenari in un'ampia gamma di settori. Di seguito sono elencati alcuni esempi di funzionalità:

  • Usare il riconoscimento di entità nominate custom per l'estrazione della conoscenza al fine di migliorare la ricerca semantica. La ricerca è fondamentale per qualsiasi app che espone contenuto di testo agli utenti. Gli scenari comuni includono la ricerca di cataloghi o documenti, la ricerca di prodotti al dettaglio o il knowledge mining per l'analisi scientifica dei dati. Molte aziende in vari settori vogliono creare un'esperienza di ricerca avanzata su contenuti privati ed eterogenei, che includono documenti strutturati e non strutturati. Come parte della pipeline, gli sviluppatori possono usare NER personalizzato per estrarre entità dal testo pertinente per il proprio settore. Queste entità possono essere usate per arricchire l'indicizzazione del file per un'esperienza di ricerca più personalizzata.

  • Usare Il riconoscimento di entità denominate per migliorare o automatizzare i processi aziendali. Ad esempio, quando si esaminano le attestazioni assicurative, è possibile evidenziare entità riconosciute come nome e posizione per facilitare la revisione. In alternativa, è possibile generare un ticket di supporto con il nome e la società di un cliente automaticamente da un messaggio di posta elettronica.

  • Usare informazioni personali identificabili per redigere alcune categorie di informazioni dai documenti a protezione della privacy. Ad esempio, se i record dei contatti dei clienti sono accessibili ai rappresentanti del supporto di prima riga, l'azienda potrebbe voler redactare le informazioni personali del cliente non necessarie dalla cronologia dei clienti per mantenere la privacy del cliente.

  • Usare Rilevamento lingua per rilevare le lingue per il flusso di lavoro aziendale. Ad esempio, se un'azienda riceve messaggi di posta elettronica in varie lingue dai clienti, può usare il rilevamento della lingua per instradare i messaggi di posta elettronica in base alla lingua ai parlanti nativi per facilitare la comunicazione con tali clienti.

  • usare l'analisi del sentiment per monitorare le tendenze positive e negative del feedback in modo aggregato. Dopo l'introduzione di un nuovo prodotto, un rivenditore potrebbe utilizzare il servizio di analisi delle emozioni per monitorare vari social media alla ricerca di menzioni del prodotto e del loro relativo sentimento. Potrebbero esaminare l'umore del momento nelle riunioni settimanali sui prodotti.

  • Usare Riepilogo per estrarre informazioni chiave da articoli di notizie pubbliche. Per produrre informazioni dettagliate, ad esempio tendenze e contenuti in evidenza delle notizie.

  • Usare Estrazione frasi chiave per visualizzare le tendenze aggregate nei dati di testo. Ad esempio, è possibile generare un cloud di parole con frasi chiave per visualizzare i concetti chiave nei commenti di testo o nel feedback. Ad esempio, un hotel potrebbe generare una nuvola di parole in base alle frasi chiave identificate nei loro commenti e potrebbe vedere che le persone commentano più frequentemente la posizione, la pulizia e il personale utile.

  • Usare Analisi del testo per Salute per informazioni dettagliate e l'estrazione di statistiche. Identificare entità mediche come sintomi, farmaci e diagnosi in note cliniche e documenti clinici diversi. Usare queste informazioni per produrre informazioni dettagliate e statistiche sulle popolazioni dei pazienti, cercare documenti clinici, documenti di ricerca e pubblicazioni.

  • Usare la classificazione del testo personalizzata per la valutazione automatica della posta elettronica o del ticket. I centri di supporto di tutti i tipi ricevono un volume elevato di messaggi di posta elettronica o ticket contenenti testo non strutturato, testo a mano libera e allegati. La revisione, il riconoscimento e l'instradamento tempestivi agli esperti in materia all'interno dei team interni è fondamentale. La valutazione della posta elettronica su questa scala richiede che le persone esaminino e instradano i reparti giusti, che richiedono tempo e risorse. La classificazione del testo personalizzata può essere usata per analizzare il testo in ingresso e valutare e classificare il contenuto da instradare automaticamente ai reparti pertinenti per ulteriori azioni.

  • Utilizzare la comprensione del linguaggio conversazionale per creare bot conversazionali end-to-end. Usare CLU per compilare ed eseguire il training di un modello personalizzato di comprensione del linguaggio naturale basato su un dominio specifico e sulle espressioni degli utenti previste. Integrarlo con qualsiasi bot di conversazione end-to-end in modo che possa elaborare e analizzare il testo in ingresso in tempo reale per identificare l'intenzione del testo ed estrarre informazioni importanti da esso. Fare in modo che il bot esegua l'azione desiderata in base all'intenzione e alle informazioni estratte. Un esempio è un bot personalizzato per la vendita al dettaglio per acquisti online o ordini alimentari.

  • Utilizzare il sistema di domande e risposte per il supporto clienti. Nella maggior parte degli scenari di supporto clienti vengono poste spesso domande frequenti. La risposta alle domande consente di creare immediatamente un chatbot da contenuto di supporto esistente e questo bot può fungere da sistema front-line per la gestione delle query dei clienti. Se le domande non possono essere risposte dal bot, i componenti aggiuntivi possono aiutare a identificare e contrassegnare la domanda per l'intervento umano.

Limitazioni

La qualità del testo in ingresso nel sistema influirà sui risultati.

Le funzionalità della lingua elaborano solo il testo. La fedeltà e la formattazione del testo in ingresso influiranno sulle prestazioni del sistema. Assicurarsi di considerare quanto segue:

  • La qualità della trascrizione vocale può influire sulla qualità dei risultati. Se i dati di origine sono voce, assicurarsi di usare la combinazione di qualità più elevata di trascrizione automatica e umana per garantire prestazioni ottimali. Prendere in considerazione l'uso di modelli di riconoscimento vocale personalizzati per ottenere risultati di qualità migliori.

  • La mancanza di punteggiatura standard o di maiuscole e minuscole può influire sulla qualità dei risultati. Se si usa un sistema di riconoscimento vocale, ad esempio Azure Speech in Strumenti Foundry per il testo, assicurarsi di selezionare l'opzione che include la punteggiatura.

  • La qualità del riconoscimento ottico dei caratteri (OCR) può influire sulla qualità del sistema. Se i dati di origine sono immagini e si usa la tecnologia OCR per generare il testo, il testo generato in modo non corretto può influire sulle prestazioni del sistema. Prendere in considerazione l'uso di modelli OCR personalizzati per migliorare la qualità dei risultati.

  • Se i dati includono errori di ortografia frequenti, è consigliabile usare controllo ortografico Bing per correggere gli errori di ortografia.

  • I dati tabulari potrebbero non essere identificati correttamente a seconda della modalità di invio del testo della tabella al sistema. Valutare la modalità di invio di testo dalle tabelle nei documenti di origine al servizio. Per le tabelle nei documenti, è consigliabile usare Azure Document Intelligence in Foundry Tools o un servizio simile. In questo modo sarà possibile ottenere le chiavi e i valori appropriati da inviare al linguaggio con chiavi contestuali abbastanza vicine ai valori per il sistema per riconoscere correttamente le entità.

  • Microsoft ha sottoposto a training i modelli linguistici di funzionalità (ad eccezione del rilevamento della lingua) usando dati di testo in linguaggio naturale composti principalmente da frasi e paragrafi ben strutturati. Pertanto, l'uso di questo servizio per i dati più simili a questo tipo di testo restituirà le migliori prestazioni. È consigliabile evitare l'uso di questo servizio per valutare frasi e frasi incomplete, se possibile, in quanto le prestazioni possono essere ridotte.

  • Il servizio supporta solo testo in lingua singola. Se il testo include più lingue, ad esempio, "il panino era bueno", l'output potrebbe non essere accurato.

  • Il codice della lingua deve corrispondere alla lingua del testo di input per ottenere risultati accurati. Se non si è certi della lingua di input, è possibile usare la funzionalità di rilevamento della lingua.

Procedure consigliate per migliorare le prestazioni del sistema

Alcune funzionalità del linguaggio restituiscono punteggi di attendibilità e possono essere valutate usando l'approccio descritto nelle sezioni seguenti. Altre funzionalità che non restituiscono un punteggio di attendibilità ,ad esempio l'estrazione di parole chiave e il riepilogo, dovranno essere valutate usando metodi diversi.

Comprendere i punteggi di affidabilità per l'analisi del sentiment, il riconoscimento delle entità nominate, il rilevamento della lingua e le funzioni di salute

Il sentiment, il riconoscimento delle entità denominate, il rilevamento della lingua e le funzioni di salute restituiscono tutti un punteggio di confidenza come parte della risposta di sistema. Si tratta di un indicatore del livello di attendibilità del servizio con la risposta del sistema. Un valore superiore indica che il servizio è più sicuro che il risultato sia accurato. Ad esempio, il sistema riconosce l'entità della categoria Numero di patente di guida degli Stati Uniti nel testo 555 555 555 quando viene specificato il testo "My NY driver's license number is 555 555 555" con un punteggio di 0.75 e potrebbe riconoscere la categoria Numero di patente di guida degli Stati Uniti nel testo 555 555 555 con un punteggio di 0.65 quando viene specificato il testo "My NY DL number is 555 555 555". Dato il contesto più specifico nel primo esempio, il sistema è più sicuro nella risposta. In molti casi, la risposta di sistema può essere usata senza esaminare il punteggio di attendibilità. In altri casi, è possibile scegliere di usare una risposta solo se il punteggio di attendibilità supera una soglia del punteggio di attendibilità specificata.

Comprendere e misurare le prestazioni

Le prestazioni delle funzionalità linguistiche vengono misurate esaminando quanto bene il sistema riconosca i concetti di elaborazione del linguaggio naturale (NLP) supportati, rispetto a una soglia determinata in confronto a quella di un giudice umano. Per l'estrazione di entità denominate, ad esempio, è possibile contare il numero effettivo di entità rappresentanti numeri di telefono in un testo basato sul giudizio umano e quindi confrontarlo con l'output del sistema derivante dall'elaborazione dello stesso testo. Confrontando il giudizio umano con le entità riconosciute dal sistema, è possibile classificare gli eventi in due tipi di eventi corretti (o "true") e due tipi di eventi non corretti (o "false").

Risultato Corretto/Errato Definizione Esempio
Vero positivo Corretta Il sistema restituisce lo stesso risultato che sarebbe previsto da un giudice umano. Il sistema riconosce correttamente l'entità PII della categoria Numero di telefono sul testo 1-234-567-8910 quando viene specificato il testo: "È possibile contattarmi al mio ufficio numero 1-234-567-9810".
Vero negativo Corretta Il sistema non restituisce un risultato, e questo si allinea a ciò che sarebbe previsto dal giudice umano. Il sistema non riconosce alcuna entità PII quando viene fornito il testo: "È possibile contattarmi al mio numero di ufficio".
Falso positivo Errato Il sistema restituisce un risultato che un giudice umano non fornirebbe. Il sistema riconosce erroneamente l'entità PII della categoria Numero di telefono per il numero dell'ufficio di testo quando viene specificato il testo: "È possibile contattarmi al mio numero di ufficio".
Falso negativo Errato Il sistema non restituisce un risultato quando un giudice umano lo farebbe. Il sistema perde erroneamente un'entità di informazioni personali numero di telefono sul testo 1-234-567-8910 quando viene specificato il testo: "È possibile contattarmi al mio ufficio numero 1-234-567-9810".

Le funzionalità del linguaggio non saranno sempre corrette. È probabile che si verifichino errori falsi negativi e falsi positivi. È importante considerare il modo in cui ogni tipo di errore influirà sul sistema. Pensa attentamente agli scenari in cui gli eventi reali non verranno riconosciuti e dove verranno riconosciuti eventi errati e quali ripercussioni potrebbero influire sulla tua implementazione. Assicurarsi di integrare modi per identificare, segnalare e rispondere a ciascun tipo di errore. Pianificare di esaminare periodicamente le prestazioni del sistema distribuito per assicurarsi che gli errori vengano gestiti in modo appropriato.

Come impostare le soglie del punteggio di attendibilità

È possibile scegliere di prendere decisioni nel sistema in base al punteggio di attendibilità restituito dal sistema. È possibile modificare la soglia del punteggio di attendibilità usata dal sistema per soddisfare le proprie esigenze. Se è più importante identificare tutte le potenziali istanze dei concetti di NLP desiderati, è possibile usare una soglia inferiore. Ciò significa che è possibile ottenere più falsi positivi, ma meno falsi negativi. Se è più importante per il sistema riconoscere solo le istanze vere della funzionalità che si sta chiamando, è possibile usare una soglia più elevata. Se si usa una soglia superiore, è possibile ottenere meno falsi positivi ma più falsi negativi. Diversi scenari richiedono approcci diversi. Inoltre, i valori di soglia potrebbero non avere un comportamento coerente tra singole funzionalità di Lingua e categorie di entità. Ad esempio, non fare presupposti che l'uso di una determinata soglia per la categoria NER Numero di telefono sarebbe sufficiente per un'altra categoria NER o che una soglia usata in NER funzionerebbe in modo analogo per l'analisi del sentiment. Pertanto, è fondamentale testare il sistema con qualsiasi soglia che si sta valutando di usare con dati reali per determinare gli effetti di vari valori soglia del sistema nel contesto che verrà usato.

Equità

In Microsoft, ci sforziamo di potenziare ogni persona del pianeta per ottenere di più. Una parte essenziale di questo obiettivo è lavorare per creare tecnologie e prodotti equi e inclusivi. L'equità è un argomento multidimensionale sociotecnico e influisce su molti aspetti diversi dello sviluppo del prodotto. Altre informazioni sull'approccio Microsoft all'equità here.

Una dimensione che è necessario considerare è quanto sia efficace il sistema per diversi gruppi di persone. Ciò può includere l'analisi dell'accuratezza del modello e la misurazione delle prestazioni del sistema completo. La ricerca ha dimostrato che senza sforzo consapevole incentrato sul miglioramento delle prestazioni per tutti i gruppi, è spesso possibile che le prestazioni di un sistema di IA variano in base a fattori quali razza, etnia, lingua, sesso e età.

Ogni servizio e funzionalità è diverso e il test potrebbe non corrispondere perfettamente al contesto o coprire tutti gli scenari necessari per il caso d'uso. Si consiglia agli sviluppatori di valutare accuratamente le percentuali di errore per il servizio con dati reali che riflettono il caso d'uso, inclusi i test con utenti di diversi gruppi demografici.

Per Lingua, alcuni dialetti e varietà linguistiche all'interno delle lingue supportate e del testo di alcuni gruppi demografici potrebbero non avere ancora una rappresentazione sufficiente nei set di dati di training correnti. Si consiglia di esaminare le linee guida per l'utilizzo responsabile e, se si riscontrano differenze di prestazioni, è consigliabile segnalarlo.

Le prestazioni variano in base alle funzionalità e ai linguaggi

Sono supportate varie lingue per ogni funzionalità linguistica. È possibile che le prestazioni per una particolare funzionalità non siano coerenti con un'altra funzionalità. Inoltre, è possibile che per una particolare funzionalità che le prestazioni non siano coerenti in diversi linguaggi.

Passaggi successivi

Se si usa una delle funzionalità seguenti, assicurarsi di esaminare le informazioni specifiche per tale funzionalità.

Vedere anche

Assicurarsi anche di rivedere: