Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione definitiva.
Che cos'è una nota sulla trasparenza?
Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo usano, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e di come ottenere le migliori prestazioni. le note sulla trasparenza di Microsoft consentono di comprendere il funzionamento della tecnologia di intelligenza artificiale, le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno o saranno interessate dal sistema.
le note sulla trasparenza di Microsoft fanno parte di uno sforzo più ampio Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere Microsoft principi di IA.
Nozioni di base sull'analisi delle immagini
Introduzione
Le organizzazioni creano soluzioni per elaborare asset multimediali, ad esempio file digitali e immagini, ed estrarre informazioni dettagliate interattive. Queste informazioni dettagliate includono funzionalità visive di immagini come oggetti, persone e descrizioni di immagini che possono essere usate per il knowledge mining, l'automazione dei processi aziendali e l'accessibilità del contenuto per tutti.
Accessibile tramite gli strumenti foundry, le API di analisi delle immagini offrono modelli di Machine Learning con training preliminare per assegnare etichette alle immagini e classificarle in migliaia di categorie predefinite. Le API estraggono molte funzionalità visive dalle immagini, tra cui oggetti, persone, contenuti per adulti e sottotitoli di immagini generati automaticamente. Usando la funzionalità Personalizzazione, i clienti possono eseguire rapidamente il training dei modelli di visione usando i propri dati e definire le proprie categorie.
Termini chiave
| Termine | Definizione |
|---|---|
| modelli predefiniti | Modelli che alimentano le funzionalità offerte dall'analisi delle immagini ai clienti. Questi modelli non richiedono training aggiuntivo. |
| Modello di base | I modelli di base sono una combinazione di dati di architettura del modello e di training usati per ottimizzare l'architettura per un tipo specifico di attività ( ad esempio, classificazione delle immagini o rilevamento oggetti). I modelli di base vengono creati da Microsoft e vengono usati come punto di partenza per il processo di apprendimento del trasferimento per vari domini, ad esempio Generale, Food, Punti di riferimento, vendita al dettaglio, logo e prodotti sugli scaffali. |
| Addestramento del modello | Questo si riferisce al processo di training di un modello basato sulle immagini etichettate fornite dal cliente quando si usa la funzionalità di personalizzazione del modello. |
| Apprendimento con pochi esempi | A differenza dei metodi tradizionali di training dei modelli di apprendimento automatico, in cui vengono generalmente utilizzati grandi quantità di dati di training, few shot learning impiega una piccola parte di dati di training per addestrare un modello ad apprendere i pattern sottostanti, al fine di riconoscere e classificare nuovi dati forniti dai clienti durante l'uso delle funzionalità di personalizzazione. |
| Trasferire l'apprendimento | L'uso dei dati di training forniti dal cliente nella funzionalità di personalizzazione del modello per ripetere il training di un modello di base per risolvere il problema specifico che il cliente sta tentando di risolvere. I dati di training possono essere una combinazione delle classi che vogliono riconoscere o rilevare e il tipo di immagini. |
| Classe | Un modello addestrato ha un insieme di classi che assegnerà durante l'analisi di un'immagine di input. Quando si compila un modello di classificazione delle immagini personalizzato tramite la personalizzazione del modello, si definisce il set di classi che si vuole che il modello restituisca e fornisca dati di training etichettati per ognuna delle classi. |
| Coppia di accuratezza per classe | La coppia di accuratezza della classe è un set di due valori costituiti dal nome della classe e da un valore float per il punteggio di attendibilità associato al rilevamento della classe. Ad esempio, una classe potrebbe essere un tipo di frutta come ananas o pera rappresentata nel set di immagini. La coppia classe-accuratezza è la classe specifica e il punteggio di confidenza che la classe è presente nell'immagine (ad esempio, l'Ananas: 93,53%). |
| Classificazione delle immagini | Questa funzionalità accetta un'immagine come input e restituisce un set di coppie di accuratezza della classe che sono proprietà a livello di immagine (non specificano una posizione all'interno dell'immagine). Ad esempio, una coppia potrebbe essere frutta versus non-frutta, dove la maggior parte dell'immagine è occupata dalla rispettiva classe. |
| Rilevamento oggetti | Questa funzionalità accetta un'immagine come input e restituisce un set di coppie di accuratezza della classe che include anche le coordinate del rettangolo delimitatore per la posizione in cui sono state rilevate tali classi nell'immagine. Ad esempio, il modello potrebbe rilevare le coordinate del rettangolo delimitatore per la posizione in cui si trova un veicolo nell'immagine. |
| Riquadro di delimitazione | Set di quattro valori numerici che rappresentano le coordinate x,y pixel dell'angolo superiore sinistro dell'oggetto rilevato rispetto all'angolo superiore sinistro dell'immagine, la larghezza dell'oggetto rilevato. |
| Fiducia | Un'operazione di analisi delle immagini restituisce valori di attendibilità nell'intervallo compreso tra 0 e 1 per tutti gli output estratti. Il valore di attendibilità rappresenta la stima della probabilità di un tag. |
| Firenze | Firenze è il nome di un nuovo modello di intelligenza artificiale di base, parte di un'iniziativa di Azure Vision in Foundry Tools, addestrata con miliardi di coppie di immagini di testo che alimenta molti dei miglioramenti qualitativi nella versione 4.0 del servizio Vision. Ha la possibilità di riconoscere milioni di categorie di oggetti predefinite e consente una personalizzazione più rapida e a costi inferiori per riconoscere modelli specifici con un minor numero di immagini di training nel servizio di personalizzazione del modello. |
| Planogramma | Un planogramma è un documento o un diagramma che descrive la posizione dei prodotti sugli scaffali o le visualizzazioni in un negozio al dettaglio. Viene usato per aiutare i rivenditori e i produttori a ottimizzare il posizionamento dei prodotti per aumentare le vendite. Negli scenari di riconoscimento del prodotto, il planogramma è rappresentato come documento JSON. |
Funzionalità
Caratteristiche
Importante
Ad eccezione del riconoscimento delle celebrità, nessuna delle seguenti funzionalità di analisi delle immagini può identificare o verificare le singole persone. Non stimano o classificano gli attributi facciali e non creano modelli facciali (set univoco di numeri generati da un'immagine che rappresenta le caratteristiche distintive di un viso) quando vengono rilevati visi. Qualsiasi riconoscimento di un individuo è il risultato dell'etichettatura e non delle nostre funzionalità di riconoscimento facciale o dalla creazione di un modello facciale. Il riconoscimento delle celebrità è una funzionalità di accesso limitato disponibile solo per i clienti approvati. Quando il riconoscimento delle celebrità è in uso, l'analisi delle immagini chiama l'API Viso, genera modelli facciali per i visi rilevati e li confronta con i modelli archiviati per le celebrità (vedere Celebrità, punto di riferimento e riconoscimento del marchio, di seguito).
È possibile usare l'analisi delle immagini per elaborare le immagini:
Tagga elementi visivi: Da un set di migliaia di oggetti riconoscibili, esseri viventi, paesaggi e azioni, puoi identificare e taggare elementi visivi in un'immagine. Quando i tag sono ambigui o l'identità del contenuto non sono di conoscenza comune, la risposta dell'API fornisce suggerimenti per chiarire il contesto del tag. L'assegnazione di tag non è limitata al soggetto principale dell'immagine, ad esempio una persona in primo piano. L'assegnazione di tag può includere anche l'impostazione (interni o esterni), mobili, strumenti, piante, animali, accessori e gadget.
Rileva oggetti: il rilevamento degli oggetti è simile all'assegnazione di tag, ma l'API restituisce le coordinate del rettangolo delimitatore per ogni tag applicato. Ad esempio, se un'immagine contiene un cane, un gatto e una persona, l'operazione elenca ogni oggetto e le relative coordinate nell'immagine. È possibile usare questa funzionalità per elaborare le relazioni tra gli oggetti in un'immagine. Il rilevamento degli oggetti consente anche di sapere quando sono presenti più istanze dello stesso tag in un'immagine.
Generare didascalie descrittive: L'algoritmo di didascalia delle immagini usa modelli di riconoscimento delle celebrità e di riconoscimento dei punti di riferimento per generare didascalie più descrittive quando le celebrità o i punti di riferimento sono presenti nell'immagine. Il riconoscimento delle celebrità è disponibile solo per i clienti approvati, si applica qui se si vuole usare il riconoscimento delle celebrità.
Nota
"Caption" sostituisce "Describe" in V4.0 come funzionalità migliorata di didascalia delle immagini ricca di dettagli e comprensione semantica. Le didascalie dense offrono maggiori dettagli generando una descrizione di una frase di un massimo di 10 aree dell'immagine, oltre a descrivere l'intera immagine. Le didascalie dense restituiscono anche le coordinate del rettangolo delimitatore delle aree dell'immagine descritte.
Moderare il contenuto nelle immagini: È possibile usare l'analisi delle immagini per rilevare contenuti per adulti, provocatori e sanguinolenti in un'immagine e ottenere punteggi di attendibilità per queste classificazioni. Puoi impostare la soglia per contrassegnare il contenuto come adulto, audace o cruento regolando la scala in base alle tue preferenze.
Ottenere un'area di interesse e colture intelligenti: è possibile analizzare il contenuto di un'immagine per restituire le coordinate dell'area più importante dell'immagine o ottenere colture suggerite dall'intelligenza artificiale dell'immagine per proporzioni diverse. Il rilevamento viso viene usato per determinare le aree importanti nell'immagine. Il rilevamento non comporta la distinzione di un viso da un altro viso, la stima o la classificazione degli attributi facciali o la creazione di un modello facciale (un set univoco di numeri generati da un'immagine che rappresenta le caratteristiche distintive di un viso).
Estrarre testo nelle immagini: l'analisi delle immagini include il riconoscimento ottico dei caratteri (OCR) che è possibile usare per rilevare testo stampato o scritto a mano nelle immagini e restituire il testo e le coordinate del testo.
Detect persone e visi: è possibile usare Azure Vision per rilevare visi e persone in un'immagine. Le API restituiscono le coordinate del rettangolo per ogni viso e persona rilevati. La verifica e l'identificazione del viso sono offerte dal servizio di intelligenza artificiale Azure AI Face.
Celebrity, punto di riferimento e riconoscimento del marchio: Usare l'analisi delle immagini per identificare marchi commerciali, luoghi di interesse e celebrità in immagini o video da un database predefinito di migliaia di logo globali, punti di riferimento e celebrità (include circa 1 milione di visi basati su origini dati comunemente richieste, ad esempio IMDb, Wikipedia e i principali fattori di influenza LinkedIn). Puoi usare questa funzionalità, ad esempio, per scoprire quali marchi sono più popolari sui social media o sui marchi più diffusi nel posizionamento dei prodotti multimediali. Il riconoscimento delle celebrità è limitato ai clienti approvati.
Customization: la personalizzazione è una funzionalità di Azure Vision che consente di creare, distribuire e migliorare il proprio sistema di identificazione delle immagini personalizzato. Un identificatore di immagine applica etichette alle immagini, in base alle relative caratteristiche visive. Ogni etichetta rappresenta una classificazione o un oggetto . La personalizzazione consente di specificare etichette personalizzate ed eseguire il training di modelli personalizzati per rilevarli.
Comprensione del prodotto: usare un modello di analisi delle immagini specializzato per rilevare la presenza di prodotti negli scaffali dei punti vendita al dettaglio. Questa operazione può essere combinata con la personalizzazione per eseguire il training dei modelli per identificare prodotti specifici sugli scaffali dei negozi.
Composizione di immagini: Combinare più immagini che si sovrappongono parzialmente in una singola immagine di grandi dimensioni. Questo viene usato nello scenario di riconoscimento del prodotto per ottenere un'unica immagine di un intero scaffale al dettaglio.
Rettifica immagine: annulla la distorsione prospettica di un'immagine. Viene usato nello scenario di riconoscimento del prodotto per garantire che le immagini degli scaffali siano più facili da analizzare.
Corrispondenza di planogrammi: confrontare i risultati del riconoscimento del prodotto con un documento planogramma per vedere quali punti sono occupati dai prodotti e che presentano lacune.
Rimozione dello sfondo: consente di rimuovere lo sfondo di un'immagine. Questa operazione può restituire un'immagine dell'oggetto in primo piano rilevato con uno sfondo trasparente oppure un'immagine opaca alfa in scala di grigi che mostra l'opacità dell'oggetto in primo piano rilevato.
Recupero immagini: il recupero immagini consente agli utenti di cercare immagini nel modo in cui pensano: usando fasi naturali, domande, persino descrizioni vaghe. Consente la vettorizzazione di immagini e query di testo. In questo modo è possibile convertire immagini e testo in coordinate in uno spazio vettoriale multidimensionale. Usare la somiglianza vettoriale per trovare le corrispondenze con le immagini con termini di ricerca in base alla prossimità semantica, ad esempio per la ricerca nel contenuto dell'immagine o per consigliare un'immagine basata su una query di testo o su un'immagine simile.
Riepilogo video e localizzatore di fotogrammi: cerca e interagisci con il contenuto video nello stesso modo intuitivo che pensi e scrivi. Individuare il contenuto pertinente senza la necessità di metadati aggiuntivi. Attualmente disponibile solo in Vision Studio
Casi d'uso
Usi previsti
Ecco alcuni esempi di quando è possibile usare l'analisi delle immagini:
- Individuabilità delle immagini: le immagini caricate nello spazio di condivisione interno di un'organizzazione e nelle piattaforme di social media contengono informazioni e metadati avanzati. In genere, queste informazioni non sono leggibili dal computer e non sono disponibili per l'assegnazione automatica di tag, la categorizzazione e la ricerca. Analisi immagini rende disponibili informazioni dettagliate da queste immagini per l'analisi, la ricerca e il recupero. Le aziende di e-commerce, ad esempio, potrebbero rendere la loro libreria di prodotti ricercabile o un sito Web di grandi dimensioni con contenuto generato dall'utente potrebbe consentire potenti consigli per la ricerca e il contenuto.
- Automazione dell'elaborazione del contenuto: è possibile usare l'analisi delle immagini per automatizzare le attività, ad esempio il rilevamento di contenuto visivo nelle immagini e la compilazione di metadati nella pipeline di analisi multimediale. L'automazione può ridurre il tempo, lo sforzo e i costi associati alla creazione e alla produzione di contenuto.
- Moderazione del contenuto delle immagini: aziende di e-commerce, editori di contenuti generati dall'utente, community di giochi online e piattaforme di social media devono moderare il contenuto delle immagini. Analisi delle immagini consente di contrassegnare automaticamente il contenuto inappropriato nelle immagini (ad esempio, adulto, provocante o cruento). È quindi possibile usare i flag di contenuto restituiti e i rispettivi punteggi di attendibilità per moderare il contenuto nell'applicazione nel modo desiderato.
- Identificazione specifica del dominio: gli sviluppatori possono usare l'analisi delle immagini per identificare contenuti specifici del dominio nelle app di social media e foto. Ad esempio, è possibile identificare i famosi punti di riferimento o i logo del marchio in un'immagine per fornire consigli appropriati per gli utenti.
- **Usare Azure Visione per creare soluzioni che aiutano le persone non vedenti e con ipovedenti rilevando e descrivendo il contenuto delle immagini nel linguaggio leggibile. In questo contesto è stato abilitato un parametro che consentirà agli utenti di scegliere descrizioni specifiche del sesso, ad esempio "un uomo e una donna seduta su una panchina" o descrizioni di genere neutrali, ad esempio "due persone seduti in panchina".
- Filtraggio delle immagini per scopi di privacy: è possibile usare Azure Vision per rilevare i volti e le persone nelle immagini. Usare il rilevamento dei volti e il rilevamento delle persone per determinare se le immagini contengono informazioni potenzialmente riservate per considerazioni sulla privacy.
- Gestione dell'inventario delle vendite al dettaglio: le API di riconoscimento del prodotto consentono di analizzare le foto degli scaffali delle vendite al dettaglio, rilevare i prodotti presenti e confrontare le foto con un documento planogramma.
Considerazioni per la scelta di altri casi d'uso
- Applicare la supervisione umana per l'assegnazione o la negazione dei benefici: l'uso dell'output di Visione di Azure direttamente per assegnare o negare i benefici potrebbe causare errori se i risultati sono basati su informazioni errate o incomplete. Per garantire decisioni corrette e di alta qualità per gli utenti, combinare l'automazione disponibile in Azure Vision con supervisione umana.
- Non adatto per l'identificazione o la verifica del viso: Azure Visione non dispone di funzionalità di riconoscimento facciale. Qualsiasi riconoscimento di un individuo che usa Azure Visione avviene in seguito all'etichettatura e non alla tecnologia effettiva di riconoscimento facciale. Usa Azure AI Face.
- Non adatto per la classificazione di età o sesso: evitare di usare Azure Visione per la classificazione dell'età o del sesso.
- Tenere conto di misure aggiuntive per il riconoscimento specifico del dominio: le funzionalità di intelligenza artificiale predefinite, come il riconoscimento delle celebrità, il riconoscimento dei punti di riferimento e il riconoscimento dei logo del marchio vengono addestrate su un set finito di celebrità, punti di riferimento e marchi. Il servizio di riconoscimento potrebbe non riconoscere tutte le celebrità, i punti di riferimento o i marchi specifici a livello di area.
- Non adatto per l'identificazione biometrica: Azure Visione non è stata progettata o testata per verificare l'identità delle persone in base a marcatori biometrici come il riconoscimento biometrico, l'identificazione delle impronte digitali o i passaporti o altre forme di ID ai fini dell'identificazione e della verifica di una persona.
- Do non usare Azure Visione per la diagnosi medica: incluso per l'uso come dispositivo medico, supporto clinico, strumento diagnostico o altra tecnologia destinata a essere usata per la diagnosi, la cura, la mitigazione, il trattamento o la prevenzione di malattie o altre condizioni e non viene concessa alcuna licenza o diritto da Microsoft di usare questa funzionalità per tali scopi. Questa funzionalità non è progettata o progettata per essere implementata o distribuita come sostituto di consulenza medica professionale o opinione sanitaria, diagnosi, trattamento o giudizio clinico di un professionista sanitario e non deve essere usata come tale. Il cliente è responsabile esclusivamente di qualsiasi uso di Azure Visione o Personalizzazione per la diagnosi medica.
- Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano strumenti e soluzioni Foundry, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, gli strumenti o le soluzioni Foundry non sono progettati per e non possono essere usati in modi vietati in termini di servizio applicabili e codici di comportamento pertinenti.
Prestazioni e limitazioni del sistema per l'analisi delle immagini
Accuratezza per l'analisi delle immagini
L'accuratezza della funzionalità Analisi immagini è una misura del modo in cui gli output generati dall'intelligenza artificiale corrispondono al contenuto visivo effettivo presente nelle immagini. Ad esempio, la funzionalità Tag immagine deve generare tag del contenuto visivo presente nelle immagini. Per misurare l'accuratezza, è possibile valutare l'immagine con i dati di verità sul terreno e confrontare l'output del modello di intelligenza artificiale. Confrontando la verità di base con i risultati generati dall'IA, è possibile classificare gli eventi in due tipi di risultati corretti ("true") e due tipi di risultati non corretti ("false").
| Termine | Definizione |
|---|---|
| Vero positivo | L'output generato dal sistema corrisponde correttamente ai dati di verità di base. Ad esempio, il sistema contrassegna correttamente un'immagine di un cane come tale. |
| Vero negativo | Il sistema non genera correttamente i risultati che non sono presenti nei dati di veridicità. Ad esempio, il sistema non contrassegna correttamente un'immagine come cane quando nessun cane è presente nell'immagine. |
| Falso positivo | Il sistema genera erroneamente un output assente nei dati di verità di base. Ad esempio, il sistema contrassegna un'immagine di un gatto come cane. |
| Falso negativo | Il sistema non riesce a generare risultati presenti nei dati di verità di base. Ad esempio, il sistema non contrassegna un'immagine di un cane presente nell'immagine. |
Queste categorie di eventi vengono usate per calcolare precisione e richiamo:
| Termine | Definizione |
|---|---|
| Precisione | Misura della correttezza del contenuto estratto. Da un'immagine che contiene più oggetti, si scopre quanti di questi oggetti sono stati estratti correttamente. |
| Ricordare | Misura del contenuto complessivo estratto. Da un'immagine che contiene più oggetti, si scopre quanti oggetti sono stati rilevati complessivamente, senza considerare la correttezza. |
Le definizioni di precisione e richiamo implicano che, in alcuni casi, può essere difficile ottimizzare sia la precisione che il richiamo contemporaneamente. A seconda dello scenario, potrebbe essere necessario assegnare una priorità rispetto all'altra. Ad esempio, se si sta sviluppando una soluzione per rilevare solo i tag o le etichette più accurati nel contenuto, ad esempio per visualizzare i risultati della ricerca di immagini, è consigliabile ottimizzare per una maggiore precisione. Tuttavia, se si sta provando a contrassegnare tutto il contenuto visivo possibile nelle immagini per l'indicizzazione o la catalogazione interna, è consigliabile ottimizzare per un richiamo più elevato.
Se sei il proprietario di un sistema di elaborazione immagini, ti consigliamo di raccogliere dati di valutazione della verità, ovvero dati raccolti e contrassegnati dai giudici umani per valutare un sistema. I modelli di intelligenza artificiale predefiniti forniti nel servizio Visione artificiale potrebbero non soddisfare i requisiti del caso d'uso. Usando il set di dati di valutazione specifico per il caso d'uso, è possibile prendere una decisione informata sul fatto che i modelli di analisi delle immagini predefiniti siano adatti allo scenario in uso. Se i modelli di analisi delle immagini predefinite non sono adatti allo scenario, è possibile creare modelli personalizzati usando la funzionalità di personalizzazione descritta di seguito. È anche possibile usare i dati per determinare in che modo la soglia di attendibilità influisce sul raggiungimento degli obiettivi.
È possibile confrontare le etichette ground-truth con l'output del sistema per stabilire la precisione complessiva e le percentuali di errore. La distribuzione degli errori consente di impostare la soglia corretta per lo scenario. I dati di valutazione di riferimento devono includere un campione rappresentativo di immagini, così che tu possa comprendere le differenze di prestazioni e intraprendere azioni correttive. In base ai risultati della valutazione, è possibile regolare in modo iterativo la soglia fino a quando il compromesso tra precisione e richiamo soddisfa gli obiettivi.
Implicazioni sulle prestazioni del sistema in base agli scenari
Le implicazioni delle prestazioni del sistema possono variare in base al modo in cui viene usato. Ad esempio, è possibile usare il valore di attendibilità per calibrare le soglie personalizzate per gestire il contenuto e gli scenari. A seconda del grado di fiducia, il contenuto potrebbe essere indirizzato per l'elaborazione diretta oppure potrebbe essere inoltrato a un processo con intervento umano. Le misurazioni risultanti determinano l'accuratezza specifica dello scenario in termini di precisione e recupero, com’è illustrato negli esempi seguenti.
- app Photo-sharing: è possibile usare Azure Vision per generare automaticamente tag per le immagini condivise e archiviate dagli utenti dell'applicazione. Gli utenti dell'app si basano su questa funzionalità per cercare foto specifiche condivise da altri utenti. In questo caso d'uso, lo sviluppatore potrebbe preferire risultati ad alta precisione perché il costo dell'estrazione errata dei tag comporta risultati di query non corretti per gli utenti dell'app.
- Elaborazione delle immagini: per le applicazioni di elaborazione di attestazioni e assicurazioni, perché non si desidera perdere informazioni potenzialmente rilevanti, è possibile preferire un richiamo elevato per massimizzare le estrazione. In questo scenario, un revisore umano potrebbe contrassegnare tag non corretti o inappropriati.
Limitazioni aggiuntive per il recupero di immagini
Pertinenza: il recupero delle immagini restituirà sempre un risultato a una query utente anche se non esiste alcuna corrispondenza pertinente nel set di immagini dell'utente. Ad esempio, se l'utente cerca "cani che giocano nel cortile" in un set di immagini che contiene solo immagini di persone, il sistema restituirà la cosa più vicina alla query di ricerca. In questo caso, potrebbe restituire immagini di persone. Ciò può verificarsi anche quando si eseguono query su concetti astratti che non corrispondono alle immagini, ad esempio emozioni e sesso.
Stereotipizzazione: il modello ha imparato ad associare i nomi al sesso stereotipico e all'etnia delle persone con questi nomi e può associare i nomi dei cittadini privati alle immagini celebrità.
Recency: i modelli sono stati sottoposti a training su set di dati che contengono alcune informazioni sugli eventi reali, ma se si eseguono query sui modelli relativi agli eventi che si sono verificati dopo il training dei modelli, non saranno eseguiti correttamente.
Uso improprio intenzionale: se immagini altamente fastidiose, abbinate a testo altamente disturbante vengono caricate in Recupero immagini, può restituire contenuto dannoso e offensivo come parte dei risultati. Per attenuare questo risultato imprevisto, è consigliabile controllare l'accesso al sistema ed educare le persone che lo useranno per l'uso appropriato.
Informazioni sul movimento: riepilogo video e localizzatore di fotogrammi hanno una capacità limitata di comprendere in modo accurato il movimento e le azioni in un video. Quando viene eseguita una query per azioni come "una persona che scatta una foto" o "una persona che cade", può dare risultati imprecisi.
Sintassi di query complesse: le query contenenti sintassi complessa, ad esempio le preposizioni, ad esempio "una persona su una scala" o "una persona senza scaletta" potrebbe produrre risultati imprecisi.
Procedure consigliate per migliorare le prestazioni del sistema
Le linee guida seguenti consentono di comprendere e migliorare le prestazioni delle API visione Azure:
- Analisi immagini supporta immagini che soddisfano i requisiti dei file per ogni versione.
- Sebbene Azure Vision sia affidabile, fattori come risoluzione, esposizione alla luce, contrasto e qualità dell'immagine potrebbero influire sull'accuratezza dei risultati. Fare riferimento alle specifiche del prodotto e testarla sulle immagini per convalidare l'idoneità per la situazione.
- Prima di una distribuzione o un'implementazione su larga scala di qualsiasi sistema di visione Azure, i proprietari del sistema devono condurre una fase di valutazione nel contesto in cui verrà usato il sistema e con le persone che interagiranno con il sistema. La valutazione di pre-distribuzione consente di garantire l'accuratezza del sistema e consente di eseguire azioni per migliorare l'accuratezza del sistema, se applicabile.
- Creare un canale di feedback per gli utenti che scelgono decisioni in base all'output del sistema. Includere i dati sulla soddisfazione delle persone che si affidano alle funzionalità di visione Azure e al feedback dei canali vocali dei clienti esistenti. Usare il feedback per ottimizzare il sistema e migliorare l'accuratezza.
- L'intelligenza artificiale fornisce un punteggio di attendibilità per ogni output stimato. Un punteggio di attendibilità rappresenta l'accuratezza di una stima come percentuale. Ad esempio, è possibile impostare una soglia di confidenza minima per un sistema per didascalia automatica di una foto. Se il punteggio di attendibilità di una didascalia generata è inferiore alla soglia, deve essere inoltrato per un'ulteriore revisione.
Valutazione dell'analisi delle immagini
Metodi di valutazione
Vengono usati vari set di dati di immagini pubblici, interni e donati dai clienti per valutare l'accuratezza di ogni modello di visione Azure. Questi set di dati di immagini contengono immagini di un'ampia gamma di contenuti visivi e di un'ampia gamma di qualità per assicurarsi che i modelli vengano valutati per una gamma di casi possibili. Calcoliamo i punteggi di precisione, richiamo e F1 per i diversi set di dati. Ogni modello viene confrontato con benchmark interni e pubblici e rispetto alle versioni precedenti del modello.
Considerazioni sull'equità
Abbiamo testato rigorosamente tutti i nostri modelli di intelligenza artificiale visione Azure per identificare e classificare in ordine di priorità i gruppi demografici che potrebbero essere a rischio di riscontrare una qualità peggiore dei servizi e identificare le istanze in cui i nostri modelli potrebbero produrre output che perpetuano stereotipi esistenti, demean o cancellano determinati gruppi di persone. Abbiamo scoperto che i nostri modelli funzionano bene per tutte le persone che sono rappresentate negli input di immagine indipendentemente dalla loro razza, identità di genere, età e cultura.
In alcuni casi rari, l'assegnazione di tag alle immagini e i modelli di didascalia delle immagini hanno commesso errori di equità restituendo etichette di sesso e età non corrette per le persone visualizzate nelle immagini di input. Queste istanze sono molto rare e continuiamo a migliorare i modelli in modo che i modelli più recenti generino meno probabilità di generare tali errori. È consigliabile che i clienti non usino modelli di visione Azure per classificazioni di sesso e età.
Chiediamo ai clienti di segnalare eventuali errori di equità e di condividere il proprio feedback su questi problemi tramite il portale Azure portale in modo da poter continuare a identificare le aree di miglioramento nel modo in cui cerchiamo di garantire che i modelli funzionino bene per tutti. I clienti che eseguono il training dei propri modelli usando la funzionalità di personalizzazione dovranno eseguire test aggiuntivi per garantire l'equità.
Valutazione e integrazione dell'analisi delle immagini per il tuo utilizzo
Microsoft lavora per aiutare i clienti a sviluppare e distribuire in modo responsabile soluzioni che usano Azure Vision in Foundry Tools. Stiamo adottando un approccio di principio per sostenere l'agenzia personale e la dignità considerando l'equità, l'affidabilità e la sicurezza dei sistemi di IA, la privacy e la sicurezza, l'inclusione, la trasparenza e la responsabilità umana. Queste considerazioni sono in linea con il nostro impegno nello sviluppo dell'IA responsabile.
Linee guida generali per l'integrazione e l'uso responsabile
Questa sezione illustra Azure Visione e considerazioni chiave per l'uso responsabile di questa tecnologia. Di seguito sono riportate indicazioni generali per la distribuzione responsabile e l'uso di Azure Vision. Il contesto potrebbe richiedere l'assegnazione delle priorità e l'inclusione di mitigazioni personalizzate in base alle esigenze dello scenario di distribuzione specifico. Tuttavia, in generale, vengono fornite le procedure consigliate seguenti come punto di partenza per facilitare l'assistenza.
- Comprendere cosa può fare : valutare completamente il potenziale di qualsiasi sistema di intelligenza artificiale in uso per comprendere le funzionalità e le limitazioni. Comprendere come verrà eseguita nello scenario e nel contesto testandolo accuratamente con condizioni e dati reali.
- Rispettare il diritto di un individuo alla privacy : raccogliere dati e informazioni da persone solo per scopi legittimi e giustificabili. Usa solo i dati e le informazioni che hai il consenso per usarli e usarli solo per gli scopi per cui è stato fornito il consenso.
- Revisione legale: ottenere una consulenza legale indipendente appropriata per esaminare la soluzione, in particolare se viene usata in applicazioni sensibili o ad alto rischio. Comprendere quali restrizioni potrebbe essere necessario lavorare all'interno e comprendere la responsabilità di risolvere eventuali problemi che potrebbero verificarsi in futuro.
- Human-in-the-loop: mantenere un essere umano nel ciclo e includere la supervisione umana come area di modello coerente da esplorare. Ciò significa garantire una costante supervisione umana di Azure Visione e mantenere il ruolo degli esseri umani nel processo decisionale. Assicurarsi di avere un intervento umano in tempo reale nella soluzione per evitare danni. In questo modo, è possibile gestire le situazioni in cui Azure Visione non viene eseguita come previsto.
- Sicurezza: assicurarsi che la soluzione sia sicura e che disponga di controlli adeguati per mantenere l'integrità del contenuto e impedire l'accesso non autorizzato.
- Avere una lista di blocco o una lista di consentiti: invece di abilitare tutti i tag con la funzionalità tag di Azure Vision, concentrati su quelli specifici più appropriati per il caso d'uso.
- Strutturare le interazioni utente limitando input specifici: è consigliabile monitorare l'input di testo dell'utente per il contenuto indesiderato. Ciò può includere parole o frasi volgari, di odio, razziali o etniche. La definizione esatta del contenuto indesiderato dipende dallo scenario e può cambiare nel tempo.
- Controllare l'accesso degli utenti: è consigliabile richiedere ai clienti e agli utenti di eseguire l'accesso, in quanto ciò consentirà all'azienda di rispondere più facilmente agli eventi imprevisti in caso di uso improprio. Se possibile, valutare la possibilità di posizionare il prodotto dietro un paywall, per rendere più difficile l'uso improprio.
- Limitare le distorsioni sociali: è consigliabile eseguire test per i casi d'uso specifici per limitare i pregiudizi sociali.
- Stabilire un canale di feedback e reportistica per gli utenti: è consigliabile creare canali per raccogliere domande e preoccupazioni da utenti e spettatori interessati dal sistema. Invitare commenti e suggerimenti sull'utilità e sull'accuratezza degli output e fornire agli utenti un percorso chiaro per segnalare output problematici, offensivi, distorti o inappropriati. I possibili meccanismi includono la creazione di funzionalità di feedback nell'interfaccia utente e la pubblicazione di un indirizzo di posta elettronica per il feedback pubblico.
Filtro dei contenuti di intelligenza artificiale responsabile
Vision Studio include un sistema di gestione dei contenuti che funziona insieme ai modelli principali per filtrare i contenuti per le demo di recupero d'immagini, riepilogo video e localizzatore di fotogrammi. Questo sistema funziona eseguendo sia il prompt di input che il contenuto multimediale tramite un insieme di modelli di classificazione volti a rilevare l'uso improprio. Se il sistema identifica il contenuto dannoso, viene visualizzato un messaggio di errore che indica che la richiesta è stata considerata inappropriata e filtrata dai servizi di intelligenza artificiale responsabile.
È possibile segnalare commenti e suggerimenti sul sistema di filtro del contenuto tramite il supporto.
Per assicurarsi di avere correttamente mitigato i rischi nell'applicazione, è consigliabile valutare attentamente tutti i potenziali danni, seguire le indicazioni riportate nella nota sulla trasparenza e aggiungere una mitigazione specifica dello scenario in base alle esigenze.
Suggerimenti per mantenere la privacy
Un approccio alla privacy di successo consente alle persone di ottenere informazioni e fornisce controlli e protezione per preservare la privacy.
- Se il servizio fa parte di una soluzione progettata per incorporare dati relativi alla salute, rifletti attentamente su se e come registrare tali dati. Seguire le normative nazionali e federali sulla privacy e sulla salute.
- I responsabili della privacy devono considerare attentamente quali criteri di conservazione usare per i metadati e le informazioni dettagliate delle immagini estratte, nonché per le immagini sottostanti. I criteri di conservazione devono riflettere l'uso previsto delle applicazioni.
- Non condividere dati senza il consenso esplicito da parte di stakeholder o proprietari di dati interessati e ridurre al minimo la quantità di dati condivisi.
Personalizzazione nell'analisi delle immagini
La funzionalità di personalizzazione dell'analisi delle immagini include considerazioni aggiuntive da tenere presenti. La personalizzazione usa l'apprendimento automatico per analizzare le immagini. Si inviano immagini che includono e mancano le caratteristiche in questione. Le immagini vengono etichettate manualmente. Il servizio esegue quindi il training del modello usando questi dati e calcola l'accuratezza del modello testando un set di immagini dal set di dati di training. Dopo aver eseguito il training del modello, è possibile testare, ripetere il training e usarlo nell'applicazione o nella soluzione di riconoscimento delle immagini per dedurre stime sulle nuove immagini.
La classificazione di immagini personalizzate applica una o più etichette a un'immagine. Il rilevamento oggetti personalizzato restituisce le coordinate nell'immagine in cui è possibile trovare le etichette applicate per gli oggetti rilevati. Entrambe le funzionalità vengono distribuite tramite API, SDK e esperienza senza codice in Vision Studio all'indirizzo https://portal.vision.cognitive.azure.com.
La personalizzazione supporta la creazione e l'uso di modelli di visione personalizzata tramite le funzioni generali seguenti. Rappresentano le due attività principali che verranno completate per preparare il modello per l'uso:
- Etichettatura dei dati: è il processo di annotazione delle immagini di training con le classi di immagini che il modello deve classificare. Nel caso del rilevamento degli oggetti, annota le immagini di addestramento con rettangoli di delimitazione che racchiudono l'oggetto da rilevare nell'immagine. I clienti possono etichettare i dati in Azure Machine Labeling Studio o importare dati etichettati in formato file COCO. Dopo aver etichettato i dati di training, è possibile usarli per il training del modello tramite Vision Studio, API o SDK.
- Training del modello: usa il modello di base e l'apprendimento con trasferimento per addestrare un modello ottimizzato delle immagini fornite dai clienti e delle classi corrispondenti. Con la tecnologia di personalizzazione del modello precedente, sono stati necessari grandi quantità di dati di training per ottenere un'accuratezza elevata. Con la personalizzazione del nuovo modello, è necessaria una quantità minore di dati per eseguire il training di un modello per imparare a riconoscere e classificare nuovi dati con la stessa precisione o prestazioni superiori. Dato che queste funzionalità di personalizzazione usano un modello fondamentale di grandi dimensioni, addestrato con un set di dati esteso, il modello può essere addestrato con un'unica immagine per etichetta. Il modello può continuare a migliorare quando viene addestrato con poche immagini per etichetta. L'apprendimento con pochi scatti fornisce un percorso per la personalizzazione senza la necessità di una raccolta di dati completa e l'etichettatura. La personalizzazione fornisce metriche di accuratezza, per ottenere prestazioni approssimative del modello in base a una suddivisione dei dati di training forniti. Quando si esegue il training di poche immagini per etichetta, è consigliabile testare l'accuratezza del modello con un set di dati di valutazione aggiuntivo.
Quando si è pronti per usare il modello, è possibile eseguire una stima del modello inviando un'immagine per l'elaborazione. Si noti che, quando si esegue una stima con modelli personalizzati, è possibile che si verifichi una latenza più lunga del previsto per ricevere i risultati della stima. Microsoft sta lavorando per apportare miglioramenti alla latenza nel prossimo futuro. Non è attualmente consigliabile usare modelli personalizzati per ambienti business critical. Si noti anche che la qualità del classificatore o del modello di rilevamento oggetti creato con La personalizzazione dipende dalla qualità e dalla varietà dei dati etichettati forniti durante il training del modello. La qualità dipende anche dal modo in cui il set di dati complessivo è bilanciato tra le classi. Quando si è soddisfatti della qualità del modello, è possibile distribuire e ospitare il modello in Servizi cognitivi per Visione.
Importante
Si noti che la personalizzazione non è adatta per il training di modelli personalizzati per set di immagini su larga scala che contengono centinaia di classi e tag, per generare descrizioni leggibili delle immagini che possono essere usate come testo alternativo a scopo di accessibilità. I modelli basati sull'analisi delle immagini hanno queste funzionalità e devono essere usati invece della personalizzazione. Si prega di notare. La personalizzazione è anche non adatta per il riconoscimento facciale perché non è stata progettata o testata per riconoscere o identificare utenti in immagini.Usa Azure AI Face. Qualsiasi riconoscimento di un individuo è il risultato dell'etichettatura e non dalle nostre funzionalità di riconoscimento facciale o dalla creazione di un modello facciale (un set univoco di numeri generati da un'immagine che rappresenta le caratteristiche distintive di un viso).
Casi d'uso
Usi previsti
È possibile usare la personalizzazione, una funzionalità di Azure Vision per gli scenari seguenti:
- Avvisi visivi automatizzati: possibilità di monitorare un flusso video e generare avvisi quando vengono rilevate determinate circostanze. Ad esempio, si potrebbe volere un avviso quando viene rilevato vapore, o schiuma su un fiume, o un animale è presente.
- Miglioramento dell'efficienza dell'ispezione manuale: nella vendita al dettaglio, il riconoscimento del prodotto consente di ridurre il tempo trascorso dall'utente o dagli associati per contare SKU univoci o identificare se tutti gli SKU che devono essere su uno scaffale.
- Espansione della copertura di ispezione: quando rilevano difetti, non è sempre possibile che un essere umano riveda tutti gli articoli provenienti da una linea di produzione. È invece possibile usare la personalizzazione per coprire il set di elementi che non è possibile esaminare manualmente, oltre a indicare quali elementi si esaminano manualmente.
- Migliorare l'individuabilità degli oggetti: l'etichettatura delle immagini con i metadati può semplificarne la ricerca in un secondo momento. Ad esempio, è possibile contrassegnare le immagini in base al catalogo prodotti o ad altre funzionalità visive su cui si è interessati a filtrare. La personalizzazione consente di etichettare le immagini con i metadati al momento dell'inserimento.
Prestazioni delle funzionalità di personalizzazione
Dopo aver eseguito il training del modello, è possibile visualizzare la stima delle prestazioni del progetto in Studio https://portal.vision.cognitive.azure.com. La personalizzazione utilizza un sottoinsieme delle immagini inviate per l'addestramento o il set di dati di valutazione fornito dall'utente per stimare la precisione media, la media grammatica della precisione, l'accuratezza top-1 e l'accuratezza top-5. Queste tre misurazioni di un classificatore di immagini e l'efficacia del rilevatore di oggetti sono definite come segue:
Precisione media è la percentuale di classificazioni identificate corrette. Ad esempio, se il modello ha identificato 100 immagini come cani e 99 di essi erano effettivamente cani, la precisione è del 99%.
La precisione media media (mAP) è il valore medio della precisione media (AP). AP è l'area sotto la curva di precisione/richiamo (precisione tracciata rispetto al richiamo per ogni stima effettuata).
- Media precisione @ 30: prestazioni rilevamento oggetti in tutti i tag, quando IoU è 30.
- Media precisione media @ 50: prestazioni del rilevamento degli oggetti per tutti i tag, quando IoU è 50.
- Precisione media @ 75: prestazioni del rilevatore di oggetti in tutti i tag, quando IoU è 75.
L'accuratezza è una metrica per la valutazione dei modelli di classificazione. In modo informale, l'accuratezza è la frazione delle stime corrette del modello. Formalmente, l'accuratezza ha la definizione seguente:
- Accuratezza: la top 1 è l'accuratezza convenzionale, la stima del modello (quella con la probabilità più alta) deve essere esattamente la risposta prevista. Misura la proporzione di esempi per cui l'etichetta stimata corrisponde all'etichetta di destinazione singola.
- Accuratezza: la top 5 indica che le prime 5 risposte di probabilità più alte del modello corrispondono alla risposta prevista. Considera una classificazione corretta se una delle cinque previsioni corrisponde all'etichetta di destinazione.
Procedure consigliate per migliorare l'accuratezza del modello di personalizzazione
Il processo di creazione di un modello di personalizzazione è iterativo. Ogni volta che si esegue il training del modello, si crea una nuova iterazione/valutazione con le proprie metriche delle prestazioni aggiornate. È possibile visualizzare tutte le valutazioni nei dettagli del progetto in Vision Studio. Per migliorare le prestazioni del modello, ampliare la varietà dei dati etichettati forniti durante l'addestramento del modello. La qualità dipende anche dal modo in cui il set di dati complessivo è bilanciato tra le classi.
Un modello può imparare a eseguire stime in base a caratteristiche arbitrarie che le immagini hanno in comune. È consigliabile testare il modello per una valutazione con dati aggiuntivi. Dopo aver testato il modello, è possibile pubblicare e usare il modello per l'inferenza.
In base alle prestazioni del modello, è necessario decidere se il modello è appropriato per il caso d'uso e le esigenze aziendali. Ecco un approccio che è possibile adottare. È possibile distribuire un modello di personalizzazione in un ambiente isolato, testare le prestazioni del modello rispetto al caso d'uso e quindi usare le stime per eseguire ulteriormente il training del modello fino a raggiungere il livello di prestazioni desiderato.
Altre informazioni sull'IA responsabile
- Microsoft principi di IA
- Microsoft risorse di IA responsabili
- Microsoft Azure Corsi di apprendimento sull'IA responsabile
Altre informazioni sull'analisi delle immagini
- Panoramica dell'analisi delle immagini
- Guida introduttiva all'analisi delle immagini
- Analisi delle immagini in Vision Studio