Nota de transparência: Análise de Imagem

Importante

Traduções não ingleses são fornecidas apenas por conveniência. Por favor, consulte a EN-US versão deste documento para a versão definitiva.

O que é uma Nota de Transparência?

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a utilizam, as pessoas que serão afetadas por ela e o ambiente onde é implementada. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, quais são as suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar as Notas de Transparência ao desenvolver ou implementar o seu próprio sistema, ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As Notas de Transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos Princípios de IA. Para saber mais, consulte os princípios Microsoft IA.

Os fundamentos da Análise de Imagens

Introdução

As organizações estão a construir soluções para processar ativos multimédia como ficheiros e imagens digitais e extrair insights acionáveis. Estes insights incluem características visuais de imagens, como objetos, pessoas e descrições de imagens, que podem ser usadas para impulsionar mineração de conhecimento, automação de processos de negócio e acessibilidade de conteúdos para todos.

Acessíveis através das ferramentas Foundry, as APIs de Análise de Imagens oferecem modelos de aprendizagem automática pré-treinados para atribuir rótulos às imagens e classificá-las em milhares de categorias pré-definidas. As APIs extraem muitas funcionalidades visuais das imagens, incluindo objetos, pessoas, conteúdos para adultos e legendas de imagens geradas automaticamente. Utilizando a funcionalidade de Personalização, os clientes podem treinar rapidamente modelos de visão usando os seus próprios dados e definindo as suas próprias categorias.

Termos-chave

Termo Definição
Modelos pré-construídos Modelos que alimentam funcionalidades que a Análise de Imagens oferece aos clientes. Estes modelos não requerem treino adicional.
Modelo base Os modelos base são uma combinação da arquitetura do modelo e dos dados de treino usados para ajustar essa arquitetura para um tipo específico de tarefa (por exemplo, classificação de imagens ou deteção de objetos). Os modelos base são construídos pela Microsoft e são usados como ponto de partida para o processo de aprendizagem por transferência para vários domínios como Geral, Alimentação, Pontos de Referência, Retalho, Logótipos e Produtos nas Prateleiras.
Formação em modelos Isto refere-se ao processo de treino de um modelo com base em imagens rotuladas fornecidas pelo cliente ao utilizar a funcionalidade de personalização do modelo.
Aprendizagem com poucos exemplos Em contraste com os métodos tradicionais de treino de modelos de aprendizagem automática, que normalmente utilizam grandes quantidades de dados de treino, a aprendizagem com poucos exemplos usa uma pequena quantidade de dados para treinar um modelo a fim de aprender o padrão subjacente, permitindo reconhecer e classificar novos dados fornecidos pelo cliente ao usar a funcionalidade de personalização.
Aprendizagem por transferência A utilização de dados de treino fornecidos pelo cliente na funcionalidade de personalização do modelo para reeducar um modelo base para resolver o problema específico que o cliente está a tentar resolver. Os dados de treino podem ser uma combinação das classes que querem reconhecer ou detetar e do tipo de imagens.
Classe Um modelo treinado tem um conjunto de classes que irá atribuir ao analisar uma imagem de entrada. Quando está a construir um modelo personalizado de classificação de imagens através da personalização do modelo, define o conjunto de classes que quer que o modelo produza e fornece dados de treino rotulados para cada uma das classes.
Par de precisão de classe O par de precisão da classe é um conjunto de dois valores consistindo no nome da classe e num valor flutuante para a pontuação de confiança associada à deteção da classe. Por exemplo, uma classe pode ser um tipo de fruta como um ananás ou uma pera representada no conjunto de imagens. O par classe-precisão é a classe específica e a pontuação de confiança de que a classe está presente na imagem (por exemplo, Ananás: 93,53%).
Classificação da imagem Esta funcionalidade recebe uma imagem como input e gera um conjunto de pares de precisão de classes que são propriedades ao nível da imagem (não especificam uma localização dentro da imagem). Por exemplo, um par pode ser fruto versus não-fruto, em que a maior parte da imagem é ocupada pela respetiva classe.
Deteção de objetos Esta funcionalidade recebe uma imagem como entrada e produz um conjunto de pares de precisão de classes que também inclui as coordenadas da caixa delimitadora para onde essas classes foram detetadas na imagem. Por exemplo, o modelo pode detetar as coordenadas da caixa delimitadora onde um veículo se encontra na imagem.
Caixa delimitadora Um conjunto de quatro valores numéricos que representam as coordenadas de píxeis x,y do canto superior esquerdo do objeto detetado em relação ao canto superior esquerdo da imagem, a largura do objeto detetado.
Confiança Uma operação de Análise de Imagem devolve valores de confiança no intervalo de 0 a 1 para toda a saída extraída. O valor de confiança representa a estimativa da probabilidade de uma etiqueta.
Florença Florence é o nome de um novo modelo de IA fundamental, parte de uma iniciativa de Ferramentas Foundry do Azure Vision, treinado com bilhões de pares de texto-imagem que impulsiona muitas melhorias de qualidade na versão v4.0 do serviço Vision. Tem a capacidade de reconhecer milhões de categorias de objetos logo de início e permite uma personalização mais rápida e de menor custo para reconhecer padrões específicos com menos imagens de treino no serviço de personalização de modelos.
Planograma Um planograma é um documento ou diagrama que descreve a colocação de produtos em prateleiras ou expositores numa loja de retalho. É usado para ajudar retalhistas e fabricantes a otimizar a colocação dos produtos para aumentar as vendas. Em cenários de reconhecimento de produto, o planograma é representado como um documento JSON.

Capacidades

Características

Importante

Exceto pelo reconhecimento de celebridades, nenhuma das seguintes capacidades de Análise de Imagem consegue identificar ou verificar pessoas individuais. Eles não preveem nem classificam atributos faciais, nem criam modelos faciais (conjuntos únicos de números gerados a partir de uma imagem que representa as características distintivas de um rosto) quando são detetados rostos. Qualquer reconhecimento de um indivíduo é resultado da sua rotulagem e não das nossas capacidades de reconhecimento facial ou da criação de um modelo facial. O reconhecimento de celebridades é uma funcionalidade de acesso limitado disponível apenas para clientes aprovados. Quando o reconhecimento de celebridades está em uso, a Análise de Imagens chama a API Facial, gera modelos faciais para rostos detetados e compara-os com os modelos armazenados para celebridades (ver Reconhecimento de celebridades, marcos e marca, abaixo).

Pode usar a Análise de Imagens para processar imagens:

  • Marque características visuais: A partir de um conjunto de milhares de objetos reconhecíveis, seres vivos, cenários e ações, pode identificar e marcar características visuais numa imagem. Quando as etiquetas são ambíguas ou a identidade do conteúdo não é conhecimento comum, a resposta da API fornece pistas para clarificar o contexto da etiqueta. A etiquetagem não se limita ao tema principal da imagem, como uma pessoa em primeiro plano. A marcação pode também incluir o ambiente (interior ou exterior), mobiliário, ferramentas, plantas, animais, acessórios e gadgets.

  • Detetar objetos: A deteção de objetos é semelhante à etiquetagem, mas a API devolve as coordenadas da caixa delimitadora para cada etiqueta aplicada. Por exemplo, se uma imagem contiver um cão, um gato e uma pessoa, a operação lista cada objeto e as suas coordenadas na imagem. Pode usar esta funcionalidade para processar relações entre os objetos numa imagem. A deteção de objetos também indica quando existem múltiplas instâncias da mesma etiqueta numa imagem.

  • Gerar legendas descritivas: O algoritmo de legenda de imagem utiliza modelos de reconhecimento de celebridades e marcos históricos para gerar legendas mais descritivas quando celebridades ou marcos estão presentes na imagem. O reconhecimento de celebridade está disponível apenas para clientes aprovados, candidate-se aqui se quiser usar o reconhecimento de celebridade.

    Nota

    "Legenda" substitui "Describe" na V4.0 como a funcionalidade melhorada de legendas de imagens, rica em detalhes e compreensão semântica. Dense Captions fornece mais detalhes ao gerar descrições de uma frase de até 10 regiões da imagem, além de descrever a imagem completa. Dense Captions também devolve coordenadas de caixa delimitadora das regiões da imagem descritas.

  • Conteúdo moderado nas imagens: Pode usar a Análise de Imagens para detetar conteúdo adulto, picante e gore numa imagem e obter pontuações de confiança para essas classificações. Pode definir o limiar para sinalizar conteúdos como adultos, picantes ou gore numa escala progressiva para acomodar as suas preferências.

  • Obtenha uma área de interesse e cortes inteligentes: Pode analisar o conteúdo de uma imagem para devolver as coordenadas da região mais importante da imagem ou obter cortes sugeridos pela IA para diferentes proporções de aspeto. A deteção facial é usada para ajudar a determinar regiões importantes na imagem. A deteção não envolve distinguir um rosto de outro, prever ou classificar atributos faciais, nem criar um modelo facial (um conjunto único de números gerados a partir de uma imagem que representa as características distintivas de um rosto).

  • Extrair texto em imagens: A Análise de Imagens tem reconhecimento ótico de caracteres (OCR) que pode usar para detetar texto impresso ou manuscrito em imagens e devolver o texto e as coordenadas do texto.

  • Detetar pessoas e rostos: Pode usar Azure Visão para detetar rostos e pessoas numa imagem. As APIs devolvem as coordenadas retangulares de cada rosto e pessoa detetados. A verificação e identificação facial são oferecidas pelo serviço Azure AI Face.

  • Reconhecimento de celebridades, marcos e marcas: Use a Análise de Imagens para identificar marcas comerciais, marcos populares e celebridades em imagens ou vídeos a partir de uma base de dados pré-definida com milhares de logótipos, marcos e celebridades globais (inclui cerca de 1 milhão de rostos baseados em fontes de dados frequentemente solicitadas como o IMDb, Wikipedia e os principais influenciadores do LinkedIn). Pode usar esta funcionalidade, por exemplo, para descobrir quais as marcas mais populares nas redes sociais ou quais as marcas mais prevalentes no marketing de produtos. O reconhecimento de celebridades está limitado a clientes aprovados.

  • Personalização: A personalização é uma funcionalidade do Azure Vision que lhe permite construir, implementar e melhorar o seu próprio sistema personalizado de identificação de imagens. Um identificador de imagem aplica etiquetas às imagens, de acordo com as suas características visuais. Cada rótulo representa uma classificação ou objeto. A personalização permite-lhe especificar as suas próprias etiquetas e treinar modelos personalizados para as detetar.

  • Compreensão do produto: Utilize um modelo especializado de Análise de Imagem para detetar a presença de produtos nas prateleiras das lojas de retalho. Isto pode ser combinado com a Personalização para treinar modelos a identificar produtos específicos nas prateleiras das lojas.

  • Costura de imagens: Combine várias imagens que se sobrepõem parcialmente numa única imagem grande. Isto é usado no cenário de reconhecimento de produtos para obter uma única imagem de uma prateleira inteira de retalho.

  • Retificação da imagem: Desfazer a distorção de perspetiva de uma imagem. Isto é utilizado no cenário de reconhecimento de produtos para garantir que as imagens de prateleira sejam mais fáceis de analisar.

  • Correspondência de planogramas: Compare os resultados de reconhecimento de produtos com um documento planográfico para ver quais as zonas ocupadas pelos produtos e quais apresentam lacunas.

  • Remoção de Fundo: Permite remover o fundo de uma imagem. Esta operação pode gerar uma imagem do objeto em primeiro plano detetado com fundo transparente, ou uma imagem alfa mate em tons de cinzentos que mostre a opacidade do objeto em primeiro plano detetado.

  • Recuperação de Imagens: A Recuperação de Imagens permite aos utilizadores pesquisar imagens da forma como pensam: usando fases naturais, perguntas, até descrições vagas. Permite a vetorização de imagens e consultas de texto. Isto permite converter imagens e texto em coordenadas num espaço vetorial multidimensional. Use similaridade vetorial para corresponder imagens a termos de pesquisa com base na proximidade semântica, por exemplo, para pesquisar em conteúdo de imagem ou recomendar uma imagem com base numa consulta de texto ou imagem semelhante.

  • Resumo de vídeo e localizador de frames: Pesquise e interaja com conteúdos de vídeo da mesma forma intuitiva que pensa e escreve. Localize conteúdos relevantes sem necessidade de metadados adicionais. Atualmente disponível apenas no Vision Studio

Casos de uso

Usos pretendidos

Aqui estão alguns exemplos de quando pode usar Análise de Imagens:

  • Descoberta de imagens: As imagens carregadas no espaço de partilha interno de uma organização e nas plataformas de redes sociais contêm informação e metadados ricos. Normalmente, porém, esta informação não é legível por máquina e não está disponível para etiquetagem, categorização e pesquisa automatizadas. A Análise de Imagens disponibiliza insights a partir destas imagens para análise, pesquisa e recuperação. Empresas de comércio eletrónico, por exemplo, poderiam tornar a sua biblioteca de produtos pesquisável, ou um grande site com conteúdo gerado pelos utilizadores poderia permitir pesquisas e recomendações de conteúdo poderosas.
  • Automação do processamento de conteúdos: Pode usar a Análise de Imagens para automatizar tarefas como detetar conteúdo visual nas imagens e incorporar metadados no seu pipeline de análise de media. A automação pode reduzir o tempo, esforço e custos associados à criação e produção de conteúdos.
  • Moderação de conteúdos de imagens: Empresas de comércio eletrónico, editoras de conteúdos gerados pelos utilizadores, comunidades de jogos online e plataformas de redes sociais precisam de moderar o conteúdo das imagens. A Análise de Imagens permite-lhe sinalizar automaticamente conteúdos inadequados em imagens (por exemplo, adultos, picantes ou sangrentos). Pode então usar os flags de conteúdo devolvido e os respetivos índices de confiança para moderar o conteúdo da sua aplicação como achar melhor.
  • Identificação específica de domínio: Os programadores podem usar a Análise de Imagens para identificar conteúdos específicos de domínio em redes sociais e aplicações fotográficas. Por exemplo, pode identificar marcos famosos ou logótipos de marcas numa imagem para fornecer recomendações adequadas aos seus utilizadores.
  • **Use o Azure Vision para construir soluções que ajudem pessoas cegas e com baixa visão, detetando e descrevendo conteúdos de imagens em linguagem legível para humanos. Neste contexto, ativamos um parâmetro que permite aos utilizadores escolher descrições específicas de género, por exemplo, "um homem e uma mulher sentados num banco", ou descrições neutras em termos de género, por exemplo, "duas pessoas sentadas num banco."
  • Filtragem de imagem para fins de privacidade: Pode usar o Azure Vision para detetar rostos e pessoas nas imagens. Utilize a deteção facial e a deteção de pessoas para determinar se as imagens contêm informação potencialmente sensível por questões de privacidade.
  • Gestão de inventário no retalho: As APIs de reconhecimento de produtos permitem-lhe analisar fotografias das prateleiras de retalho, detetar quais os produtos presentes e comparar as fotos com um documento planograma.

Considerações na escolha de outros casos de uso

  • Aplicar a supervisão humana para atribuição ou negação de benefícios: Usar a saída Azure Visão diretamente para atribuir ou negar benefícios pode resultar em erros se os resultados forem baseados em informação incorreta ou incompleta. Para garantir decisões justas e de alta qualidade para os utilizadores, combine a automação disponível no Azure Vision com a supervisão humana.
  • Não é adequado para identificação ou verificação facial: O Azure Vision não tem capacidades de reconhecimento facial. Qualquer reconhecimento de um indivíduo ao usar o Azure Vision resulta da sua rotulagem e não da tecnologia real de reconhecimento facial. Use o Azure AI Face.
  • Não é adequado para classificação de idade ou género: Evite usar Azure Visão para classificação de idade ou género.
  • Considere medidas adicionais para reconhecimento específico de domínio: capacidades predefinidas de IA, como reconhecimento de celebridades, reconhecimento de marcos e logótipos de marcas, são treinadas em um conjunto limitado de celebridades, marcos e marcas. O serviço de reconhecimento pode não reconhecer todas as celebridades, marcos ou marcas específicas de cada região.
  • Não é adequado para identificação biométrica: O Azure Vision não foi concebido nem testado para verificar a identidade de indivíduos com base em marcadores biométricos como reconhecimento de íris, identificação por impressão digital, ou passaportes ou outras formas de identificação para fins de identificação e verificação de uma pessoa.
  • Não utilize Azure Vision para diagnóstico médico: incluindo para uso como dispositivo médico, apoio clínico, ferramenta de diagnóstico ou outra tecnologia destinada a ser utilizada no diagnóstico, cura, mitigação, tratamento ou prevenção de doenças ou outras condições, e não é concedida licença ou direito por parte de Microsoft para utilizar esta capacidade para tais fins. Esta capacidade não foi concebida nem destinada a ser implementada ou implementada como substituto do aconselhamento médico profissional ou da opinião, diagnóstico, tratamento ou julgamento clínico de um profissional de saúde, e não deve ser usada como tal. O cliente é o único responsável por qualquer utilização do Azure Vision ou da Personalização para diagnóstico médico.
  • Considerações legais e regulatórias: As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar quaisquer Ferramentas e Soluções da Foundry, que podem não ser adequadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções da Foundry não foram concebidas para e não podem ser usadas de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Desempenho do Sistema e Limitações para a Análise de Imagens

Precisão para a Análise de Imagens

A precisão da funcionalidade de Análise de Imagem é uma medida de quão bem os resultados gerados por IA correspondem ao conteúdo visual real presente nas imagens. Por exemplo, a funcionalidade de Etiqueta de Imagem deve gerar etiquetas com o conteúdo visual presente nas imagens. Para medir a precisão, pode avaliar a imagem com os seus dados de referência e comparar o resultado do modelo de IA. Ao comparar a verdade de base com os resultados gerados por IA, pode-se classificar os eventos em dois tipos de resultados corretos ("verdadeiros") e dois tipos de resultados incorretos ("falsos":

Termo Definição
Verdadeiro Positivo A saída gerada pelo sistema corresponde corretamente aos dados de referência. Por exemplo, o sistema identifica corretamente uma imagem de cão como um cão.
Verdadeiro Negativo O sistema não gera resultados que não estejam corretamente presentes nos dados de referência. Por exemplo, o sistema não marca corretamente uma imagem como cão quando não há cão presente na imagem.
Falso Positivo O sistema gera incorretamente uma saída que está ausente nos dados de referência. Por exemplo, o sistema identifica uma imagem de um gato como um cão.
Falso Negativo O sistema falha em gerar resultados que estejam presentes nos dados de referência. Por exemplo, o sistema falha em marcar uma imagem de um cão que estava presente na imagem.

Estas categorias de eventos são usadas para calcular a precisão e a recordação:

Termo Definição
Precisão Uma medida da correção do conteúdo extraído. A partir de uma imagem que contém múltiplos objetos, descobre-se quantos desses objetos foram corretamente extraídos.
Recolha Uma medida do conteúdo global extraído. A partir de uma imagem que contém múltiplos objetos, descobre-se quantos objetos foram detetados no total, sem considerar a sua correção.

As definições de precisão e recordação implicam que, em certos casos, pode ser difícil otimizar simultaneamente para precisão e recordação. Dependendo do teu cenário, podes ter de priorizar um em detrimento do outro. Por exemplo, se estiver a desenvolver uma solução para detetar apenas as etiquetas ou rótulos mais precisos no conteúdo, como para mostrar resultados de pesquisa de imagens, otimizaria para maior precisão. Mas se estiveres a tentar marcar todo o conteúdo visual possível nas imagens para indexação ou catalogação interna, otimizarias para uma maior recordação.

Se é proprietário de um sistema de processamento de imagens, recomendamos que recolha dados de avaliação de verdade, ou seja, dados recolhidos e etiquetados por juízes humanos para avaliar um sistema. Os modelos de IA pré-construídos fornecidos no serviço Vision podem não satisfazer os requisitos do seu caso de uso. Ao usar o conjunto de dados de avaliação específico para o seu caso, pode tomar uma decisão informada sobre se os modelos pré-construídos de Análise de Imagens são adequados para o seu cenário. Se os modelos pré-construídos de Análise de Imagem não forem adequados para o seu cenário, pode construir os seus próprios modelos usando a funcionalidade de Personalização descrita abaixo. Também pode usar os dados para determinar como o limiar de confiança afeta a concretização dos seus objetivos.

É possível comparar rótulos de verdade de base com a saída do sistema para estabelecer a exactidão geral e as taxas de erro. A distribuição de erros ajuda-te a definir o limiar certo para o teu cenário. Os dados de avaliação de base devem incluir uma amostragem adequada de imagens representativas para que possa compreender as diferenças de desempenho e tomar medidas corretivas. Com base nos resultados da sua avaliação, pode ajustar iterativamente o limiar até que a troca entre precisão e recordação atinja os seus objetivos.

Implicações de desempenho do sistema baseadas em cenários

As implicações no desempenho do sistema podem variar consoante a forma como o utiliza. Por exemplo, pode usar o valor de confiança para calibrar limiares personalizados para lidar com o seu conteúdo e cenários. Dependendo do seu valor de confiança, o conteúdo pode ser encaminhado para processamento direto ou pode ser encaminhado para um processo com intervenção humana. As medições resultantes determinam a precisão específica do cenário em termos das métricas de precisão e recordação, como ilustrado nos seguintes exemplos:

  • Aplicação de partilha de fotos: Pode usar o Azure Vision para gerar automaticamente etiquetas para imagens que são partilhadas e armazenadas pelos utilizadores da aplicação. Os utilizadores da aplicação recorrem a esta funcionalidade para procurar fotos específicas que são partilhadas por outros utilizadores. Neste caso de uso, o programador pode preferir resultados de alta precisão porque o custo de extrair etiquetas incorretamente resultaria em resultados de consulta incorretos para os utilizadores da aplicação.
  • Processamento de imagens: Para aplicações de seguros e processamento de sinistros, porque não quer perder nenhuma informação potencialmente relevante, pode preferir uma alta taxa de recuperação para maximizar o número de extrações. Neste cenário, um revisor humano pode assinalar etiquetas incorretas ou inadequadas.

Limitações adicionais para a Recuperação de Imagens

  • Relevância: A Recuperação de Imagens devolverá sempre um resultado a uma consulta do utilizador, mesmo que não haja correspondência relevante no conjunto de imagens do utilizador. Por exemplo, se o utilizador pesquisar por "cães a brincar no quintal" num conjunto de imagens que contém apenas imagens de pessoas, o sistema devolverá a coisa mais próxima da consulta de pesquisa. Neste caso, pode devolver imagens de pessoas. Isto também pode acontecer ao questionar conceitos abstratos que não correspondem a imagens, como emoção e género.

  • Estereótipos: A modelo aprendeu a associar nomes ao género e etnia estereotipados das pessoas com esses nomes e pode associar nomes de cidadãos privados a imagens de celebridades.

  • Atualidade: Os nossos modelos foram treinados com conjuntos de dados que contêm alguma informação sobre eventos do mundo real, mas se consultar os modelos sobre eventos que ocorreram depois de os modelos terem sido treinados, eles não terão um bom desempenho.

  • Uso deliberado indevido: Se imagens altamente perturbadoras, acompanhadas de texto altamente perturbador, forem carregadas na Recuperação de Imagens, podem devolver conteúdos prejudiciais e ofensivos como parte dos resultados. Para mitigar este resultado não intencional, recomendamos que controle o acesso ao sistema e eduque as pessoas que o vão utilizar sobre o uso adequado.

  • Compreender o Movimento: O resumo de vídeo e o localizador de fotogramas têm uma capacidade limitada de compreender com precisão o movimento e as ações num vídeo. Quando questionado sobre ações como "uma pessoa a tirar uma fotografia" ou "uma pessoa a cair", pode dar resultados imprecisos.

  • Sintaxe de consultas complexas: Consultas que contêm sintaxe complexa, como preposições, por exemplo, "uma pessoa numa escada" ou "uma pessoa sem escada" podem produzir resultados imprecisos.

Boas práticas para melhorar o desempenho do sistema

As seguintes diretrizes podem ajudá-lo a compreender e melhorar o desempenho das APIs do Azure Vision:

  • A Análise de Imagens suporta imagens que cumprem os requisitos de ficheiro para cada versão.
  • Embora o Azure Vision seja robusto, fatores como resolução, exposição à luz, contraste e qualidade de imagem podem afetar a precisão dos seus resultados. Consulte as especificações do produto e teste-as nas suas imagens para validar o ajuste à sua situação.
  • Antes de uma implementação ou implementação em larga escala de qualquer sistema Azure Vision, os proprietários do sistema devem realizar uma fase de avaliação no contexto em que o sistema será utilizado e com as pessoas que irão interagir com ele. A avaliação pré-implementação ajuda a garantir a precisão do sistema e ajuda-o a tomar medidas para melhorar a precisão do sistema, se aplicável.
  • Constrói um canal de feedback para pessoas que tomam decisões com base no resultado do sistema. Inclua dados de satisfação das pessoas que vão depender das suas funcionalidades do Azure Vision e feedback dos canais de voz dos clientes já existentes. Use o feedback para afinar o sistema e melhorar a precisão.
  • A IA fornece uma pontuação de confiança para cada saída prevista. Uma pontuação de confiança representa a precisão de uma previsão em percentagem. Por exemplo, pode definir um limiar mínimo de confiança para um sistema legendar automaticamente uma fotografia. Se a pontuação de confiança de uma legenda gerada estiver abaixo do limiar, deve ser encaminhada para revisão adicional.

Avaliação da Análise de Imagens

Métodos de avaliação

Utilizamos vários conjuntos de dados de imagens públicos, internos e doados por clientes para avaliar a precisão de cada modelo Azure Vision. Estes conjuntos de dados de imagens contêm imagens de uma vasta gama de conteúdos visuais e de uma grande qualidade para garantir que os modelos são avaliados para uma variedade de possíveis casos. Calculamos as pontuações de precisão, recuperação e F1 para os diferentes conjuntos de dados. Comparamos cada modelo com benchmarks internos e públicos e com versões anteriores do modelo.

Considerações de justiça

Testamos rigorosamente todos os nossos modelos de IA do Azure Vision para garantir a justiça, identificando e priorizando grupos demográficos que possam estar em risco de apresentar pior qualidade de serviços e para identificar casos em que os nossos modelos podem produzir resultados que perpetuam estereótipos existentes, menosprezam ou apagam certos grupos de pessoas. Descobrimos que os nossos modelos funcionam bem para todas as pessoas que são representadas em inputs de imagem, independentemente da sua raça, identidade de género, idade ou cultura.

Em alguns casos raros, modelos de etiquetagem e legenda de imagem cometeram erros de equidade ao devolverem rótulos incorretos de género e idade para pessoas que aparecem nas imagens de entrada. Estas situações são muito raras, e continuamos a melhorar os nossos modelos para que modelos mais recentes tenham menos probabilidade de produzir tais erros. Recomendamos que os clientes não utilizem modelos Azure Vision para classificações de género e idade.

Pedimos aos clientes que reportem quaisquer erros de justiça e que partilhem o seu feedback sobre estas questões através do portal Azure para que possamos continuar a identificar áreas de melhoria enquanto procuramos garantir que os nossos modelos funcionam bem para todos. Os clientes que treinam os seus próprios modelos, usando a funcionalidade de Personalização, terão de realizar testes adicionais para garantir a equidade.

Avaliação e integração da Análise de Imagens para o seu uso

A Microsoft trabalha para ajudar os clientes a desenvolver e implementar soluções responsáveis que utilizam o Azure Vision no Foundry Tools. Estamos a adotar uma abordagem de princípios para defender a agência pessoal e a dignidade, considerando a justiça, fiabilidade e segurança, privacidade e proteção, inclusão, transparência e responsabilidade humana dos sistemas de IA. Estas considerações estão alinhadas com o nosso compromisso em desenvolver IA Responsável.

Diretrizes gerais para integração e uso responsável

Esta secção discute o Azure Vision e as principais considerações para utilizar esta tecnologia de forma responsável. Seguem-se as recomendações gerais para a implementação e utilização responsável do Azure Vision. O seu contexto pode exigir que priorize e inclua as suas próprias mitigações de acordo com as necessidades do seu cenário específico de implantação. Mas, em geral, fornecemos as seguintes boas práticas como ponto de partida para o ajudar.

  • Compreenda o que pode fazer : Avalie totalmente o potencial de qualquer sistema de IA que esteja a usar para compreender as suas capacidades e limitações. Compreenda como irá funcionar no seu cenário e contexto, testando-o minuciosamente com condições e dados da vida real.
  • Respeite o direito à privacidade de um indivíduo : Recolha dados e informações de indivíduos apenas para fins legais e justificados. Use apenas os dados e informações para os quais tem consentimento e utilize-os apenas para os fins para os quais o consentimento foi dado.
  • Revisão jurídica: Obtenha aconselhamento jurídico independente adequado para rever a sua solução, especialmente se a utilizar em aplicações sensíveis ou de alto risco. Compreenda as restrições que poderá ter de cumprir e compreenda a sua responsabilidade em resolver quaisquer problemas que possam surgir no futuro.
  • Humano no circuito: Mantenha um humano no circuito e inclua a supervisão humana como um padrão consistente a explorar. Isto significa garantir uma supervisão humana constante da Azure Vision e manter o papel dos humanos na tomada de decisões. Garanta que pode ter intervenção humana em tempo real na solução para prevenir danos. Desta forma, pode gerir situações em que o Azure Vision não funciona como esperado.
  • Segurança: Garanta que a sua solução é segura e que tem controlos adequados para preservar a integridade do seu conteúdo e prevenir acessos não autorizados.
  • Utilize uma lista de bloqueio ou uma lista de permissões: Em vez de ativar todas as etiquetas com a funcionalidade de etiquetas Azure Vision, concentre-se nas específicas que são mais adequadas para o caso de utilização.
  • Estrutura as interações do utilizador limitando entradas específicas: Recomendamos monitorizar a entrada de texto do utilizador para conteúdos indesejados. Isto pode incluir discurso de ódio, insultos raciais ou étnicos, e palavras ou expressões profanas. A definição exata de conteúdo indesejado dependerá do seu cenário e poderá mudar ao longo do tempo.
  • Controlar o acesso dos utilizadores: Considere exigir que os seus clientes e utilizadores iniciem sessão, pois isso facilitará a resposta da sua empresa a incidentes de uso indevido caso ocorram. Se possível, considere colocar o produto atrás de um paywall, para dificultar o uso indevido.
  • Limitar o viés social: Recomendamos realizar testes para os seus casos de uso específicos para limitar os preconceitos sociais.
  • Estabeleça um canal de feedback e reporte para os utilizadores: Recomendamos a criação de canais para recolher perguntas e preocupações dos utilizadores e de pessoas afetadas pelo sistema. Convide a feedback sobre a utilidade e precisão dos resultados e dê aos utilizadores um caminho claro para reportar resultados problemáticos, ofensivos, tendenciosos ou inadequados. Os mecanismos possíveis incluem a integração de funcionalidades de feedback na interface e a publicação de um endereço de email para feedback público.

Filtragem Responsável de Conteúdos por IA

O Vision Studio inclui um sistema de gestão de conteúdos que trabalha em conjunto com modelos principais para filtrar conteúdos para Recuperação de Imagens, Resumo de Vídeo e demonstrações do Frame Locer. Este sistema funciona ao executar tanto o prompt de entrada como o conteúdo multimédia através de um conjunto de modelos de classificação destinados a detetar o uso indevido. Se o sistema identificar conteúdos prejudiciais, receberá uma mensagem de erro a indicar que o prompt foi considerado inadequado e filtrado pelos serviços de IA Responsável.

Pode reportar feedback sobre o sistema de filtragem de conteúdos através do suporte.

Para garantir que tem os riscos devidamente mitigados na sua aplicação, deve avaliar cuidadosamente todos os potenciais danos, seguir as orientações da Nota de Transparência e adicionar mitigação específica do cenário conforme necessário.

Recomendações para preservar a privacidade

Uma abordagem bem-sucedida de privacidade capacita os indivíduos com informação, oferecendo controlos e proteção para preservar a sua privacidade.

  • Se o serviço faz parte de uma solução concebida para incorporar dados relacionados com a saúde, pense cuidadosamente se e como registar esses dados. Siga as regulamentações estaduais e federais aplicáveis de privacidade e saúde.
  • Os gestores de privacidade devem considerar cuidadosamente quais as políticas de retenção a utilizar para os metadados e insights extraídos das imagens, bem como para as imagens subjacentes. As políticas de retenção devem refletir o uso pretendido das candidaturas.
  • Não partilhe quaisquer dados sem consentimento explícito das partes interessadas ou dos detentores dos dados, e minimize a quantidade de dados partilhada.

Personalização na Análise de Imagens

A funcionalidade de Personalização de Análise de Imagem tem considerações adicionais a ter em conta. A personalização utiliza aprendizagem automática para analisar imagens. Submetes imagens que incluem e carecem das características em questão. Tu é que etiquetas as imagens. Depois, o serviço treina o modelo usando esses dados e calcula a precisão do modelo testando um conjunto de imagens do conjunto de dados de treino. Depois de treinar o modelo, pode testar, treinar novamente e, eventualmente, usá-lo na sua aplicação ou solução de reconhecimento de imagens para inferir previsões em novas imagens.

A classificação de Imagens Personalizadas aplica uma ou mais etiquetas a uma imagem. A deteção de Objetos Personalizados devolve as coordenadas na imagem onde o(s) rótulo(s) aplicado(s) podem ser encontrados para os objetos detetados. Ambas as funcionalidades são disponibilizadas através de APIs, SDKs e experiência sem código no Vision Studio no https://portal.vision.cognitive.azure.com.

A personalização suporta a criação e utilização de modelos de visão personalizados através das seguintes funções de alto nível. Representam as duas atividades principais que irá realizar para preparar o seu modelo para uso:

  • Rotulagem de dados: é o processo de anotar as imagens de treino com as classes de imagens que o modelo precisa de classificar. No caso da deteção de objetos, anota as imagens de treino com caixas delimitadoras que rodeiam o objeto a ser detetado na imagem. Os clientes podem rotular dados no Azure Machine Labeling Studio ou importar dados rotulados no formato de ficheiro COCO. Uma vez rotulados os dados de treino, pode usá-los para treinar o modelo através do Vision Studio, API ou SDK.
  • Treino de modelo: utiliza o modelo base e a aprendizagem por transferência para treinar um modelo otimizado para imagens fornecidas pelo cliente e classes correspondentes. Com a tecnologia anterior de personalização de modelos, eram necessárias grandes quantidades de dados de treino para alcançar alta precisão. Com a nova personalização do modelo, é necessária menos quantidade de dados para treinar um modelo e aprender a reconhecer e classificar novos dados com a mesma ou superior precisão/desempenho. Como estas funcionalidades de Personalização utilizam um grande modelo fundamental, treinado com um conjunto de dados extenso, o modelo pode ser treinado com apenas uma única imagem por etiqueta. O modelo pode continuar a melhorar quando treinado com poucas imagens por rótulo. A aprendizagem com poucos exemplos oferece um caminho para personalização sem necessidade de recolha e rotulagem extensiva de dados. A personalização fornece métricas de precisão, para aproximar o desempenho do modelo com base numa divisão dos dados de treino fornecidos. Ao treinar poucas imagens por rótulo, recomenda-se testar a precisão do modelo com um conjunto de dados adicional de avaliação.

Quando estiver pronto para usar o seu modelo, pode fazer uma previsão do modelo enviando uma imagem para processamento. Por favor, note que, ao executar previsões com modelos personalizados, pode experienciar uma latência maior do que o esperado para receber resultados de previsão. A Microsoft está a trabalhar para melhorar a latência num futuro próximo. Atualmente, não é recomendado utilizar modelos personalizados para ambientes críticos para o negócio. Por favor, note também que a qualidade do seu classificador ou modelo de detetor de objetos construído com Personalização depende da qualidade e variedade dos dados rotulados que fornece ao treinar o modelo. A qualidade também depende de quão equilibrado está o conjunto de dados global entre classes. Quando satisfeito com a qualidade do modelo, pode implementar e alojar o modelo no Cognitive Service for Vision.

Importante

Por favor, note que a Personalização não é adequada para treinar modelos personalizados para conjuntos de imagens em grande escala que contenham centenas de classes e etiquetas, para gerar descrições legíveis por humanos de imagens que possam ser usadas como texto alternativo para fins de acessibilidade. Os modelos baseados em Análise de Imagem têm estas capacidades e devem ser usados em vez da Personalização. Por favor, note que a Personalização também é não adequada para reconhecimento facial pois não foi concebida nem testada para reconhecer ou identificar indivíduos em imagens.Use Azure AI Face. Qualquer reconhecimento de um indivíduo resulta da sua rotulagem e não das nossas capacidades de reconhecimento facial ou da criação de um modelo facial (um conjunto único de números gerados a partir de um imagem que representa as características distintivas de um rosto).

Casos de uso

Usos pretendidos

Pode usar a Personalização, uma funcionalidade do Azure Vision, para os seguintes cenários:

  • Alertas visuais automatizados: A capacidade de monitorizar um fluxo de vídeo e ter alertas ativados quando certas circunstâncias são detetadas. Por exemplo, pode querer um alerta quando é detetado vapor, espuma num rio ou quando há um animal presente.
  • Melhoria da eficiência da inspeção manual: No retalho, o reconhecimento de produtos permite-lhe reduzir o tempo que você ou os seus colaboradores passam a contar SKUs únicos ou a identificar se todos os SKUs que deveriam estar numa prateleira estão presentes.
  • Expansão da cobertura de inspeção: Ao detetar defeitos, nem sempre é possível para uma pessoa rever todos os itens que saem de uma linha de produção. Em vez disso, pode usar a Personalização para cobrir o conjunto de itens que não pode inspecionar manualmente, bem como informar quais os itens que inspeciona manualmente.
  • Melhorar a descoberta de objetos: Rotular as suas imagens com metadados pode facilitar a sua localização mais tarde. Por exemplo, pode etiquetar as imagens com base no catálogo de produtos ou noutras funcionalidades visuais que pretende filtrar. A personalização permite-lhe rotular imagens com metadados no momento da ingestão.

Desempenho da funcionalidade de personalização

Depois de treinar o seu modelo, pode ver a estimativa do desempenho do projeto no Studio https://portal.vision.cognitive.azure.com. A personalização utiliza um subconjunto das imagens que submeteu para treino ou do conjunto de dados de avaliação fornecido pelo utilizador para estimar a precisão média, média média de precisão, precisão - top 1 e precisão - top 5. Estas três medições da eficácia de um classificador de imagem e do detector de objetos são definidas da seguinte forma:

A Precisão Média é a percentagem de classificações identificadas que estavam corretas. Por exemplo, se o modelo identificou 100 imagens como cães, e 99 delas eram realmente cães, então a precisão é de 99 por cento.

A precisão média média (mAP) é o valor médio da precisão média (AP). AP é a área sob a curva de precisão/recordação (precisão representada em relação à recordação para cada previsão feita).

  • Precisão Média Média @ 30: Desempenho do detector de objetos em todas as tags, quando o IoU é 30.
  • Precisão Média Média @ 50: Desempenho do detetor de objetos em todas as etiquetas, quando o IoU é 50.
  • Precisão Média Média @ 75: Desempenho do detector de objetos em todas as etiquetas, quando o IoU é 75.

A precisão é uma métrica para avaliar modelos de classificação. Informalmente, a precisão é a fração das previsões que o seu modelo acertou. Formalmente, a precisão tem a seguinte definição:

  • Precisão – Top 1 é a precisão convencional, a previsão do modelo (aquela com maior probabilidade) deve ser exatamente a resposta esperada. Mede a proporção de exemplos para os quais o rótulo previsto corresponde ao rótulo alvo único.
  • Precisão – Top 5 significa que qualquer uma das 5 respostas com maior probabilidade do nosso modelo corresponde à resposta esperada. Considera uma classificação correta se alguma das cinco previsões corresponder ao rótulo-alvo.

Boas práticas para melhorar a precisão dos modelos de personalização

O processo de construção de um modelo de Personalização é iterativo. Cada vez que treinas o teu modelo, crias uma nova iteração/avaliação com as suas próprias métricas de desempenho atualizadas. Pode ver todas as suas avaliações nos detalhes do seu projeto no Vision Studio. Para melhorar o desempenho do modelo, expanda a variedade de dados rotulados que fornece ao treinar o modelo. A qualidade também depende de quão equilibrado está o conjunto de dados global entre classes.

Um modelo pode aprender a fazer previsões baseadas em características arbitrárias que as suas imagens têm em comum. Sugerimos que teste o modelo para uma avaliação com dados adicionais. Depois de testar o modelo, pode publicar e usar o modelo para inferência.

Com base no desempenho do modelo, precisa de decidir se o modelo é adequado ao seu caso de uso e necessidades de negócio. Aqui está uma abordagem que pode adotar. Pode implementar um modelo de personalização num ambiente isolado, testar o desempenho do modelo em relação ao seu caso de uso e depois usar as previsões para treinar ainda mais o modelo até atingir o nível de desempenho desejado.

Saiba mais sobre IA responsável

Saiba mais sobre Análise de Imagens

Próximos passos