Nota de transparência: Análise de Imagem

Importante

Traduções não em inglês são fornecidas apenas para conveniência. Consulte a EN-US versão deste documento para obter a versão definitiva.

O que é uma Nota de Transparência?

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que serão afetadas por ela e o ambiente no qual ela é implantada. A criação de um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, quais são suas funcionalidades e limitações e como obter o melhor desempenho. as Notas de Transparência da Microsoft destinam-se a ajudá-lo a entender como nossa tecnologia de IA funciona, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o meio ambiente. Você pode usar Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

as Notas de Transparência da Microsoft fazem parte de um esforço mais amplo em Microsoft para colocar nossos Princípios de IA em prática. Para saber mais, consulte os princípios de IA Microsoft.

Os conceitos básicos da Análise de Imagem

Introdução

As organizações estão criando soluções para processar ativos de mídia, como arquivos digitais e imagens e extrair insights acionáveis. Esses insights incluem recursos visuais de imagens como objetos, pessoas e descrições de imagem que podem ser usadas para alimentar a mineração de conhecimento, a automação de processos empresariais e a acessibilidade do conteúdo para todos.

Acessíveis por meio das Ferramentas de Pesquisa, as APIs de Análise de Imagem oferecem modelos de machine learning pré-treinados para atribuir rótulos a imagens e classificá-los em milhares de categorias predefinidas. As APIs extraem muitos recursos visuais de imagens, incluindo objetos, pessoas, conteúdo adulto e legendas de imagem geradas automaticamente. Usando o recurso personalização, os clientes podem treinar rapidamente modelos de visão usando seus próprios dados e definindo suas próprias categorias.

Termos-chave

Termo Definição
modelos predefinidos Modelos que alimentam recursos que a Análise de Imagem oferece aos clientes. Esses modelos não exigem treinamento adicional.
Modelo base Os modelos base são uma combinação de arquitetura de modelo e dados de treinamento usados para ajustar essa arquitetura para um tipo específico de tarefa (por exemplo, classificação de imagem ou detecção de objetos). Os modelos base são criados por Microsoft e são usados como ponto de partida para o processo de aprendizagem de transferência para vários domínios, como Geral, Alimentos, Pontos de Referência, Varejo, Logotipos e Produtos nas Prateleiras.
Treinamento de modelo Isso se refere ao processo de treinamento de um modelo com base em imagens rotuladas fornecidas pelo cliente ao usar o recurso de personalização do modelo.
Aprendizado com poucos exemplos Ao contrário dos métodos tradicionais de treinamento de modelos de machine learning, em que grandes quantidades de dados de treinamento normalmente são usados, o aprendizado por poucas amostras utiliza uma pequena quantidade de dados de treinamento para treinar um modelo a aprender o padrão subjacente, a fim de reconhecer e classificar novos dados fornecidos pelo cliente ao utilizar o recurso de customização.
Transferir aprendizado O uso de dados de treinamento fornecidos pelo cliente no recurso de personalização do modelo para treinar novamente um modelo base para resolver o problema específico que o cliente está tentando resolver. Os dados de treinamento podem ser uma combinação das classes que eles desejam reconhecer ou detectar e o tipo de imagens.
Classe Um modelo treinado tem um conjunto de classes que ele atribuirá ao analisar uma imagem de entrada. Ao criar um modelo de classificação de imagem personalizado por meio da personalização do modelo, você define o conjunto de classes que deseja que o modelo produza e forneça dados de treinamento rotulados para cada uma das classes.
Par de precisão de classificação O par de precisão de classe é um conjunto de dois valores que consistem no nome da classe e um valor flutuante para a pontuação de confiança associada à detecção de classe. Por exemplo, uma classe pode ser um tipo de fruta como um abacaxi ou pera representado no conjunto de imagens. O par de acurácia da classe é a classe específica e a pontuação de confiança de que essa classe está presente na imagem (por exemplo, Abacaxi: 93.53%).
Classificação de imagem Esse recurso usa uma imagem como entrada e gera um conjunto de pares de precisão de classe que são propriedades de nível de imagem (eles não especificam um local dentro da imagem). Por exemplo, um par pode ser fruta versus não-fruta, onde a maior parte da imagem é ocupada pela respectiva classe.
Detecção de objetos Esse recurso utiliza uma imagem como entrada e gera um conjunto de pares classe-precisão que também inclui as coordenadas da caixa delimitadora nos locais da imagem onde essas classes foram detectadas. Por exemplo, o modelo pode detectar as coordenadas da caixa delimitadora onde um veículo é localizado na imagem.
Caixa delimitadora Um conjunto de quatro valores numéricos que representam as coordenadas x,y pixel do canto superior esquerdo do objeto detectado em relação ao canto superior esquerdo da imagem, a largura do objeto detectado.
Confiança Uma operação de Análise de Imagem retorna valores de confiança no intervalo de 0 a 1 para toda a saída extraída. O valor de confiança representa a estimativa da probabilidade associada a uma etiqueta.
Florença Florence é o nome de um novo modelo de IA de base, parte de uma iniciativa Azure Vision in Foundry Tools, treinada com bilhões de pares de imagem de texto que alimentam muitas das melhorias de qualidade na versão v4.0 do serviço de Visão. Ele tem a capacidade de reconhecer milhões de categorias de objetos de imediato, sem configuração prévia, e permite uma personalização mais rápida e econômica para reconhecer padrões específicos com menos imagens de treinamento no serviço de customização de modelos.
Planograma Um planograma é um documento ou diagrama que descreve o posicionamento de produtos em prateleiras ou exibições em uma loja de varejo. Ele é usado para ajudar varejistas e fabricantes a otimizar o posicionamento de produtos para aumentar as vendas. Em cenários de reconhecimento de produto, o planograma é representado como um documento JSON.

Capacidades

Características

Importante

Com exceção do reconhecimento de celebridades, nenhum dos recursos de Análise de Imagem a seguir pode identificar ou verificar pessoas individuais. Eles não preveem ou classificam atributos faciais e não criam modelos faciais (conjunto exclusivo de números gerados a partir de uma imagem que representa as características distintas de um rosto) quando os rostos são detectados. Qualquer reconhecimento de um indivíduo é o resultado de sua rotulagem e não de nossas funcionalidades de reconhecimento facial ou da criação de um modelo facial. O reconhecimento de celebridades é um recurso de acesso limitado disponível somente para clientes aprovados. Quando o reconhecimento de celebridades está em uso, a Análise de Imagem chama a API de Detecção Facial, gera modelos faciais para rostos detectados e os compara com os modelos armazenados para celebridades (consulte Celebrity, landmark e reconhecimento de marca, abaixo).

Você pode usar a Análise de Imagem para processar imagens:

  • Marcar recursos visuais: de um conjunto de milhares de objetos reconhecíveis, seres vivos, cenários e ações, você pode identificar e marcar recursos visuais em uma imagem. Quando as tags são ambíguas ou a identidade dos conteúdos não é de conhecimento comum, a resposta à API fornece dicas para esclarecer o contexto da tag. A marcação não se limita ao assunto principal da imagem, como uma pessoa em primeiro plano. A marcação também pode incluir a configuração (interna ou externa), móveis, ferramentas, plantas, animais, acessórios e gadgets.

  • Detectar objetos: a detecção de objetos é semelhante à marcação, mas a API retorna as coordenadas da caixa delimitadora para cada marca aplicada. Por exemplo, se uma imagem contiver um cachorro, um gato e uma pessoa, a operação listará cada objeto e suas coordenadas na imagem. Você pode usar essa funcionalidade para processar relações entre os objetos em uma imagem. A detecção de objetos também informa quando há várias instâncias da mesma etiqueta em uma imagem.

  • Gerar legendas descritivas: O algoritmo de legenda de imagem usa o reconhecimento de celebridades e modelos de reconhecimento de referência para gerar legendas mais descritivas quando celebridades ou pontos de referência estão presentes na imagem. O reconhecimento de celebridades só está disponível para clientes aprovados, aplique aqui se você quiser usar o reconhecimento de celebridades.

    Nota

    "Caption" substitui "Describe" na V4.0 como o recurso de legenda de imagem aprimorado rico em detalhes e compreensão semântica. Legendas densas fornecem mais detalhes gerando descrições de uma frase de até 10 regiões da imagem, além de descrever toda a imagem. Legendas densas também retornam coordenadas de caixas delimitadoras das regiões de imagem descritas.

  • Conteúdo moderado em imagens: você pode usar a Análise de Imagem para detectar conteúdo adulto, conteúdo explícito e sangrento em uma imagem e obter pontuações de confiança para essas classificações. Você pode definir o limite para sinalizar conteúdo como adulto, sensual ou violento em uma escala deslizante para acomodar suas preferências.

  • Obtenha a área de interesse e cortes inteligentes: você pode analisar o conteúdo de uma imagem para retornar as coordenadas da região mais importante da imagem ou obter cortes IA-sugeridos da imagem para diferentes proporções de aspecto. A detecção facial é usada para ajudar a determinar regiões importantes na imagem. A detecção não envolve distinguir um rosto de outro rosto, prever ou classificar atributos faciais ou criar um modelo facial (um conjunto exclusivo de números gerados a partir de uma imagem que representa as características distintas de um rosto).

  • Extrair texto em imagens: a Análise de Imagem tem OCR (reconhecimento óptico de caracteres) que você pode usar para detectar texto impresso ou manuscrito em imagens e retornar o texto e as coordenadas de texto.

  • Detectar rostos e pessoas: Você pode usar o Azure Vision para detectar rostos e pessoas em uma imagem. As APIs retornam as coordenadas do retângulo para cada rosto e pessoa detectados. A verificação facial e a identificação são oferecidas pelo Azure serviço de Detecção Facial de IA.

  • Reconhecimento de celebridades, marcos e marcas: Use a Análise de Imagem para identificar marcas comerciais, marcos populares e celebridades em imagens ou vídeos de um banco de dados predefinido de milhares de logotipos globais, marcos e celebridades (inclui cerca de 1 milhão de rostos com base em fontes de dados comumente solicitadas, como IMDb, Wikipédia e principais influenciadores do LinkedIn). Você pode usar esse recurso, por exemplo, para descobrir quais marcas são mais populares nas mídias sociais ou marcas que são mais prevalentes no posicionamento de produtos de mídia. O reconhecimento de celebridades é limitado a clientes aprovados.

  • Customization: a personalização é um recurso do Azure Vision que permite criar, implantar e melhorar seu próprio sistema de identificação de imagem personalizado. Um identificador de imagem aplica rótulos a imagens, de acordo com suas características visuais. Cada rótulo representa uma classificação ou objeto. A personalização permite que você especifique seus próprios rótulos e treine modelos personalizados para detectá-los.

  • Compreensão do produto: use um modelo especializado de Análise de Imagem para detectar a presença de produtos em prateleiras de lojas de varejo. Isso pode ser combinado com a Personalização para treinar modelos para identificar produtos específicos nas prateleiras das lojas.

  • Costura de imagem: combine várias imagens que se sobrepõem parcialmente em uma única imagem grande. Isso é usado no cenário de reconhecimento de produtos para obter uma única imagem de uma prateleira de varejo inteira.

  • Retificação de imagem: desfazer a distorção de perspectiva de uma imagem. Isso é usado no cenário de reconhecimento de produto para garantir que as imagens de prateleira sejam mais fáceis de analisar.

  • Correspondência de planograma: compare os resultados do reconhecimento de produtos com um documento de planograma para ver quais posições são ocupadas por produtos e quais têm lacunas.

  • Remoção de fundo: permite remover o fundo de uma imagem. Essa operação pode gerar uma imagem do objeto de primeiro plano detectado com um plano de fundo transparente ou uma imagem fosca alfa em escala de cinza mostrando a opacidade do objeto de primeiro plano detectado.

  • Recuperação de imagem: a Recuperação de Imagem permite que os usuários pesquisem imagens da maneira que pensam: usando fases naturais, perguntas e até descrições vagas. Ele habilita a vetorização de imagens e consultas de texto. Isso permite converter imagens e texto em coordenadas em um espaço de vetor multidimensional. Utilize a similaridade de vetores para correlacionar imagens a termos de busca com base principalmente na proximidade semântica, por exemplo, para realizar buscas por conteúdo de imagem ou recomendar uma imagem com base em uma consulta de texto ou imagem semelhante.

  • Resumo de vídeo e localizador de quadros: pesquise e interaja com o conteúdo do vídeo da mesma maneira intuitiva que você pensa e escreve. Localize o conteúdo relevante sem a necessidade de metadados adicionais. Atualmente disponível apenas no Vision Studio

Casos de uso

Usos pretendidos

Aqui estão alguns exemplos de quando você pode usar a Análise de Imagem:

  • Capacidade de descoberta de imagem: as imagens carregadas no espaço de compartilhamento interno e nas plataformas de mídia social de uma organização contêm informações avançadas e metadados. Normalmente, porém, essas informações não são legíveis por computador e não estão disponíveis para marcação automatizada, categorização e pesquisa. A Análise de Imagem disponibiliza insights dessas imagens para análise, pesquisa e recuperação. As empresas de comércio eletrônico, por exemplo, poderiam tornar sua biblioteca de produtos pesquisável ou um site grande com conteúdo gerado pelo usuário poderia habilitar recomendações avançadas de pesquisa e conteúdo.
  • Automação de processamento de conteúdo: você pode usar a Análise de Imagem para automatizar tarefas como detectar conteúdo visual em imagens e criar metadados em seu pipeline de análise de mídia. A automação pode reduzir o tempo, o esforço e os custos associados à criação e à produção de conteúdo.
  • Moderação de conteúdo de imagem: empresas de comércio eletrônico, editores de conteúdo gerados pelo usuário, comunidades de jogos online e plataformas de mídia social precisam moderar o conteúdo da imagem. A Análise de Imagem permite sinalizar automaticamente conteúdo indecente em imagens (por exemplo, adulto, sensual ou sangrento). Em seguida, você pode usar os sinalizadores de conteúdo retornados e suas respectivas pontuações de confiança para moderar o conteúdo em seu aplicativo conforme achar adequado.
  • Identificação específica do domínio: os desenvolvedores podem usar a Análise de Imagem para identificar conteúdo específico do domínio em aplicativos de fotos e mídias sociais. Por exemplo, você pode identificar pontos de referência famosos ou logotipos de marca em uma imagem para fornecer recomendações apropriadas para seus usuários.
  • **Use Azure Visão para criar soluções que auxiliam pessoas cegas e com baixa visão detectando e descrevendo o conteúdo da imagem em linguagem legível por humanos. Nesse contexto, habilitamos um parâmetro que permitirá que os usuários escolham descrições específicas de gênero, por exemplo, "um homem e uma mulher sentados em um banco" ou descrições neutras de gênero, por exemplo, "duas pessoas sentadas em um banco".
  • Filtragem de imagens para fins de privacidade: você pode usar Azure Vision para detectar rostos e pessoas em imagens. Use a detecção facial e a detecção de pessoas para determinar se as imagens contêm informações potencialmente confidenciais para considerações de privacidade.
  • Gerenciamento de inventário de varejo: as APIs de reconhecimento de produto permitem que você analise fotos de prateleiras de varejo, detecte quais produtos estão lá e compare as fotos com um documento de planograma.

Considerações ao escolher outros casos de uso

  • Supervisão humana para concessão ou negação de benefícios: usar diretamente a saída do Azure Vision para conceder ou negar benefícios pode resultar em erros se os resultados forem baseados em informações incorretas ou incompletas. Para garantir decisões justas e de alta qualidade para os usuários, combine a automação disponível no Azure Vision com a supervisão humana.
  • Não é adequado para identificação ou verificação facial: Azure Visão não tem recursos de reconhecimento facial. Qualquer reconhecimento de um indivíduo usando Azure Visão ocorre como resultado de sua rotulagem e não da tecnologia de reconhecimento facial real. Use Azure AI Face.
  • Não adequado para classificação de idade ou gênero: evite usar a Visão Azure para classificação de idade ou gênero.
  • Considere medidas adicionais para o reconhecimento específico do domínio: capacidades predefinidas de IA, como reconhecimento de celebridades, reconhecimento de marcos e reconhecimento de logotipos de marca, são treinadas em um conjunto finito de celebridades, marcos e marcas. O serviço de reconhecimento pode não reconhecer todas as celebridades, pontos de referência ou marcas específicos regionalmente.
  • Não adequado para identificação biométrica: Azure Visão não foi projetada ou testada para verificar a identidade de indivíduos com base em marcadores biométricos, como reconhecimento de íris, identificação de impressão digital ou passaportes ou outras formas de ID para fins de identificação e verificação de uma pessoa.
  • Não use Azure Visão para diagnóstico médico: incluindo para uso como dispositivo médico, suporte clínico, ferramenta de diagnóstico ou outra tecnologia destinada a ser usada no diagnóstico, cura, mitigação, tratamento ou prevenção de doenças ou outras condições, e nenhuma licença ou direito é concedido por Microsoft usar essa capacidade para tais finalidades. Essa capacidade não foi projetada ou pretende ser implementada ou implantada como um substituto para aconselhamento médico profissional ou opinião de saúde, diagnóstico, tratamento ou julgamento clínico de um profissional de saúde, e não deve ser usado como tal. O cliente é o único responsável por qualquer uso de visão ou personalização Azure para diagnóstico médico.
  • Considerações legais e regulatórias: as organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer Ferramentas e soluções do Foundry, que podem não ser apropriadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções do Foundry não são projetadas e podem não ser usadas de maneiras proibidas em termos de serviço aplicáveis e códigos de conduta relevantes.

Desempenho do sistema e limitações para análise de imagem

Precisão para análise de imagem

A precisão do recurso análise de imagem é uma medida de quão bem as saídas geradas por IA correspondem ao conteúdo visual real presente nas imagens. Por exemplo, o recurso Tag de Imagem deve gerar tags sobre o conteúdo visual presente nas imagens. Para medir a precisão, você pode avaliar a imagem com seus dados de verdade básica e comparar a saída do modelo de IA. Comparando a verdade básica com os resultados gerados por IA, você pode classificar eventos em dois tipos de resultados corretos ("true") e dois tipos de resultados incorretos ("false"):

Termo Definição
Verdadeiro Positivo A saída gerada pelo sistema corresponde corretamente aos dados de verdade básica. Por exemplo, o sistema marca corretamente uma imagem de um cachorro como tal.
Verdadeiro Negativo O sistema não gera corretamente resultados que não estão presentes nos dados de verdade básica. Por exemplo, o sistema não marca corretamente uma imagem como um cão quando nenhum cão está presente na imagem.
Falso Positivo O sistema gera incorretamente uma saída que está ausente nos dados de referência. Por exemplo, o sistema marca uma imagem de um gato como um cão.
Falso Negativo O sistema falha ao gerar resultados que estão presentes nos dados de verdade básica. Por exemplo, o sistema falha ao marcar uma imagem de um cão que estava presente na imagem.

Essas categorias de evento são usadas para calcular a precisão e o recall:

Termo Definição
Precisão Uma medida da correção do conteúdo extraído. Em uma imagem que contém vários objetos, você descobre quantos desses objetos foram extraídos corretamente.
Lembrar Uma medida do conteúdo geral extraído. Em uma imagem que contém vários objetos, você determina quantos objetos foram detectados ao todo, sem levar em conta a sua correção.

As definições de precisão e recall implicam que, em certos casos, pode ser difícil otimizar para precisão e recall ao mesmo tempo. Dependendo do seu cenário, talvez seja necessário priorizar um em relação ao outro. Por exemplo, se você estiver desenvolvendo uma solução para detectar apenas as marcas ou rótulos mais precisos no conteúdo, como exibir os resultados da pesquisa de imagens, você otimizaria para maior precisão. Mas se você estiver tentando marcar todo o conteúdo visual possível nas imagens para indexação ou catalogação interna, você otimizaria para um recall mais alto.

Se você for o proprietário de um sistema de processamento de imagens, recomendamos coletar dados de avaliação de verdade básica, que são dados coletados e marcados por juízes humanos para avaliar um sistema. Os modelos de IA predefinidos fornecidos no serviço de Visão podem não atender aos requisitos do seu caso de uso. Usando o conjunto de dados de avaliação específico do seu caso de uso, você pode tomar uma decisão informada sobre se os modelos predefinidos de Análise de Imagem são adequados para seu cenário. Se os modelos predefinidos de Análise de Imagem não forem adequados para seu cenário, você poderá criar seus próprios modelos usando o recurso de Personalização descrito abaixo. Você também pode usar os dados para determinar como o limite de confiança afeta o cumprimento de suas metas.

Você pode comparar rótulos de verdade básica com a saída do sistema para estabelecer a precisão geral e as taxas de erro. A distribuição de erros ajuda você a definir o limite certo para seu cenário. Os dados de avaliação de verdade básica devem incluir uma amostragem adequada de imagens representativas para que você possa entender as diferenças de desempenho e tomar medidas corretivas. Com base nos resultados de sua avaliação, você pode ajustar iterativamente o limite até que a troca entre precisão e recall atenda aos seus objetivos.

Implicações de desempenho do sistema com base em cenários

As implicações de desempenho do sistema podem variar de acordo com a forma como você o usa. Por exemplo, você pode usar o valor de confiança para calibrar limites personalizados para lidar com seu conteúdo e cenários. Dependendo de seu valor de confiança, o conteúdo pode ser roteado para processamento direto ou pode ser encaminhado para um processo humano no loop. As medidas resultantes determinam a precisão específica do cenário em termos das métricas de precisão e recall, conforme ilustrado nos seguintes exemplos:

  • Aplicativo de compartilhamento de fotos: você pode usar o Azure Vision para gerar automaticamente tags para imagens compartilhadas e armazenadas por usuários. Os usuários do aplicativo dependem dessa funcionalidade para pesquisar fotos específicas que são compartilhadas por outros usuários. Nesse caso de uso, o desenvolvedor pode preferir resultados de alta precisão porque o custo de extrair tags incorretamente resultaria em resultados de consulta errados para os usuários do aplicativo.
  • Processamento de imagem: para aplicativos de processamento de seguros e declarações, porque você não deseja perder nenhuma informação potencialmente relevante, você pode preferir um recall alto para maximizar as extrações. Nesse cenário, um revisor humano pode sinalizar marcas incorretas ou inadequadas.

Limitações adicionais para recuperação de imagem

  • Relevância: a Recuperação de Imagem sempre retornará um resultado para uma consulta de usuário, mesmo que não haja nenhuma correspondência relevante no conjunto de imagens do usuário. Por exemplo, se o usuário procurar "cães brincando no quintal" em um conjunto de imagens que contém apenas imagens de pessoas, o sistema retornará a coisa mais próxima da consulta de pesquisa. Nesse caso, ele pode retornar imagens de pessoas. Isso também pode acontecer ao consultar conceitos abstratos que não correspondem a imagens, como emoção e gênero.

  • Estereotipamento: O modelo aprendeu a associar nomes ao gênero estereotipado e etnia das pessoas com esses nomes e pode associar nomes de cidadãos privados a imagens de celebridades.

  • Recência: Nossos modelos foram treinados em conjuntos de dados que contêm algumas informações sobre eventos do mundo real, mas se você consultar os modelos sobre os eventos que ocorreram após os modelos serem treinados, eles não terão um bom desempenho.

  • Uso indevido deliberado: se imagens altamente perturbadoras, emparelhadas com texto altamente perturbador forem carregadas na Recuperação de Imagem, ela poderá retornar conteúdo prejudicial e ofensivo como parte dos resultados. Para atenuar esse resultado não intencional, recomendamos que você controle o acesso ao sistema e eduque as pessoas que o usarão sobre o uso apropriado.

  • Noções básicas sobre o movimento: o resumo de vídeo e o localizador de quadros têm uma capacidade limitada de entender com precisão o movimento e as ações em um vídeo. Quando consultado para ações como "uma pessoa tirando uma foto" ou "uma pessoa caindo", pode dar resultados imprecisos.

  • Sintaxe de consultas complexas: consultas que contêm sintaxe complexa, como preposições, por exemplo, "uma pessoa em uma escada" ou " uma pessoa sem escada" podem produzir resultados imprecisos.

Práticas recomendadas para melhorar o desempenho do sistema

As diretrizes a seguir podem ajudá-lo a entender e melhorar o desempenho das APIs de visão Azure:

  • A Análise de Imagem dá suporte a imagens que atendem aos requisitos de arquivo para cada versão.
  • Embora Azure Visão seja robusta, fatores como resolução, exposição à luz, contraste e qualidade da imagem podem afetar a precisão dos resultados. Consulte as especificações do produto e teste-as em suas imagens para validar o ajuste para sua situação.
  • Antes de uma implantação ou distribuição em larga escala de qualquer sistema de visão Azure, os proprietários do sistema devem realizar uma fase de avaliação no contexto em que o sistema será usado e com as pessoas que interagirão com o sistema. A avaliação de pré-implantação ajuda a garantir a precisão do sistema e ajudará você a executar ações para melhorar a precisão do sistema, se aplicável.
  • Crie um canal de comentários para pessoas que tomam decisões com base na saída do sistema. Inclua dados de satisfação das pessoas que contarão com seus recursos de visão Azure e comentários de canais de voz do cliente existentes. Use comentários para ajustar o sistema e melhorar a precisão.
  • A IA fornece uma pontuação de confiança para cada saída prevista. Uma pontuação de confiança representa a precisão de uma previsão como uma porcentagem. Por exemplo, você pode definir um limite mínimo de confiança para um sistema para legendar automaticamente uma foto. Se a pontuação de confiança de uma legenda gerada estiver abaixo do limite, ela deverá ser encaminhada para revisão adicional.

Avaliação da análise de imagem

Métodos de avaliação

Usamos vários conjuntos de dados de imagem públicos, internos e doados pelo cliente para avaliar a precisão de cada modelo de visão Azure. Esses conjuntos de dados de imagem contêm imagens de uma ampla gama de conteúdo visual e de uma ampla gama de qualidade para garantir que os modelos sejam avaliados para uma variedade de casos possíveis. Calculamos as pontuações de precisão, recall e F1 para os diferentes conjuntos de dados. Comparamos cada modelo com parâmetros de comparação internos e públicos e com versões anteriores do modelo.

Considerações sobre imparcialidade

Testamos rigorosamente todos os nossos modelos de IA da Visão Azure para fins de imparcialidade para identificar e priorizar grupos demográficos que podem estar em risco de experimentar pior qualidade de serviços e identificar instâncias em que nossos modelos podem produzir saídas que perpetuam estereótipos existentes, rebaixam ou apagam determinados grupos de pessoas. Descobrimos que nossos modelos funcionam bem para todas as pessoas que são retratadas em entradas de imagem, independentemente de sua raça, identidade de gênero, idade e cultura.

Em alguns casos raros, a marcação de imagem e os modelos de legenda de imagem cometeram erros de imparcialidade retornando rótulos incorretos de gênero e idade para pessoas que aparecem em imagens de entrada. Essas instâncias são muito raras, e continuamos a aprimorar nossos modelos para que os mais novos tenham menos probabilidade de produzir esses erros. Recomendamos que os clientes não usem modelos de visão Azure para classificações de gênero e idade.

Pedimos aos clientes que relatem erros de imparcialidade e compartilhem seus comentários sobre esses problemas por meio do portal Azure para que possamos continuar identificando áreas de melhoria à medida que buscamos garantir que nossos modelos funcionem bem para todos. Os clientes que treinarem seus próprios modelos usando o recurso de Personalização precisarão executar testes adicionais para garantir a imparcialidade.

Avaliando e integrando a Análise de Imagem para seu uso

Microsoft trabalha para ajudar os clientes a desenvolver e implantar soluções que usam o Azure Vision de forma responsável nas Ferramentas Foundry. Estamos adotando uma abordagem de princípios para defender a agência pessoal e a dignidade considerando a imparcialidade, confiabilidade e segurança dos sistemas de IA, privacidade e segurança, inclusão, transparência e responsabilidade humana. Essas considerações estão em linha com nosso compromisso com o desenvolvimento de IA Responsável.

Diretrizes gerais para integração e uso responsável

Esta seção discute Azure Visão e considerações fundamentais para usar essa tecnologia de forma responsável. Veja a seguir as recomendações gerais para a implantação responsável e o uso do Azure Vision. Seu contexto pode exigir que você priorize e inclua suas próprias mitigações de acordo com as necessidades do cenário de implantação específico. Mas, em geral, fornecemos as práticas recomendadas a seguir como ponto de partida para ajudá-lo.

  • Entenda o que ele pode fazer : avalie completamente o potencial de qualquer sistema de IA que você esteja usando para entender seus recursos e limitações. Entenda como ele será executado em seu cenário e contexto testando-o minuciosamente com condições e dados da vida real.
  • Respeitar o direito de privacidade de um indivíduo : colete dados e informações de indivíduos apenas para fins legais e justificáveis. Use apenas os dados e as informações que você tem consentimento para usá-los e usá-los apenas para as finalidades para as quais o consentimento foi dado.
  • Revisão jurídica: obtenha uma assessoria jurídica independente apropriada para revisar sua solução, especialmente se você a usar em aplicativos confidenciais ou de alto risco. Entenda quais restrições você pode precisar trabalhar dentro e sua responsabilidade para resolver problemas futuros.
  • Human-in-the-loop: Mantenha um humano no loop e inclua a supervisão humana como uma área de padrão consistente para explorar. Isso significa garantir a supervisão humana constante da Visão Azure e manter o papel dos humanos na tomada de decisões. Verifique se você pode ter uma intervenção humana em tempo real na solução para evitar danos. Dessa forma, você pode gerenciar situações em que Azure Visão não funciona conforme o esperado.
  • Segurança: verifique se a solução é segura e se ela tem controles adequados para preservar a integridade do conteúdo e impedir o acesso não autorizado.
  • Tenha uma lista de bloqueios ou uma lista de permissões: em vez de habilitar todas as tags com o recurso de marcação do Azure Vision, concentre-se nas que são as mais apropriadas para seu caso de uso.
  • Estruturar interações do usuário limitando entradas específicas: recomendamos monitorar a entrada de texto do usuário para conteúdo indesejado. Isso pode incluir discursos de ódio, insultos raciais ou étnicos, e palavras ou frases profanas. A definição exata de conteúdo indesejado dependerá do seu cenário e poderá mudar ao longo do tempo.
  • Controlar o acesso do usuário: considere exigir que seus clientes e usuários entrem, pois isso tornará mais fácil para sua empresa responder a incidentes de uso indevido se eles ocorrerem. Se possível, considere colocar o produto atrás de um paywall, para dificultar o uso indevido.
  • Limitar o viés social: recomendamos a execução de testes para seus casos de uso específicos para limitar os preconceitos sociais.
  • Estabelecer um canal de comentários e relatórios para os usuários: recomendamos a criação de canais para coletar perguntas e preocupações de usuários e espectadores afetados pelo sistema. Convide comentários sobre a utilidade e a precisão das saídas e dê aos usuários um caminho claro para relatar saídas problemáticas, ofensivas, tendenciosas ou inadequadas. Os mecanismos possíveis incluem a criação de recursos de comentários na interface do usuário e a publicação de um endereço de email para comentários públicos.

Filtragem de conteúdo de IA responsável

O Vision Studio inclui um sistema de gerenciamento de conteúdo que funciona junto com os modelos principais para filtrar o conteúdo para demonstrações de Recuperação de Imagem e Resumo de Vídeo e Localizador de Quadros. Esse sistema funciona executando o prompt de entrada e o conteúdo da mídia por meio de um conjunto de modelos de classificação destinados a detectar uso indevido. Se o sistema identificar conteúdo prejudicial, você receberá uma mensagem de erro informando que o prompt foi considerado inadequado e filtrado pelos serviços de IA responsável.

Você pode relatar comentários sobre o sistema de filtragem de conteúdo por meio do suporte.

Para garantir que você tenha mitigado corretamente os riscos em seu aplicativo, avalie todos os possíveis danos cuidadosamente, siga as diretrizes na Nota de Transparência e adicione a mitigação específica do cenário conforme necessário.

Recomendações para preservar a privacidade

Uma abordagem de privacidade bem-sucedida capacita os indivíduos com informações e fornece controles e proteção para preservar sua privacidade.

  • Se o serviço fizer parte de uma solução projetada para incorporar dados relacionados à saúde, pense cuidadosamente sobre se e como registrar esses dados. Siga as regulamentações estaduais e federais de privacidade e saúde aplicáveis.
  • Os gerentes de privacidade devem considerar cuidadosamente quais políticas de retenção usar para metadados e insights de imagem extraídos, bem como para as imagens subjacentes. As políticas de retenção devem refletir o uso pretendido dos aplicativos.
  • Não compartilhe nenhum dado sem o consentimento explícito dos stakeholders ou proprietários de dados afetados e minimize a quantidade de dados compartilhados.

Personalização na Análise de Imagem

O recurso Personalização da Análise de Imagem tem considerações adicionais a serem observadas. A personalização usa o aprendizado de máquina para analisar imagens. Você envia imagens que tanto incluem quanto não têm as características em questão. Você mesmo rotula as imagens. Em seguida, o serviço treina o modelo usando esses dados e calcula a precisão do modelo testando um conjunto de imagens do conjunto de dados de treinamento. Depois de treinar o modelo, você pode testar, treinar novamente e, eventualmente, usá-lo em seu aplicativo de reconhecimento de imagem ou solução para inferir previsões em novas imagens.

A classificação de imagem personalizada aplica um ou mais rótulos a uma imagem. A detecção de objeto personalizado retorna as coordenadas na imagem em que os rótulos aplicados podem ser encontrados para objetos detectados. Ambos os recursos são entregues por meio de APIs, SDKs e experiência sem código no Vision Studio em https://portal.vision.cognitive.azure.com.

A personalização dá suporte à criação e ao uso de modelos de visão personalizada por meio das funções de alto nível a seguir. Elas representam as duas principais atividades que você concluirá para preparar seu modelo para uso:

  • Rotulagem de dados: é o processo de rotular as imagens de treinamento com as classes que o modelo precisa classificar. No caso da detecção de objetos, você anota as imagens de treinamento com caixas delimitadoras que cercam o objeto a ser detectado na imagem. Os clientes podem rotular dados no Azure Machine Labeling Studio ou importar dados rotulados no formato de arquivo COCO. Depois que os dados de treinamento forem rotulados, você poderá usá-los para treinar o modelo por meio do Vision Studio, API ou SDK.
  • Treinamento de modelo: usa o modelo base e transfere o aprendizado para treinar um modelo otimizado para imagens fornecidas pelo cliente e classes correspondentes. Com a tecnologia de personalização de modelo anterior, grandes quantidades de dados de treinamento eram necessárias para obter alta precisão. Com a personalização do novo modelo, menos quantidade de dados é necessária para treinar um modelo para aprender a reconhecer e classificar novos dados com a mesma precisão/desempenho superior. Como esses recursos de personalização estão usando um modelo fundamental grande, treinado com um conjunto de dados extenso, o modelo pode ser treinado com apenas uma única imagem por rótulo. O modelo pode continuar a melhorar quando treinado com poucas imagens para cada rótulo. O aprendizado com poucas capturas fornece um caminho para personalização sem a necessidade de coleta e rotulagem de dados abrangentes. A personalização fornece métricas de precisão para aproximar o desempenho do modelo com base em uma divisão dos dados de treinamento fornecidos. Ao treinar poucas imagens por rótulo, é recomendável testar a precisão do modelo com um conjunto de dados de avaliação adicional.

Quando estiver pronto para usar seu modelo, você poderá fazer uma previsão de modelo enviando uma imagem para processamento. Observe que, ao executar a previsão com modelos personalizados, você pode experimentar latência mais longa do que o esperado para receber resultados de previsão. Microsoft está trabalhando para fazer melhorias de latência em um futuro próximo. No momento, não é recomendável usar modelos personalizados para ambientes comercialmente críticos. Observe também que a qualidade do seu modelo de classificador ou detector de objetos criado com Personalização depende da qualidade e da variedade dos dados rotulados que você fornece ao treinar o modelo. A qualidade também depende de quão equilibrado é o conjunto de dados geral entre classes. Quando satisfeito com a qualidade do modelo, você pode implantar e hospedar o modelo no Serviço Cognitivo para Visão.

Importante

Observe que a Personalização não é adequada para treinar modelos personalizados para conjuntos de imagens em grande escala que contêm centenas de classes e marcas, para gerar descrições legíveis por humanos de imagens que podem ser usadas como texto alt para fins de acessibilidade. Os modelos baseados em Análise de Imagem têm esses recursos e devem ser usados em vez de personalização. Por favor, note que, a personalização também é não adequada para reconhecimento facial pois não foi projetada ou testada para reconhecer ou identificar indivíduos em imagens.Use o Azure AI Face. Qualquer reconhecimento de um indivíduo é o resultado de sua rotulagem e não de nossas funcionalidades de reconhecimento facial ou da criação de um modelo facial (um conjunto exclusivo de números gerados a partir de uma imagem que representa os recursos distintos de um rosto).

Casos de uso

Usos pretendidos

Você pode usar a Personalização, um recurso do Azure Vision para os seguintes cenários:

  • Alertas visuais automatizados: a capacidade de monitorar um fluxo de vídeo e ter alertas disparados quando determinadas circunstâncias são detectadas. Por exemplo, talvez você queira um alerta quando houver vapor detectado ou espuma em um rio ou um animal estiver presente.
  • Maior eficiência da inspeção manual: no varejo, o reconhecimento de produtos permite reduzir o tempo que você ou seus colaboradores passam contando SKUs exclusivos ou verificando se todas as SKUs que deveriam estar em uma prateleira estão presentes.
  • Expansão da cobertura de inspeção: ao detectar defeitos, nem sempre é possível que um humano examine todos os itens que saem de uma linha de fabricação. Em vez disso, você pode usar a Personalização para cobrir o conjunto de itens que não consegue inspecionar manualmente, bem como informar quais itens você inspeciona manualmente.
  • Melhorar a capacidade de descoberta de objetos: rotular suas imagens com metadados pode torná-las mais fáceis de encontrar posteriormente. Por exemplo, você pode marcar as imagens com base no catálogo de produtos ou em outros recursos visuais nos quais você está interessado em filtrar. A personalização permite rotular imagens com metadados no momento da ingestão.

Desempenho do recurso de personalização

Depois de treinar seu modelo, você poderá ver a estimativa do desempenho do projeto no Studio https://portal.vision.cognitive.azure.com. A personalização usa um subconjunto das imagens que você enviou para treinamento ou conjunto de dados de avaliação fornecido pelo usuário para estimar a precisão média, a média da precisão média, a precisão top 1 e a precisão top 5. Estas três medidas de um classificador de imagem e da eficácia do detector de objetos são definidas da seguinte maneira:

Precisão Média é o percentual de classificações identificadas que estavam corretas. Por exemplo, se o modelo identificou 100 imagens como cães, e 99 delas eram na verdade cães, então a precisão é de 99%.

A precisão média média (mAP) é o valor médio da precisão média (AP). AP é a área sob a curva de precisão/recall (precisão plotada em relação ao recall para cada previsão feita).

  • Precisão Média @ 30: Desempenho do detector de objetos em todas as etiquetas, quando IoU é 30.
  • Precisão Média @ 50: Desempenho do detector de objetos em todas as etiquetas, quando a IoU é 50.
  • Média de Precisão Média @ 75: Desempenho do detector de objetos em todas as etiquetas, quando a IoU é 75.

Precisão é uma métrica para avaliar modelos de classificação. Informalmente, a precisão é a fração das previsões que seu modelo acertou. Formalmente, a precisão tem a seguinte definição:

  • Precisão – Top 1 é a precisão convencional, a previsão do modelo (aquela com a maior probabilidade) deve ser exatamente a resposta esperada. Ele mede a proporção de exemplos para os quais o rótulo previsto corresponde ao rótulo de destino único.
  • Precisão – Top 5 significa que qualquer uma das cinco respostas de probabilidade mais altas do nosso modelo corresponde à resposta esperada. Ele considera uma classificação correta se qualquer uma das cinco previsões corresponder ao rótulo de destino.

Práticas recomendadas para melhorar a precisão do modelo de personalização

O processo de criação de um modelo de Personalização é iterativo. Sempre que você treina seu modelo, cria uma nova iteração/avaliação com suas próprias métricas de desempenho atualizadas. Você pode exibir todas as suas avaliações nos detalhes do projeto no Vision Studio. Para melhorar o desempenho do modelo, expanda a variedade dos dados rotulados que você fornece ao treinar o modelo. A qualidade também depende de quão equilibrado é o conjunto de dados geral entre classes.

Um modelo pode aprender a fazer previsões com base em características arbitrárias que suas imagens têm em comum. Sugerimos que você teste o modelo para uma avaliação com dados adicionais. Depois de testar o modelo, você pode publicar e usar o modelo para inferência.

Com base no desempenho do modelo, você precisa decidir se o modelo é apropriado para suas necessidades comerciais e de caso de uso. Aqui está uma abordagem que você pode adotar. Você pode implantar um modelo de Personalização em um ambiente isolado, testar o desempenho do modelo em relação ao seu caso de uso e, em seguida, usar as previsões para treinar ainda mais o modelo até que ele atinja o nível de desempenho desejado.

Saiba mais sobre IA responsável

Saiba mais sobre a Análise de Imagem

Próximas etapas