Nota de transparência: Compreensão de Conteúdo Azure nas Ferramentas Foundry

Importante

Traduções não ingleses são fornecidas apenas por conveniência. Por favor, consulte a EN-US versão deste documento para a versão definitiva.

O que é uma Nota de Transparência?

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a irão utilizar, as pessoas que serão afetadas por ela e o ambiente onde é implementada. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, quais são as suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar as Notas de Transparência ao desenvolver ou implementar o seu próprio sistema ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As Notas de Transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos Princípios de IA. Para saber mais, consulte os princípios Microsoft IA.

Os fundamentos da Compreensão de Conteúdos no Azure

Introdução

A Compreensão de Conteúdo ingere conteúdo não estruturado em qualquer modalidade, como documentos, imagens, vídeos e áudio, para produzir saídas estruturadas a partir de esquemas pré-construídos ou definidos pelo utilizador, de modo a representar da melhor forma cenários específicos da tarefa a partir do conteúdo. Esta saída pode então ser consumida por aplicações posteriores, como guardá-la numa base de dados, enviar a saída para um sistema desenvolvido pelo cliente para raciocínio com LLMs (por exemplo, Geração Aumentada de Recuperação ou RAG), construir modelos específicos de IA/ML nos dados, ou ser usada em fluxos de trabalho para automatizar processos de negócio. A Compreensão de Conteúdos irá expandir o âmbito da Inteligência de Documentos Azure nas Ferramentas Foundry e aproveitar as capacidades do Azure Open Foundry Tool, Azure Fala nas Ferramentas Foundry e Azure Visão nas Ferramentas Foundry para suportar cenários monomodais e multimodais.

Termos-chave

Termo	Definição
Classificar	Este é um tipo de campo. O campo irá classificar um valor dos dados de entrada usando o nome do campo. Um exemplo seria classificar se a imagem tem defeito, ou se um rosto tem óculos ou não.
Valor de confiança	Todo o resultado da Compreensão de Conteúdo devolve valores de confiança numa escala de 0 a 1 para todas as palavras extraídas e mapeamentos chave-valor. Este valor representa a percentagem estimada de quantas vezes extrai corretamente a palavra de um total de 100 ou mapeia corretamente os pares-chave-valor. Por exemplo, uma palavra que se estima ser corretamente extraída 82% do tempo resulta num valor de confiança de 0,82.
Diarização	A diarização distingue entre os altifalantes individuais em cada gravação de áudio ao atribuir um rótulo temporário e anónimo a cada um (por exemplo, GUEST1, GUEST2, GUEST3, etc.) para indicar qual dos altifalantes está a falar no ficheiro de áudio. Todas as APIs de Compreensão de Conteúdo que suportam transcrição também suportam diarização.
Excerto	Este é um tipo de campo. O campo irá extrair diretamente um valor dos dados de entrada. Um exemplo seria extrair datas de faturas ou assinaturas de documentos.
Deteção facial	Encontra rostos humanos numa imagem e devolve caixas delimitadoras indicando onde estão os rostos. Os modelos de deteção facial sozinhos não encontram características individuais, apenas uma caixa delimitadora que marca todo o rosto. Para todas as faces detetadas, o Face ID é atribuído com base nos embeddings. Por favor, consulte a documentação do conceito de deteção facial para mais informações.
Agrupamento de rostos	Depois de detetadas as caras, as faces identificadas são filtradas em grupos locais. Se uma pessoa for detetada mais do que uma vez, são criadas mais instâncias de rosto observadas para essa pessoa. Por favor, consulte [Documentação de agrupamento de faces](/azure/ai-services/computer-vision/overview-identity" \l "group-faces) para obter mais informações.
Gerar	Este é um tipo de campo. O campo gerará um valor a partir do conteúdo do campo pai. Um exemplo seria gerar descrição de cena a partir de vídeos ou resumir a partir do áudio de uma chamada.
Esquema	Esquema é o termo que usamos para nomes de campos e descrições que os clientes precisam de fornecer para extrair valores da entrada. O Content Understanding fornece um conjunto de esquemas pré-definidos, adequando-se aos seus cenários. Dependendo do cenário, o Content Understanding tem uma lista pré-definida de campos que serão preenchidos com base na entrada. Podes usar estes esquemas pré-construídos para começar o teu projeto mais rapidamente sem teres de definir os campos tu próprio.
Transcrição	A funcionalidade automática de saída de voz para texto da Content Understanding, por vezes chamada de transcrição automática ou reconhecimento automático de voz (ASR). A transcrição utiliza Azure Speech e é totalmente automatizada. Todas as APIs de Compreensão de Conteúdo que suportam transcrição também suportam diarização.

Capacidades

Comportamento do sistema

Content Understanding é uma ferramenta Foundry baseada na cloud que utiliza uma variedade de modelos de IA/ML (como os disponíveis através do Azure OpenAI Service, Azure Face Service e Azure Speech) para extrair, classificar e gerar campos a partir do ficheiro de entrada de um cliente. A Content Understanding não apoia a integração de quaisquer modelos que os clientes trazem.

A compreensão do conteúdo extrai primeiro o conteúdo para um resultado estruturado. Depois, utiliza um grande modelo de linguagem (LLM) para gerar campos e atribuir pontuações de confiança aos campos aplicáveis.

Atualmente, a Compreensão de Conteúdos pode ingerir dados dos seguintes tipos: documento, imagem, texto, vídeo e áudio. Dependendo do tipo de dados que o utilizador carrega, o Content Understanding sugerirá automaticamente esquemas pré-construídos comuns com que os utilizadores podem começar. Os utilizadores também têm a opção de personalizar o esquema por si próprios, permitindo uma maior capacidade de ingestão de dados. No caso de o utilizador carregar conteúdo prejudicial, o Content Understanding emitirá um aviso na saída para informar os utilizadores de que o ficheiro de entrada contém conteúdo prejudicial, mas continuará a gerar os campos.

O objetivo do serviço é fornecer uma representação normalizada e específica da tarefa dos dados de entrada, permitindo cenários extrativos e generativos para os clientes, proporcionando ao mesmo tempo uma experiência consistente entre modalidades. Note que o Content Understanding não se destina a suportar inferências não fundamentadas, e apenas gerará resultados com base na informação e contexto fornecidos pelos utilizadores.

Nota

Desfoque facial

Para entradas do GPT-4 Turbo com Vision e GPT-4o que contenham imagens ou vídeos de pessoas, o sistema irá primeiro desfocar os rostos antes do processamento para devolver os resultados solicitados. O desfocamento ajuda a proteger a privacidade dos indivíduos e grupos envolvidos. O desfoque não deve afetar a qualidade das tuas finalizações, mas podes ver o sistema referir-se ao desfoque de rostos em alguns casos.

Importante

Qualquer identificação de um indivíduo não é resultado do reconhecimento facial nem da geração e comparação de modelos faciais. A identificação resulta do treino do modelo para associar imagens de um indivíduo com o mesmo nome através da marcação de imagens, pelo qual o modelo devolve o nome com quaisquer entradas de imagem subsequentes desse indivíduo. O modelo também pode captar pistas contextuais para além do rosto, o que permite associar a imagem a um indivíduo mesmo que o rosto esteja desfocado. Por exemplo, se a imagem contiver uma foto de um atleta popular a usar a camisola da sua equipa e o seu número específico, o modelo ainda pode detetar o indivíduo com base nos sinais contextuais.

Filtragem de conteúdos

O serviço Azure Content Understanding inclui um sistema de filtragem de conteúdos que deteta e bloqueia categorias específicas de conteúdos potencialmente prejudiciais tanto em prompts de entrada como em conclusãos de saída. Variações nas configurações da API e no design da aplicação podem afetar as completações e, consequentemente, o comportamento de filtragem. Clientes aprovados podem personalizar o sistema padrão de filtragem de conteúdo do Content Understanding para anotar, em vez de bloquear, outputs potencialmente prejudiciais.

Nota

Desativar o filtro de conteúdo pode impedir que o serviço bloqueie efetivamente conteúdos prejudiciais, incluindo, mas não se limitando a, categorias relacionadas com ódio e justiça, sexual, violência e autoagressão . Para mais informações, consulteFiltragem de conteúdo.
Desativar o Escudo de Prompts de Ataque Indireto poderia potencialmente expor o sistema a vulnerabilidades, onde terceiros poderiam incorporar instruções maliciosas em documentos acessíveis e processados pelo sistema de IA Generativa. Vulnerabilidades análogas podem surgir de tentativas de jailbreak que procuram diretamente contornar e sobrepor salvaguardas incorporadas através de prompts específicos.

Acesso Limitado à Compreensão de Conteúdos

A funcionalidade de agrupamento de rostos no Content Understanding é um serviço de Acesso Limitado e é necessário registo para aceder a ela. Para mais informações, consulte a Política de Acesso Limitado do Microsoft e aceda ao registo da API Face. Certas funcionalidades estão disponíveis apenas para clientes geridos pela Microsoft e parceiros aprovados, e apenas para determinados casos de uso selecionados no momento do registo. Note que os casos de deteção facial, atributos faciais e redação facial não requerem registo.

Nota

A 11 de junho de 2020, a Microsoft anunciou que não venderia tecnologia de reconhecimento facial aos departamentos de polícia nos Estados Unidos até que uma regulação rigorosa, baseada nos direitos humanos, fosse aprovada. Assim, os clientes não podem utilizar funcionalidades ou funcionalidades de reconhecimento facial incluídas nos Serviços Azure — como Face Indexer, Video Indexer ou Content Understanding — se um cliente estiver, ou estiver a permitir o uso desses serviços por ou para, um departamento de polícia nos Estados Unidos.

Casos de uso

Usos pretendidos

Aqui estão alguns exemplos de quando pode usar a Compreensão de Conteúdos.

Automação de processos fiscais: Pode utilizar a funcionalidade de extração de documentos do Content Understanding para extrair campos de formulários fiscais. Independentemente dos diferentes modelos, poderá extrair dados-chave dos formulários fiscais para gerar uma visão unificada da informação que resulta na automação dos processos fiscais.
Análises pós-chamada no centro de chamadas: As empresas podem gerar insights a partir das gravações das chamadas. A entrada de áudio será transformada em transcrição de texto, que pode ser usada para extrair informações valiosas que conduzem a uma maior eficiência no call center e à experiência do cliente.
Automação de Marketing e DAM (Gestão de Ativos Digitais): Para construir uma solução de gestão de ativos de media, pode usar o Content Understanding para extrair campos definidos em esquema a partir de imagens e vídeos, extraindo insights que aumentem a relevância da publicidade direcionada.
Pesquisa e descoberta de conteúdo com RAG (Geração Aumentada de Recuperação): Os clientes que precisam de pesquisar e descobrir conteúdos de qualquer modalidade (como texto, imagens, áudio, vídeo ou media misto) com base no seu conteúdo, metadados ou funcionalidades podem usar a saída estruturada do Content Understanding para possibilitar cenários RAG posteriores.
Resumo de conteúdos ou de media: Por exemplo, uma empresa de media pode usar o Content Understanding para gerar um resumo e destaques do evento desportivo.
Compreensão de gráficos e tabelas: Formulários financeiros ou revistas académicas que contêm gráficos e tabelas são geralmente difíceis de compreender quando apenas se extrai o texto. A compreensão de conteúdo resolve o problema interpretando os gráficos e gráficos no contexto do próprio documento ou imagem, e os utilizadores podem facilmente extrair informações desejadas, como o tipo de gráfico ou diagrama, resumo e significado geral.

Considerações na escolha de outros casos de uso

Por favor, considere os seguintes fatores ao escolher um caso de uso:

Evite cenários em que o uso ou indevido possa resultar em danos físicos ou psicológicos. Por exemplo, usar Compreensão de Conteúdo para diagnosticar pacientes ou prescrever medicamentos pode causar danos significativos.

Cautela

A Compreensão de Conteúdo não é concebida, pretendida ou disponibilizada como dispositivo médico, nem concebida nem destinada a substituir aconselhamento, diagnóstico, tratamento ou julgamento médico profissional, nem deve ser usada para substituir ou substituir aconselhamento, diagnóstico, tratamento ou julgamento médico profissional.
Não é adequado para identificação ou verificação biométrica. Por exemplo, a Compreensão de Conteúdo não foi concebida nem destinada à identificação ou verificação única de indivíduos com base na sua geometria facial, padrões vocais ou outras características físicas, fisiológicas ou comportamentais.

Importante

Se estiver a utilizar produtos ou serviços da Microsoft para processar Dados Biométricos, é responsável por: (i) notificar os titulares dos dados, incluindo no que diz respeito a períodos de retenção e destruição; (ii) obter consentimento dos titulares dos dados; e (iii) eliminar os Dados Biométricos, tudo conforme apropriado e exigido nos termos aplicáveis dos Requisitos de Proteção de Dados. "Dados Biométricos" terá o significado estabelecido no Artigo 4.º do RGPD e, se aplicável, termos equivalentes noutros requisitos de proteção de dados. Para informações relacionadas, consulte Dados e Privacidade para o Face.
Evite usar para rastrear pessoas em contextos do mundo real. Exemplos incluem usar Compreensão de Conteúdo para vigilância de indivíduos em contextos do mundo real ou usar Compreensão de Conteúdo para verificar que indivíduos fotografados em locais separados são a mesma pessoa. Esta recomendação não se aplica ao uso de Compreensão de Contexto para fins criativos, como para encontrar diferentes cenas de um movimento com o mesmo ator.
Evite cenários em que o uso ou indevido do sistema possa ter um impacto consequente nas oportunidades de vida ou no estatuto legal. Exemplos incluem cenários em que o uso do Content Understanding pode afetar o estatuto legal de um indivíduo, os seus direitos legais ou o seu acesso a crédito, educação, emprego, cuidados de saúde, habitação, seguros, benefícios sociais, serviços, oportunidades ou os termos em que são prestados. Considere incorporar uma revisão e supervisão humana significativa para ajudar a reduzir o risco de consequências prejudiciais.
Considere cuidadosamente casos de uso em domínios ou indústrias de alto risco. Exemplos incluem, mas não se limitam a, saúde, medicina, finanças ou direito jurídico.
Evite a utilização de sistemas de monitorização de tarefas que possam interferir com a privacidade. Os modelos de IA subjacentes do Content Understanding não foram concebidos para monitorizar padrões individuais e inferir informação pessoal íntima, como a orientação sexual ou política de um indivíduo.
Evite cenários em que o uso ou indevido do sistema possa espalhar narrativas falsas sobre temas ou pessoas sensíveis. Exemplos incluem a criação e distribuição de desinformação sobre eventos altamente sensíveis ou a geração de informação sobre pessoas reais em circunstâncias que refletem uma narrativa falsa.
Considere cuidadosamente os locais e línguas suportados: O modelo de Compreensão de Conteúdos tem diferentes locais e línguas suportados. Por exemplo, dentro da própria língua inglesa, existem diferentes locais como EUA, Reino Unido e Austrália, que apresentam diferenças na forma como a hora é formatada, bem como na grafia de algumas palavras. Certifique-se de verificar cuidadosamente os locais e línguas oficialmente suportados para cada modalidade.
Evite o uso quando não houver um humano no ciclo ou um método secundário de verificação disponível. Mecanismos de segurança (por exemplo, um método secundário disponível para o utilizador final caso a tecnologia falhe) ajudam a evitar a negação de serviços essenciais ou outros danos devido a erros na saída.
Não é adequado para cenários em que informação precisa e factual atualizada é crucial, exceto se tiver revisores humanos ou usar os modelos para pesquisar seus documentos e comprovou a adequação ao seu cenário. O Content Understanding não tem informação sobre eventos que ocorrem após a sua data de formação, provavelmente tem conhecimento em falta sobre alguns temas e pode nem sempre produzir informação factualmente precisa.
Transcrição de conversas com reconhecimento de falante: A Compreensão de Conteúdo não foi concebida para fornecer diarização com reconhecimento de falante, e não pode ser usada para identificar indivíduos. Ou seja, os oradores serão apresentados como Convidado 1, Convidado 2, Convidado 3, e assim sucessivamente, na transcrição. Estes serão atribuídos aleatoriamente e não poderão ser usados para identificar os interlocutores individuais na conversa. Para cada transcrição de conversa, a atribuição de Convidado1, Convidado2, Convidado3, e assim sucessivamente, será aleatória.
Considerações legais e regulatórias. As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar a Compreensão de Conteúdos. A compreensão do conteúdo não é adequada para uso em todos os setores ou cenários. Utilize sempre o Content Understanding de acordo com os termos de serviço aplicáveis e os códigos de conduta relevantes, incluindo o Código de Conduta da IA Generativa.

Limitações

Limitações técnicas, fatores operacionais e alcances

Como em todos os sistemas de IA, existem algumas limitações à Compreensão de Conteúdo que os clientes devem conhecer.

Se ficheiros de entrada altamente perturbadores forem carregados no Content Understanding, podem devolver conteúdos prejudiciais e ofensivos como parte dos resultados. Para mitigar este resultado não intencional, recomendamos que controle o acesso ao sistema e eduque as pessoas que o irão utilizar sobre o uso adequado.

Agrupamento de rostos

Os rostos são desfocados antes de a imagem ou vídeo ser enviado para o modelo para análise, pelo que a inferência sobre rostos, como a emoção, não funcionará nem na imagem nem no vídeo. Apenas a modalidade de vídeo suporta agrupamento de faces, que apenas fornece grupos de faces semelhantes sem qualquer análise adicional.

Importante

A funcionalidade de agrupamento de rostos no Content Understanding é limitada com base nos critérios de elegibilidade e utilização. para apoiar os nossos princípios de IA Responsável. O serviço Face está disponível apenas para clientes e parceiros geridos pela Microsoft. Utilize o formulário de admissão de Reconhecimento Facial para solicitar acesso. Para mais informações, consulte a página de acesso limitado do Face.

Documento

A capacidade de extração de documentos depende muito da forma como nomeia os campos e da descrição dos campos. Além disso, o produto exige a fundamentação – ancorando as saídas ao texto dos documentos de entrada – e não devolve respostas se estas não puderem ser fundamentadas. Portanto, em alguns casos, o valor do campo pode estar ausente. Devido à natureza da extração fundamentada, o sistema devolverá o conteúdo do documento mesmo que este esteja incorreto ou que o conteúdo não seja visível a olho humano. Os documentos também devem ter uma resolução razoável, onde o texto não esteja demasiado desfocado para o modelo de layout reconhecer.

Vídeos

A Compreensão de Conteúdo não se destina a substituir a experiência completa de visualização dos vídeos, especialmente para conteúdos onde detalhes e nuances são cruciais. Também não foi concebido para resumir vídeos altamente sensíveis ou confidenciais onde o contexto e a privacidade são primordiais.

Qualidade de vídeo: Carregue sempre conteúdo de vídeo e áudio de alta qualidade. O tamanho máximo recomendado de frames é HD e a taxa de frames é de 30 FPS. Uma moldura deve conter no máximo 10 pessoas. Ao enviar frames de vídeos para modelos de IA, envie apenas cerca de um frame por segundo. Processar 10 ou mais frames pode atrasar o resultado da IA. É necessário pelo menos 1 minuto de conversa espontânea para realizar a análise. A deteção de sinais áudio não relacionados com a fala, como efeitos sonoros e canto, não é suportada.
Uma menor precisão dos insights gerados pode ocorrer quando rostos gravados por câmaras montadas em altura, inclinados para baixo ou com campo de visão amplo (FOV) podem ter menos píxeis.
Os detectores podem classificar incorretamente objetos em vídeos que estão em vista aérea, pois foram treinados com uma vista frontal dos objetos.
Línguas não inglesas: A compreensão de conteúdos foi principalmente testada e otimizada para a língua inglesa. Quando aplicado a línguas não inglesas, a precisão e qualidade dos resumos podem variar. Para mitigar esta limitação, os utilizadores que utilizam a funcionalidade para línguas não inglesas devem verificar a precisão e completude dos resumos gerados.
Vídeos com múltiplas línguas: Se um vídeo incorporar fala em várias línguas, o Resumo do Vídeo Textual pode ter dificuldades em reconhecer com precisão todas as línguas apresentadas no conteúdo. Os utilizadores devem estar atentos a esta potencial limitação ao utilizar a funcionalidade de Sumarização de Vídeo Textual para vídeos multilíngues.
Vídeos altamente especializados ou técnicos: Os modelos de IA de resumo em vídeo são treinados numa grande variedade de vídeos, incluindo notícias, filmes e outros conteúdos gerais. Se o vídeo for altamente especializado ou técnico, o modelo pode não conseguir extrair com precisão o resumo do vídeo.
Vídeos com má qualidade de áudio e sem (reconhecimento ótico de caracteres) OCR: Modelos de IA para resumo textual de vídeos dependem do áudio e outros dados para extrair o resumo do vídeo, ou de OCR para extrair o texto que aparece no ecrã. Se a qualidade do áudio for má e não houver texto identificado, o modelo pode não conseguir extrair o resumo com precisão do vídeo.
Vídeos com pouca iluminação ou movimento rápido: Vídeos filmados com pouca luz ou com movimento rápido podem dificultar para o modelo processar os insights, resultando em baixo desempenho.
Vídeos com sotaques ou dialetos pouco comuns: Modelos de IA são treinados numa grande variedade de fala, incluindo diferentes sotaques e dialetos. No entanto, se o vídeo contiver fala com um sotaque ou dialeto que não está bem representado nos dados de treino, o modelo pode ter dificuldades em extrair com precisão a transcrição do vídeo.

Áudio

Para ficheiros de áudio, pode ser necessário especificar uma localização para cada entrada de áudio. O local deve corresponder à língua real falada numa voz de entrada. O Content Understanding também suporta a deteção automática de línguas para alguns casos de uso. Para mais informações, consulte a lista de locais suportados.

Qualidade acústica: Aplicações e dispositivos habilitados para voz para texto podem usar uma grande variedade de tipos e especificações de microfone. Os modelos de fala unificada foram treinados em vários cenários de dispositivos de áudio de voz, como telefones, telemóveis e dispositivos de altifalantes. A qualidade da voz pode ser degradada pela forma como o utilizador fala para um microfone, mesmo que use um microfone de alta qualidade. Por exemplo, se um locutor estiver longe do microfone, a qualidade do som pode ser muito baixa. Um orador que está muito próximo do microfone também pode causar deterioração da qualidade do áudio. Estes casos, assim como quaisquer casos em que cause degradação da qualidade do ficheiro de áudio, podem afetar negativamente a precisão da fala para texto.
Ruído não de fala: Se um áudio de entrada contiver um certo nível de ruído, a precisão é afetada. O ruído proveniente de dispositivos de áudio usados para gravar, ou da própria entrada de áudio, pode conter ruído, como ruído de fundo ou ambiental.
Fala sobreposta: Podem existir vários oradores ao alcance de um dispositivo de entrada de áudio, e podem falar ao mesmo tempo. Ficheiros de áudio que têm a voz de outros altifalantes gravada em segundo plano enquanto o altifalante principal está a gravar também resultam em ficheiros de voz sobrepostos. Além disso, embora não haja limitação no número de oradores na conversa, o sistema funciona melhor quando o número de oradores é inferior a 30.
Vocabulários: Se uma palavra que não existe num modelo aparecer no áudio, o resultado é um erro na transcrição.
Sotaques: Mesmo dentro de um local, como em inglês - Estados Unidos (en-US), muitas pessoas têm sotaques diferentes. Acentos muito específicos também podem levar a um erro na transcrição.
Línguas ou locais incompatíveis: Se especificasse inglês - Estados Unidos (en-US) para uma entrada de áudio, mas um falante falasse em sueco, por exemplo, a precisão seria reduzida.
Erros de inserção: Por vezes, o modelo pode produzir erros de inserção na presença de ruído ou fala de fundo suave.

Imagem

Reconhecimento de Objetos: O reconhecimento de certos produtos ambíguos pode não ser preciso se não puder ser reconhecido pelo modelo. Conceitos abstratos que não correspondem à imagem, por exemplo, género e emoção, podem não ser reconhecidos tão bem.

Desempenho do sistema

As métricas de desempenho diferem para cada modalidade dentro da Compreensão de Conteúdos. Cada modalidade terá diferentes padrões industriais para medir o desempenho da IA.

Uma métrica comum que fornecemos no Content Understanding em todas as modalidades é a pontuação de confiança para os campos. Até agora, só os campos que meio que "extraem" e "geram" terão pontuações de confiança.

Uma característica distintiva da Compreensão de Conteúdo é o seu suporte para fundamentação e pontuações de confiança, atualmente disponíveis apenas para a modalidade documento, mas planeada para expansão futura. A fundamentação nos documentos inclui números de página e caixas de limite para valores extraídos, facilitando a experiência do utilizador ao destacar locais para revisão e correção humana. As pontuações de confiança, variando de 0 a 1, estimam a precisão dos valores extraídos com base em documentos analisados ou de formação, sendo que pontuações mais elevadas indicam maior confiança. Para orientações sobre o uso de pontuações de confiança, consulte a secção de Avaliação da Compreensão de Conteúdos.

Abaixo estão métricas gerais de desempenho que pode utilizar para cada modalidade:

Documento

Precisão

O texto é composto por linhas e palavras ao nível fundamental e por entidades como nomes, preços, montantes, nomes de empresas e produtos ao nível de compreensão documental.

Precisão ao nível da palavra

Uma medida de precisão para o OCR é a taxa de erro de palavra (WER), ou seja, quantas palavras foram incorretamente geradas nos resultados extraídos. Quanto menor o WER, maior a precisão.

WER é definido como:

Ilustração que mostra uma definição de WER.

Onde:

Termo	Definição	Exemplo
S	Contagem de palavras incorretas, isto é, "substituídas", na saída.	"Velvet" é extraído como "Veivet" porque "l" é detetado como "i."
D	Contagem de palavras ausentes ("eliminadas") no resultado.	Para o texto "Nome da Empresa: Microsoft", a Microsoft não é extraída porque está escrita à mão ou é difícil de ler.
I	Contagem de palavras inexistentes ("inseridas") na saída.	"Departamento" é segmentado incorretamente em três palavras como "Deputado." Neste caso, o resultado é uma palavra eliminada e três palavras inseridas.
C	Contagem de palavras corretamente extraídas no resultado.	Todas as palavras que foram corretamente extraídas.
N	Contagem total de palavras na referência (N=S+D+C) excluindo I porque essas palavras estavam ausentes na referência original e foram incorretamente previstas como presentes.	Considere uma imagem com a frase: "A Microsoft, sediada em Redmond, WA, anunciou um novo produto chamado Velvet para departamentos financeiros." Assuma que a saída do OCR é " , sediada em Redmond, WA, anunciou um novo produto chamado Veivet para departamentos financeiros." Neste caso, S (Velvet) = 1, D (Microsoft) = 1, I (departamentos) = 3, C (11), e N = S + D + C = 13. Portanto, WER = (S + D + I) / N = 5 / 13 = 0,38 ou 38% (de 100).

Precisão ao nível do documento e da entidade Ao nível do documento, por exemplo, no caso de uma fatura ou recibo, um erro de apenas um carácter em todo o documento pode ser considerado insignificante. Se esse erro estiver no texto que representa o valor pago, toda a fatura ou recibo pode ser assinalado como incorreto.

Outra métrica é a taxa de erro da entidade (EER). É a percentagem de entidades extraídas incorretamente, como nomes, preços, montantes e números de telefone, em relação ao total das entidades correspondentes num ou mais documentos. Por exemplo, para um total de 30 palavras que representam 10 nomes, 2 palavras incorretas em 30 equivalem a 0,06 (6%) WER. Mas, se isso resultar em 2 nomes incorretos em 10, o EER de nomes é 0,20 (20%), o que é muito superior ao WER.

Medir tanto o WER como o EER é um exercício útil para obter uma perspetiva completa sobre a precisão da compreensão dos documentos.

Vídeos

A precisão da análise de vídeo depende de vários fatores, incluindo a colocação da câmara e a interpretação da saída do sistema. A precisão deve ser avaliada pela forma como os resultados do valor de campo do modo se alinham com o conteúdo real do vídeo. Por exemplo, quando um utilizador procura entidades dentro de um vídeo, espera-se que devolva uma lista completa das entidades encontradas no vídeo. Para avaliar a precisão, são utilizados conjuntos de dados de teste específicos, representativos de vários cenários e condições do mundo real. Estes conjuntos de dados incluem uma vasta gama de tipos de conteúdos de vídeo e cenários de interação do utilizador.

Termo	Definição
Verdadeiro Positivo	A saída gerada pelo sistema corresponde corretamente a um evento real.
Verdadeiro Negativo	O sistema não gera corretamente um evento quando um evento real não ocorreu.
Falso Positivo	O sistema gera/extra/classifica incorretamente uma saída quando não ocorreu nenhum evento real.
Falso Negativo	O sistema falha incorretamente em gerar uma saída quando ocorre um evento real.

Áudio

O desempenho do sistema é medido por estes fatores-chave:

Taxa de erro de Word (WER)
Taxa de erro do token (TER)
Latência em tempo de execução

Um modelo é considerado melhor apenas quando apresenta melhorias significativas (como uma melhoria relativa de 5% no WER) em todos os cenários (como transcrição de conversa, transcrição de call center, ditado e assistente de voz), estando alinhado com os objetivos de utilização de recursos e latência de resposta.

Para a diarização, medimos a qualidade utilizando a taxa de erro de diarização de palavras (WDER). Quanto menor o WDER, melhor é a qualidade da diarização.

Imagem

A precisão da análise de imagens é uma medida de quão bem os resultados correspondem ao conteúdo visual real presente nas imagens. Para medir a precisão da análise de imagens, pode avaliar a imagem com dados de referência e comparar o resultado do modelo de IA. Ao comparar a verdade de base com os resultados gerados por IA, pode-se classificar os eventos em dois tipos de resultados corretos ("verdadeiros") e dois tipos de resultados incorretos ("falsos":

Termo	Definição
Verdadeiro Positivo	A saída gerada pelo sistema corresponde corretamente aos dados de referência. Por exemplo, o sistema identifica corretamente uma imagem de cão como um cão.
Verdadeiro Negativo	O sistema não gera corretamente resultados que não estejam presentes nos dados de verdade. Por exemplo, o sistema não marca corretamente uma imagem como cão quando não há cão presente na imagem.
Falso Positivo	O sistema gera incorretamente uma saída que está ausente nos dados de verdade. Por exemplo, o sistema identifica uma imagem de um gato como um cão.
Falso Negativo	O sistema falha em gerar resultados que estejam presentes nos dados de referência. Por exemplo, o sistema falha em marcar uma imagem de um cão que estava presente na imagem.

Estas categorias de eventos são usadas para calcular a precisão e a recordação:

Termo	Definição
Precisão	Uma medida da correção do conteúdo extraído. A partir de uma imagem que contém múltiplos objetos, descobre-se quantos desses objetos foram corretamente extraídos.
Recolha	Uma medida do conteúdo global extraído. A partir de uma imagem que contém múltiplos objetos, descobre-se quantos objetos foram detetados no total, sem considerar a sua correção.

As definições de precisão e recordação implicam que, em certos casos, pode ser difícil otimizar simultaneamente para precisão e recordação. Dependendo do teu cenário, podes ter de priorizar um em detrimento do outro. Por exemplo, se estiver a desenvolver uma solução para detetar apenas as etiquetas ou rótulos mais precisos no conteúdo, como para mostrar resultados de pesquisa de imagens, otimizaria para maior precisão. Mas se estiveres a tentar marcar todo o conteúdo visual possível nas imagens para indexação ou catalogação interna, otimizarias para uma maior recordação.

Boas práticas para melhorar o desempenho do sistema

Na maioria dos casos, melhorar o desempenho do sistema depende fortemente do utilizador fornecer dados razoavelmente compreensíveis para a Compreensão de Conteúdo extrair valores.

Certifique-se de que os campos gerados a partir do conteúdo são relevantes para os seus usos futuros. Por exemplo, se quiseres pesquisar por "cães a brincar no quintal", certifica-te de que a saída do teu campo inclui estes conceitos e atualiza a definição do esquema, como o nome do campo e as descrições dos campos, para corrigir caso não o fizer.

Para imagens, consulte a seguinte documentação para requisitos específicos de entrada. As imagens devem ter qualidade, exposição de luz e contraste razoáveis.

Para áudio, localizações diferentes reduzem a precisão, por isso é importante associar as localizações de entrada aos falantes no ficheiro. Use ficheiros de áudio com condições acústicas razoáveis e evite ficheiros com ruído de fundo, fala lateral, distância ao microfone e estilos de fala que possam afetar negativamente a precisão.

Ter em conta as limitações de cada modalidade relativamente aos inputs, línguas, locais e cenários atualmente suportados também ajudará a melhorar o desempenho do sistema.

Há maneiras de melhorar a qualidade do analisador para extração de documentos; isto pode ser feito atualizando ou corrigindo os resultados dos rótulos dos campos conforme necessário, à medida que cada documento é adicionado ao conjunto de dados. A funcionalidade de extração de documentos suporta aprendizagem em contexto, por isso mais conjuntos de dados e rótulos de campo precisos conduzem a um melhor desempenho do sistema em geral. Para formulários preenchidos, recomenda-se também usar exemplos com todos os campos completados e valores reais do mundo real que espera encontrar em cada campo.

Avaliação da Compreensão do Conteúdo

Métodos de avaliação

Para criar Compreensão de Conteúdo, preparámos conjuntos de dados que direcionam casos de uso comuns dos clientes. Estes são preparados de forma independente pela Microsoft, e não utilizamos os dados dos clientes enviados aos nossos serviços para fins de formação ou avaliação.

A eficácia do Content Understanding dependerá das aplicações específicas para as quais é utilizado. Os clientes devem realizar os seus próprios testes para garantir os melhores resultados.

Por exemplo, na extração de documentos, o serviço atribui um valor de confiança de 0 a 1 para cada palavra e campo. Realizar um projeto piloto pode ajudar os clientes a determinar intervalos de confiança e a qualidade da extração. Podem então definir limiares, como enviar resultados com valores de confiança de 0,80 ou superiores para processamento direto, e aqueles abaixo para revisão humana.

Resultados da avaliação

Para garantir o desempenho do serviço, realizamos regularmente avaliações e análises de erros, utilizando os resultados para melhorar a nossa oferta. Muitas destas avaliações são adaptadas a cenários de clientes e ajudam a determinar restrições como números de campo e tamanhos de dados de treino. Estas restrições são documentadas para referência do cliente. Devido a inúmeros cenários possíveis, não podemos testar tudo. Por exemplo, testamos frequentemente domínios financeiros, mas temos menos cobertura nas áreas médicas.

Considerações de justiça

Uma dimensão importante a considerar ao utilizar sistemas de IA é o desempenho do sistema para diferentes grupos de pessoas. A investigação demonstrou que, sem um esforço consciente focado em melhorar o desempenho de todos os grupos, os sistemas de IA podem apresentar níveis variados de desempenho em diferentes fatores demográficos, como raça, etnia, género e idade.

Como parte da nossa avaliação da compreensão de conteúdo, realizámos uma análise para avaliar potenciais prejuízos de imparcialidade. Analisámos o desempenho do sistema em diferentes grupos demográficos, com o objetivo de identificar quaisquer disparidades ou diferenças que possam existir e que possam afetar a justiça.

Em alguns casos, podem existir disparidades de desempenho remanescentes. É importante notar que estas disparidades podem exceder a meta, e estamos a trabalhar ativamente para abordar e minimizar quaisquer potenciais preconceitos ou lacunas de desempenho, procurando perspetivas diversas de diferentes origens.

No que diz respeito a danos representacionais, como estereótipos, degradação ou apagamento de resultados, reconhecemos os riscos associados a estas questões. Embora o nosso processo de avaliação pretenda mitigar esses riscos, incentivamos os utilizadores a considerarem cuidadosamente os seus casos de uso específicos e a implementar mitigações adicionais conforme apropriado. Ter um humano informado pode fornecer uma camada extra de supervisão para lidar com eventuais preconceitos ou consequências indesejadas.

Estamos empenhados em melhorar continuamente as nossas avaliações de justiça para obter uma compreensão mais profunda do desempenho do sistema em vários grupos demográficos e das potenciais preocupações com a justiça. O processo de avaliação está em curso e estamos a trabalhar ativamente para reforçar a justiça e a inclusão e mitigar quaisquer disparidades identificadas. Pode encontrar mais testes de equidade relacionados com a fala nesta documentação.

Avaliação e integração da Análise de Imagens para o seu uso

Ao integrar a Compreensão de Conteúdo no seu caso de uso, saber que a Compreensão de Conteúdos está sujeita ao Código de Conduta dos Serviços de IA Generativa Microsoft garantirá uma integração bem-sucedida.

Quando se prepara para integrar Compreensão de Conteúdo no seu produto ou funcionalidades, as seguintes atividades ajudam a prepará-lo para o sucesso:

Compreenda o que pode fazer: Avaliar plenamente o potencial da Compreensão de Conteúdos para compreender as suas capacidades e limitações. Compreende como se comportará no seu cenário e contexto. Por exemplo, se estiver a usar extração de conteúdos áudio, teste com gravações do mundo real dos seus processos empresariais para analisar e comparar os resultados com as métricas de processo existentes.
Respeite o direito à privacidade de um indivíduo: Recolha apenas dados e informações de indivíduos de quem obteve consentimento e para fins legais e justificáveis.
Considerações legais e regulatórias. As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar a Compreensão de Conteúdos. A compreensão do conteúdo não é adequada para uso em todos os setores ou cenários. Use sempre o Content Understanding de acordo com os termos de serviço aplicáveis e o Código de Conduta dos Serviços de IA Generativa Microsoft . 
Humano no circuito: Mantenha um humano envolvido e inclua a supervisão humana como um método consistente a explorar. Isto significa garantir a supervisão humana constante do produto ou funcionalidade alimentada por IA e manter o papel dos humanos na tomada de decisões. Garanta que pode ter intervenção humana em tempo real na solução para prevenir danos. Um humano integrado no processo permite-lhe gerir situações quando a Compreensão de Conteúdo não funciona como necessário.
Segurança: Garanta que a sua solução é segura e que tem controlos adequados para preservar a integridade do seu conteúdo e evitar acessos não autorizados.

Nota de transparência: Compreensão de Conteúdo Azure nas Ferramentas Foundry

O que é uma Nota de Transparência?

Os fundamentos da Compreensão de Conteúdos no Azure

Introdução

Termos-chave

Capacidades

Comportamento do sistema

Filtragem de conteúdos

Acesso Limitado à Compreensão de Conteúdos

Casos de uso

Usos pretendidos

Considerações na escolha de outros casos de uso

Limitações

Limitações técnicas, fatores operacionais e alcances

Agrupamento de rostos

Documento

Vídeos

Áudio

Imagem

Desempenho do sistema

Documento

Vídeos

Áudio

Imagem

Boas práticas para melhorar o desempenho do sistema

Avaliação da Compreensão do Conteúdo

Métodos de avaliação

Resultados da avaliação

Considerações de justiça

Avaliação e integração da Análise de Imagens para o seu uso

Saiba mais sobre IA responsável

Saiba mais sobre Compreensão de Conteúdos

Notas adicionais de transparência para os serviços subjacentes

Código de Conduta

Comentários

Recursos adicionais