Nota de transparência e casos de uso para Inteligência Documental

Importante

Traduções não ingleses são fornecidas apenas por conveniência. Por favor, consulte a EN-US versão deste documento para a versão definitiva.

O que é uma nota de transparência?

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a irão utilizar, as pessoas que serão afetadas por ela e o ambiente onde é implementada. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, as suas capacidades e limitações, e como alcançar o melhor desempenho.

Microsoft fornece notas de transparência para o ajudar a compreender como funciona a nossa tecnologia de IA. Isto inclui as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar notas de transparência ao desenvolver ou implementar o seu próprio sistema, ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As notas de transparência fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos princípios de IA. Para saber mais, consulte os princípios de IA Microsoft.

Os fundamentos da Inteligência Documental

Introdução

A Inteligência de Documentos é acedida através de um conjunto de APIs e permite aos programadores extrair facilmente texto, estrutura e campos dos seus documentos. É composta por características como:

Leia para extração de texto.
Layout e Documentos Gerais para insights estruturais e valores-chave gerais e entidades, como nomes, locais e objetos.
Modelos pré-construídos para tipos específicos de documentos como faturas, recibos, cartões de visita, W2s e IDs.
Modelos personalizados para construir modelos específicos para os seus tipos de documentos.

O Document Intelligence suporta uma ou mais línguas e locais para cada uma das funcionalidades, conforme listado no artigo Línguas Suportadas .

Termos-chave

Termo	Definição
Leia	Esta funcionalidade extrai linhas de texto, palavras e as suas localizações de imagens e documentos, juntamente com outras informações, como línguas detetadas.
Disposição	Esta funcionalidade extrai texto, marcas de seleção e estrutura de tabelas (os números das linhas e colunas associados ao texto). Ver Layout de Inteligência de Documentos.
Documentos Gerais	Analise documentos e associe valores a chaves e entradas a tabelas que encontrar. Para mais informações, consulte Documentos Gerais de Inteligência Documental.
Modelos pré-construídos	Modelos pré-construídos são modelos específicos de documentos para tipos de formulários únicos. Estes modelos não requerem treino personalizado antes de serem usados. Por exemplo, o modelo de fatura pré-construído extrai campos-chave das faturas. Para mais informações, consulte o modelo de faturação pré-construído de Inteligência de Documentos.
Modelos personalizados	A Inteligência de Documentos permite-lhe treinar um modelo personalizado adaptado aos seus formulários e documentos. Este modelo extrai texto, pares-chave-valor, marcas de seleção e dados de tabelas. Modelos personalizados podem ser melhorados com feedback humano aplicando revisão humana, atualizando os rótulos e retreinando o modelo através da API.
Valor de confiança	Todas as operações Obter Resultados da Análise retornam valores de confiança no intervalo entre 0 e 1 para todas as palavras e mapeamentos chave-valor extraídos. Este valor representa a estimativa do serviço de quantas vezes, em 100, extrai corretamente a palavra ou mapeia os pares chave-valor corretamente. Por exemplo, uma palavra que se estima ser corretamente extraída 82% do tempo resulta num valor de confiança de 0,82.
Funcionalidades adicionais	O Document Intelligence oferece um conjunto de funcionalidades adicionais para expandir os resultados e incluir mais elementos dos seus documentos. Algumas funcionalidades adicionais têm um custo adicional e podem ser ativadas ou desativadas dependendo do cenário de extração do documento. Atualmente oferecemos capacidades de extração de alta resolução, fórmulas, styleFont, códigos de barras, línguas, keyValuePairs e queryFields. Para mais informações, consulte Capacidades Complementares de Inteligência de Documentos.

Capacidades

Comportamento do sistema

O Azure Document Intelligence no Foundry Tools é uma ferramenta Foundry baseada na cloud, construída utilizando reconhecimento ótico de caracteres (OCR), Análise de Texto e Custom Text from Foundry Tools. Os modelos personalizados utilizam atualmente o modelo GPT-3.5 do serviço Azure OpenAI. O OCR é usado para extrair texto impresso e manuscrito. A Inteligência de Documentos utiliza OCR para detetar e extrair informação de formulários e documentos suportados por IA, de modo a fornecer mais estrutura e informação à extração do texto.

Casos de uso

Usos pretendidos

A Inteligência Documental inclui funcionalidades que permitem a clientes de várias indústrias extrair dados dos seus documentos. Os seguintes cenários são exemplos de casos de uso apropriados:

Contas a pagar: Uma empresa pode aumentar a eficiência dos seus funcionários de contas a pagar utilizando o modelo pré-construído de faturas e formulários personalizados para acelerar a introdução de dados de faturas com um humano no circuito. O modelo de fatura pré-construído pode extrair campos-chave, como Total da Fatura e Endereço de Envio.
Processamento de formulários de seguro: Um cliente pode treinar um modelo usando formulários personalizados para extrair um par-chave-valor em formulários de seguro e depois alimentar os dados para o fluxo do seu negócio para melhorar a precisão e eficiência do seu processo. Para os seus formulários únicos, os clientes podem construir o seu próprio modelo que extrai valores-chave utilizando formulários personalizados. Estes valores extraídos tornam-se então dados acionáveis para vários fluxos de trabalho dentro do seu negócio.
Processamento de formulários bancários: Um banco pode usar o modelo ID pré-construído e formulários personalizados para acelerar a introdução de dados na documentação de "conhecer o seu cliente", ou para acelerar a introdução de dados para um pacote de hipoteca. Se um banco exigir que os seus clientes submetam identificação pessoal como parte de um processo, o modelo de identificação pré-construído pode extrair valores-chave, como Nome e Número de Documento, acelerando o tempo total para a introdução de dados.
Automação robótica de processos (RPA): Utilizando o modelo de extração personalizado, os clientes podem extrair dados específicos necessários de vários tipos de documentos. O par chave-valor extraído pode então ser introduzido em vários sistemas, como bases de dados ou sistemas CRM, através da RPA, substituindo a introdução manual de dados. Os clientes também podem usar um modelo de classificação personalizado para categorizar documentos com base no seu conteúdo e arquivá-los na localização correta. Assim, um conjunto organizado de dados extraídos do modelo personalizado pode ser um primeiro passo essencial para documentar cenários de RPA para empresas que lidam regularmente com grandes volumes de documentos.

Considerações na escolha de outros casos de uso

Considere os seguintes fatores ao escolher um caso de uso:

Considere cuidadosamente aplicar a revisão humana quando estão envolvidos dados ou cenários sensíveis: É importante incluir uma pessoa no ciclo para uma revisão manual quando se trata de cenários de alto risco (por exemplo, afetar direitos consequentes de alguém) ou dados sensíveis. Os modelos de aprendizagem automática não são perfeitos. Considere cuidadosamente quando incluir uma etapa de revisão manual para determinados fluxos de trabalho. Por exemplo, a verificação de identidade num posto de entrada, como aeroportos, deve incluir supervisão humana.
Considere cuidadosamente ao usar para atribuição ou negação de benefícios: A inteligência do Doc não foi concebida nem avaliada para a concessão ou recusa de benefícios, e a utilização nestes cenários pode ter consequências não intencionais. Estes cenários incluem:
- Seguro de saúde: Isto incluiria o uso de registos de saúde e prescrições médicas como base para decisões sobre recompensa ou recusa do seguro.
- Aprovações de empréstimos: Incluem pedidos de novos empréstimos ou refinanciamento de outros já existentes.
Considere cuidadosamente os tipos de documentos e locais suportados: Os modelos pré-construídos têm uma lista pré-definida de campos suportados e são construídos para locais específicos. Certifique-se de verificar cuidadosamente as localizações e tipos de documentos oficialmente suportados para garantir os melhores resultados. Por exemplo, consulte os locais de receção pré-definidos de Document Intelligence.
Considerações legais e regulatórias: As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar quaisquer Ferramentas e Soluções da Foundry, que podem não ser adequadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções da Foundry não foram concebidas para e não podem ser usadas de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Limitações

Limitações técnicas, fatores operacionais e alcances

Limitações do modelo pré-construído

Modelos pré-construídos de Inteligência de Documentos são usados para processar tipos específicos de documentos e são pré-treinados em milhares de formulários. Esta capacidade permite aos programadores começar e obter resultados em minutos, sem necessidade de dados de treino ou rotulagem. Para modelos pré-construídos, é importante notar a lista de requisitos de entrada, tipos de documentos suportados e locais para cada modelo pré-construído para obter resultados ótimos. Por exemplo, consulte os requisitos pré-definidos de introdução de faturas.

Limitações dos modelos personalizados

Os modelos personalizados de Inteligência de Documentos são treinados usando os seus próprios dados de treino, para que o modelo possa ser treinado para se adaptar aos seus formulários e documentos específicos. Esta funcionalidade depende fortemente da forma como rotulas os dados, bem como do tipo de conjunto de dados de treino que forneces. Para modelos personalizados, é importante notar os limites do tamanho do conjunto de dados de treino, limites das páginas do documento e o número mínimo de amostras necessárias para cada tipo de documento. Os modelos personalizados utilizam atualmente o modelo GPT-3.5 do Azure OpenAI Service. Mais informações sobre os modelos Azure OpenAI podem ser encontradas na Nota de Transparência Azure OpenAI.

A página de limites de serviço contém mais informações sobre quotas e limites do serviço de Inteligência Documental para todos os escalões de preços. Contém também limitações do modelo, boas práticas para a utilização do modelo e formas de evitar a limitação da taxa de pedidos.

Suporte a funcionalidades

Consulte a tabela de características de Análise para uma lista das diferentes operações que os modelos de Inteligência de Documentos podem realizar.

Desempenho do sistema

Precisão

O texto é composto por linhas e palavras ao nível fundamental e por entidades como nomes, preços, montantes, nomes de empresas e produtos ao nível de compreensão documental.

Precisão ao nível da palavra

Uma medida popular de precisão para o OCR é a taxa de erro de palavra (WER), ou seja, quantas palavras foram incorretamente produzidas nos resultados extraídos. Quanto menor o WER, maior a precisão.

WER é definido como:

Ilustração que mostra uma definição de WER.

Onde:

Termo	Definição	Exemplo
S	Contagem de palavras incorretas, isto é, "substituídas", na saída.	"Velvet" é extraído como "Veivet" porque "l" é detetado como "i."
D	Contagem de palavras ausentes ("eliminadas") no resultado.	Para o texto "Nome da Empresa: Microsoft", a Microsoft não é extraída porque está escrita à mão ou é difícil de ler.
I	Contagem de palavras inexistentes ("inseridas") na saída.	"Departamento" é segmentado incorretamente em três palavras como "Deputado." Neste caso, o resultado é uma palavra eliminada e três palavras inseridas.
C	Contagem de palavras corretamente extraídas no resultado.	Todas as palavras que foram corretamente extraídas.
N	Contagem total de palavras na referência (N=S+D+C) excluindo I porque essas palavras estavam ausentes na referência original e foram incorretamente previstas como presentes.	Considere uma imagem com a frase: "A Microsoft, sediada em Redmond, WA, anunciou um novo produto chamado Velvet para departamentos financeiros." Assuma que a saída do OCR é " , sediada em Redmond, WA, anunciou um novo produto chamado Veivet para departamentos financeiros." Neste caso, S (Velvet) = 1, D (Microsoft) = 1, I (departamentos) = 3, C (11), e N = S + D + C = 13. Portanto, WER = (S + D + I) / N = 5 / 13 = 0,38 ou 38% (de 100).

Usando um valor de confiança

Como referido numa secção anterior, o serviço fornece um valor de confiança para cada palavra prevista na saída do OCR. Os clientes usam este valor para calibrar limiares personalizados para o seu conteúdo e cenários, a fim de encaminhar o conteúdo para processamento automático ou para o processo supervisionado por humanos. As medições resultantes determinam a precisão específica do cenário.

As implicações no desempenho do sistema OCR podem variar consoante os cenários em que a tecnologia OCR é aplicada. Vamos rever alguns exemplos para ilustrar esse conceito.

Conformidade com dispositivos médicos: Neste primeiro exemplo, uma empresa farmacêutica multinacional com um portefólio diversificado de patentes, dispositivos, medicamentos e tratamentos precisa de analisar informações de rótulos de produtos e documentos de análise em conformidade com a FDA. A empresa pode preferir um limiar de nível de confiança baixo para aplicar a participação humana no processo, pois o custo dos dados extraídos incorretamente pode ter um impacto significativo nos consumidores e multas das agências reguladoras.
Processamento de imagens e documentos: Neste segundo exemplo, uma empresa realiza o processamento de seguros e pedidos de empréstimos. O cliente que utiliza OCR pode preferir um limiar de valor de confiança médio porque a extração automática de texto é combinada a jusante com outras entradas de informação e passos humanos no ciclo para uma revisão holística das aplicações.
Moderação de conteúdos: Para um grande volume de dados de catálogos de comércio eletrónico importados de fornecedores em grande escala, o cliente pode preferir um limiar elevado de valor de confiança com elevada precisão, pois mesmo uma pequena percentagem de conteúdo sinalizado falsamente pode gerar muito sobrecusto para as suas equipas de revisão humana e fornecedores.

Precisão ao nível do documento e da entidade

Ao nível do documento, por exemplo, no caso de uma fatura ou recibo, um erro de apenas um carácter em todo o documento pode ser considerado insignificante. Mas se esse erro estiver no texto que representa o valor pago, toda a fatura ou recibo pode ser assinalado como incorreto.

Outra métrica útil é a taxa de erro da entidade (EER). É a percentagem de entidades extraídas incorretamente, como nomes, preços, montantes e números de telefone, em relação ao total das entidades correspondentes num ou mais documentos. Por exemplo, para um total de 30 palavras que representam 10 nomes, 2 palavras incorretas em 30 equivalem a 0,06 (6%) WER. Mas, se isso resultar em 2 nomes incorretos em 10, o EER de nomes é 0,20 (20%), o que é muito superior ao WER.

Medir tanto o WER como o EER é um exercício útil para obter uma perspetiva completa sobre a precisão da compreensão dos documentos.

Boas práticas para melhorar o desempenho do sistema

Considere os seguintes pontos sobre limitações e desempenho:

O serviço suporta imagens e documentos. Para os limites permitidos para número de páginas, tamanhos de imagem, tamanhos de papel e tamanhos de ficheiros, veja O que é Inteligência de Documentos?.

Muitas variáveis podem afetar a precisão dos resultados do OCR dos quais depende a Inteligência de Documentos. Estas variáveis incluem qualidade da digitalização do documento, resolução, contraste, condições de luz, rotação e atributos do texto como tamanho, cor e densidade. Por exemplo, recomendamos que a imagem tenha pelo menos 50 x 50 pixels. Consulte as especificações do produto e teste o serviço nos seus documentos para validar a adequação à sua situação.
Note as limitações de cada serviço relativamente às entradas atualmente suportadas, línguas e locais, e tipos de documentos. Por exemplo, consulte as linguagens suportadas por Layout.

Melhores práticas para melhorar a qualidade dos modelos personalizados

Quando usa o modelo personalizado de Inteligência de Documentos, fornece os seus próprios dados de treinamento para que o modelo possa ser treinado para os seus formulários e documentos específicos. A lista seguinte utiliza o modelo de formulário personalizado para partilhar dicas introdutórias para melhorar a qualidade do seu modelo.

Para formulários preenchidos, use exemplos que tenham todos os seus campos preenchidos.
Usa formulários com valores do mundo real que esperas ver para cada campo.
Se as suas imagens de formulário forem de menor qualidade, use um conjunto de dados maior (pelo menos 10-15 imagens, por exemplo).

Para um guia completo e requisitos de entrada, veja Construir um conjunto de dados de treino para um modelo personalizado.

Avaliação da Inteligência Documental

O desempenho da Inteligência de Documentos variará consoante as soluções reais para as quais está implementada. Para garantir um desempenho ótimo nos seus cenários, os clientes devem realizar as suas próprias avaliações. O serviço fornece para cada palavra extraída e mapeamento chave-valor um valor de confiança no intervalo entre 0 e 1. Os clientes devem executar um piloto ou uma prova de conceito que represente o seu caso de uso para compreender a gama de valores de confiança e a qualidade de extração da Inteligência Documental. Podem então estimar os limiares de valor de confiança para que os resultados sejam enviados para processamento direto (STP) ou revistos por um humano. Por exemplo, o cliente pode submeter resultados com valores de confiança superiores ou iguais a 0,80 para processamento direto e aplicar revisão humana a resultados com valores de confiança inferiores a 0,80.

Avaliar e integrar a Inteligência de Documentos para o seu uso

A Microsoft quer ajudá-lo a desenvolver e implementar soluções responsáveis que utilizem Inteligência de Documentos. Estamos a adotar uma abordagem de princípios para defender a agência pessoal e a dignidade, considerando a justiça, fiabilidade e segurança, privacidade e proteção, inclusão, transparência e responsabilidade humana dos sistemas de IA. Estas considerações estão alinhadas com o nosso compromisso em desenvolver IA Responsável.

Quando se prepara para implementar produtos ou funcionalidades baseadas em IA, as seguintes atividades ajudam a prepará-lo para o sucesso:

Compreenda o que pode fazer: Avalie totalmente o potencial da Inteligência Documental para compreender as suas capacidades e limitações. Compreenda como se comportará no seu cenário e contexto particulares. Por exemplo, se estiver a usar o modelo de faturas pré-construído, teste com faturas do mundo real dos seus processos empresariais para analisar e comparar os resultados com as métricas de processo existentes.
Respeite o direito à privacidade do indivíduo: Recolhe dados e informações de indivíduos apenas para fins legais e justificados. Use apenas dados e informações para os quais tenha consentimento para este fim.
Revisão jurídica: Obtenha uma revisão jurídica adequada, especialmente se planeia utilizá-la em aplicações sensíveis ou de alto risco. Compreenda as restrições que poderá ter de cumprir e a sua responsabilidade em resolver quaisquer problemas que possam surgir no futuro.
Humano no loop: Mantenha um humano envolvido e inclua a supervisão humana como uma área consistente a explorar. Isto significa garantir a supervisão humana constante do produto ou funcionalidade alimentada por IA e manter o papel dos humanos na tomada de decisões. Garanta que pode ter intervenção humana em tempo real na solução para prevenir danos. A inclusão de um humano no processo permite gerir situações em que a Inteligência de Documentos não funciona conforme necessário.
Segurança: Garanta que a sua solução é segura e que possui controlos adequados para preservar a integridade do seu conteúdo e prevenir acessos não autorizados.

Recomendações para preservar a privacidade

Uma abordagem bem-sucedida de privacidade capacita os indivíduos com informação e fornece controlos e proteção para preservar a sua privacidade.

Se a Inteligência Documental faz parte de uma solução concebida para incorporar informação pessoal identificável (PII), pense cuidadosamente se e como registar esses dados. Siga as regulamentações nacionais e regionais aplicáveis sobre privacidade e dados sensíveis.
Os gestores de privacidade devem considerar as políticas de retenção relativas ao texto e valores extraídos, bem como aos documentos ou imagens subjacentes desses documentos. As políticas de retenção estarão ligadas ao uso pretendido de cada aplicação.