Casos de uso para reconhecimento personalizado de entidades nomeadas

Importante

Traduções não ingleses são fornecidas apenas por conveniência. Por favor, consulte a EN-US versão deste documento para a versão definitiva.

O que é uma Nota de Transparência?

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a irão utilizar, as pessoas que serão afetadas por ela e o ambiente onde é implementada. Criar um sistema adequado ao seu propósito requer compreender como a tecnologia funciona, as suas capacidades e limitações, e como alcançar o melhor desempenho.

Microsoft fornece para o ajudar a compreender como funciona a nossa tecnologia de IA. Isto inclui as escolhas que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema, e a importância de pensar no sistema como um todo, incluindo a tecnologia, as pessoas e o ambiente. Pode usar as Notas de Transparência ao desenvolver ou implementar o seu próprio sistema, ou partilhá-las com as pessoas que irão usar ou ser afetadas pelo seu sistema.

As Notas de Transparência fazem parte de um esforço mais amplo da Microsoft para pôr em prática os nossos princípios de IA. Para saber mais, consulte Microsoft princípios de IA.

Introdução ao reconhecimento personalizado de entidades nomeadas

O reconhecimento personalizado de entidades nomeadas (custom NER) é um serviço de API baseado em nuvem para extração de informação. O serviço aplica inteligência de aprendizagem automática para que possa construir modelos personalizados para tarefas de extração de informação.

O NER personalizado pode ser usado para extrair informação de .txt ficheiros. Por exemplo, uma instituição financeira pode querer criar um sistema automático de notificações para lembrar os clientes dos pagamentos em dívida. A organização utiliza NER personalizada para extrair informações relevantes dos contratos de empréstimo, como o nome do cliente, montante do empréstimo, taxa de juro e data de pagamento. O sistema pode ainda processar as entidades extraídas para enviar um lembrete ao cliente com a próxima data de pagamento e o montante a dezer.

Os fundamentos do reconhecimento personalizado de entidades nomeadas

O reconhecimento personalizado de entidades nomeadas permite aos seus utilizadores construir modelos de aprendizagem automática personalizados para extrair entidades específicas de domínio a partir de texto não estruturado, como contratos ou documentos financeiros.

Ao criar um projeto NER personalizado, os programadores podem marcar iterativamente entidades dentro dos dados, treinar, avaliar e melhorar o desempenho do modelo antes de os disponibilizar para consumo. A qualidade dos dados marcados afeta significativamente o desempenho do modelo. Para simplificar a construção e personalização do seu modelo, o serviço oferece um portal web personalizado que pode ser acedido através do Language Studio.

Terminologia personalizada da NER

Os seguintes termos são frequentemente usados com esta funcionalidade:

Termo Definição
Projeto Um projeto é uma área de trabalho para construir os seus modelos de ML personalizados com base nos seus dados. O seu projeto só pode ser acedido por si e por outros que tenham acesso ao recurso Azure que está a ser utilizado. Dentro de um projeto, podes identificar entidades dentro dos dados, construir modelos, avaliar e melhorar modelos quando necessário e, eventualmente, implementar um modelo. Pode ter vários modelos dentro do seu projeto, todos construídos sobre o mesmo conjunto de dados.
Modelo Um modelo é um objeto treinado para realizar uma determinada tarefa, neste caso reconhecimento personalizado de entidades. Os modelos são treinados fornecendo dados marcados para aprender, de modo a poderem ser usados posteriormente em tarefas de reconhecimento.
Entidade Uma entidade é um segmento de texto que indica um certo tipo de informação. A extensão do texto pode consistir em uma ou mais palavras. No âmbito do NER personalizado, entidades representam a informação que o utilizador pretende extrair do texto. Os programadores etiquetam as entidades dentro dos seus dados com as entidades necessárias antes de os passar para o modelo para treino. Por exemplo, "Número de fatura", "Data de início", "Número de envio", "Local de nascimento", "Cidade de origem", "Nome do fornecedor" ou "Endereço do cliente".

Exemplos de casos de uso

Aqui estão alguns exemplos de quando pode usar NER personalizado:

  • Mineração de conhecimento para melhorar a pesquisa semântica: A pesquisa é fundamental para qualquer aplicação que mostre conteúdo de texto aos utilizadores. Cenários comuns incluem pesquisa por catálogo ou documentos, pesquisa de produtos de retalho ou mineração de conhecimento para ciência de dados. Muitas empresas de vários setores querem construir uma experiência de pesquisa rica em conteúdos privados e heterogéneos, que incluem tanto documentos estruturados como não estruturados. Como parte do seu pipeline, os programadores podem usar NER personalizado para extrair entidades do texto que sejam relevantes para a sua indústria. Estas entidades podem ser usadas para enriquecer a indexação do ficheiro e proporcionar uma experiência de pesquisa mais personalizada.

  • Extração de informação a partir de texto não estruturado: Muitas organizações financeiras e jurídicas extraem e normalizam diariamente dados de milhares de fontes textuais complexas e não estruturadas. Essas fontes incluem extratos bancários, acordos legais ou formulários bancários. Por exemplo, a extração manual dos dados do pedido de crédito hipotecário feita por revisores humanos pode demorar vários dias a ser extraída. Automatizar estes passos simplifica o processo e poupa custos, tempo e esforço.

  • Auditoria e conformidade: Em vez de rever manualmente ficheiros de texto significativamente longos para auditar e aplicar políticas, os departamentos de TI em empresas financeiras ou jurídicas podem usar NER personalizado para construir soluções automatizadas. Estas soluções podem ser úteis para aplicar políticas de conformidade e definir as regras de negócio necessárias com base nos pipelines de mineração de conhecimento que processam conteúdos estruturados e não estruturados.

Considerações na escolha de um caso de uso

Esteja ciente das seguintes orientações ao usar NER personalizado:

  • Evite usar NER personalizado para decisões que possam ter impactos adversos graves. Por exemplo, evite cenários que incluam diagnósticos médicos ou de saúde baseados em informações extraídas do formulário de histórico médico de um indivíduo, ou cobrar a conta bancária do utilizador com base nos valores extraídos. Além disso, é aconselhável incluir a revisão humana de decisões que possam ter impactos sérios nos indivíduos.

  • Evite criar entidades personalizadas que extraiam informações desnecessárias ou sensíveis. Evite extrair informações sensíveis do utilizador se não for necessária para o seu caso. Por exemplo, se o seu cenário exigir extrair a cidade e país/região do utilizador, crie entidades que extraiam apenas a cidade e o país/região do endereço do utilizador em vez de extraírem o endereço completo

  • Considerações legais e regulatórias: As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar quaisquer Ferramentas e Soluções da Foundry, que podem não ser adequadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções da Foundry não foram concebidas para e não podem ser usadas de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Próximos passos