Casos de uso para reconhecimento personalizado de entidades nomeadas

Importante

Traduções não em inglês são fornecidas apenas para conveniência. Consulte a EN-US versão deste documento para obter a versão definitiva.

O que é uma Nota de Transparência?

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente no qual ela é implantada. A criação de um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, suas funcionalidades e limitações e como obter o melhor desempenho.

Microsoft fornece notas Transparency para ajudá-lo a entender como nossa tecnologia de IA funciona. Isso inclui as opções que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o meio ambiente. Você pode usar Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As Notas de Transparência fazem parte de um esforço mais amplo em Microsoft para colocar nossos princípios de IA em prática. Para saber mais, consulte Microsoft princípios de IA.

Introdução ao reconhecimento personalizado de entidade nomeada

O NER personalizado (reconhecimento de entidade nomeada) é um serviço de API baseado em nuvem para extração de informações. O serviço aplica inteligência de aprendizado de máquina para que você possa criar modelos personalizados para tarefas de extração de informações.

O NER personalizado pode ser usado para extrair informações de arquivos .txt. Por exemplo, uma instituição financeira pode querer criar um sistema de notificação automatizado para lembrar os clientes de seus pagamentos devidos. A organização usa o NER personalizado para extrair informações relevantes de contratos de empréstimo, como o nome do cliente, o valor do empréstimo, a taxa de juros e a data de pagamento. O sistema pode processar ainda mais as entidades extraídas para enviar um lembrete ao cliente com a próxima data de pagamento e o valor devido.

Os conceitos básicos do reconhecimento personalizado de entidade nomeada

O reconhecimento personalizado de entidade nomeada permite que seus usuários criem modelos de machine learning personalizados para extrair entidades específicas do domínio de texto não estruturado, como contratos ou documentos financeiros.

Ao criar um projeto NER personalizado, os desenvolvedores podem marcar iterativamente entidades dentro dos dados, treinar, avaliar e melhorar o desempenho do modelo antes de disponibilizá-lo para consumo. A qualidade dos dados marcados afeta muito o desempenho do modelo. Para simplificar a criação e personalização do modelo, o serviço oferece um portal da Web personalizado que pode ser acessado por meio do Language Studio.

Terminologia de NER personalizada

Os seguintes termos são comumente usados com este recurso:

Termo Definição
Projeto Um projeto é uma área de trabalho para criar seus modelos de ML personalizados com base em seus dados. Seu projeto só pode ser acessado por você e outras pessoas que têm acesso ao recurso Azure que está sendo usado. Em um projeto, você pode marcar entidades dentro dos dados, criar modelos, avaliar e melhorar modelos quando necessário e, eventualmente, implantar um modelo. Você pode ter vários modelos em seu projeto, todos criados no mesmo conjunto de dados.
Modelo Um modelo é um objeto treinado para realizar uma determinada tarefa, nesse caso, o reconhecimento de entidade personalizada. Os modelos são treinados fornecendo dados marcados para aprender para que possam ser usados posteriormente para tarefas de reconhecimento.
Entidade Uma entidade é um intervalo de texto que indica um determinado tipo de informação. O intervalo de texto pode consistir em uma ou mais palavras. No escopo do NER personalizado, as entidades representam as informações que o usuário deseja extrair do texto. Os desenvolvedores marcam entidades dentro de seus dados com as entidades necessárias antes de passá-los para o modelo de treinamento. Por exemplo, "Número da fatura", "Data de início", "Número da remessa", "Local de nascimento", "cidade de origem", "Nome do fornecedor" ou "Endereço do cliente".

Exemplos de casos de uso

Aqui estão alguns exemplos de quando você pode usar o NER personalizado:

  • Mineração de conhecimento para aprimorar a pesquisa semântica: A pesquisa é fundamental para qualquer aplicativo que exibe conteúdo de texto para os usuários. Cenários comuns incluem pesquisa de catálogo ou documento, pesquisa de produtos de varejo ou mineração de conhecimento para ciência de dados. Muitas empresas de vários setores desejam criar uma experiência de pesquisa avançada sobre conteúdo privado e heterogêneo, que inclui documentos estruturados e não estruturados. Como parte de seu pipeline, os desenvolvedores podem usar o NER personalizado para extrair entidades do texto que são relevantes para seu setor. Essas entidades podem ser usadas para enriquecer a indexação do arquivo para uma experiência de pesquisa mais personalizada.

  • Extração de informações de texto não estruturado: Muitas organizações financeiras e jurídicas extraem e normalizam dados de milhares de fontes de texto complexas e não estruturadas diariamente. Essas fontes incluem extratos bancários, contratos legais ou formulários bancários. Por exemplo, a extração de dados de aplicativos hipotecários feita manualmente por revisores humanos pode levar vários dias para ser extraída. Automatizar essas etapas simplifica o processo e economiza custo, tempo e esforço.

  • Auditoria e conformidade: Em vez de revisar manualmente arquivos de texto significativamente longos para auditar e aplicar políticas, os departamentos de TI em empresas financeiras ou legais podem usar o NER personalizado para criar soluções automatizadas. Essas soluções podem ser úteis para impor políticas de conformidade e configurar as regras de negócios necessárias com base em pipelines de extração de conhecimento que processam conteúdo estruturado e não estruturado.

Considerações ao escolher um caso de uso

Lembre-se das seguintes diretrizes ao usar o NER personalizado:

  • Evite usar o NER personalizado para decisões que possam ter sérios impactos adversos. Por exemplo, evite cenários que incluam diagnóstico médico ou de saúde com base em informações extraídas do formulário de histórico médico de um indivíduo ou cobrando a conta bancária de um usuário com base nos valores extraídos. Além disso, é aconselhável incluir a revisão humana das decisões que têm o potencial de impactos graves sobre os indivíduos.

  • Evite criar entidades personalizadas que extraam informações desnecessárias ou confidenciais. Evite extrair informações confidenciais do usuário se elas não forem necessárias para seu caso de uso. Por exemplo, se o cenário exigir a extração da cidade e do país/região do usuário, crie entidades que extraam apenas a cidade e o país/região do endereço de um usuário em vez de extrair todo o endereço

  • Considerações legais e regulatórias: as organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer Ferramentas e soluções do Foundry, que podem não ser apropriadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções do Foundry não são projetadas e podem não ser usadas de maneiras proibidas em termos de serviço aplicáveis e códigos de conduta relevantes.

Próximas etapas