Partilhar via


Extração de Informação

Importante

Esta funcionalidade está em Pré-visualização Pública e está em conformidade com a HIPAA.

Esta página cobre a nova versão do Information Extraction. Para informações sobre a versão anterior, veja Extração de Informação de Uso (legado)

A Extração de Informação transforma documentos e textos não estruturados em insights essenciais e estruturados, utilizando um esquema definido. Isto permite que informação incorporada em texto não estruturado, PDFs, imagens ou tabelas seja usada diretamente para análise, relatórios ou agentes e aplicações a jusante.

Exemplos de extração de informações incluem:

  • Extrair termos e partes legais dos contratos.
  • Extração de linhas de itens e condições de pagamento das faturas.
  • Retirar detalhes importantes de registos médicos e notas.

A Extração de Informação é construída sobre a função de IA, ai_extract. O Information Extraction tem uma interface visual para personalizar e otimizar a função com um esquema definido para extração.

A Extração de Informação utiliza armazenamento padrão para armazenar transformações temporárias de dados, pontos de verificação do modelo e metadados internos que suportam cada agente. Na exclusão do agente, todos os dados associados ao agente são removidos do armazenamento padrão.

Requisitos

Criar um agente de extração de informações

Vá para o ícone Agentes.Agentes no painel de navegação esquerdo do seu espaço de trabalho. Clique Criar Agente>Extração de Informação.

Passo 1. Selecione os dados para extrair informação de

  1. Selecione os ficheiros ou dados de onde quer extrair informação. Pode carregar ficheiros, selecionar um volume do Catálogo Unity com tipos de ficheiros suportados, ou uma tabela que contenha dados de texto.

  2. Clique em Criar agente.

Passo 2. Configura e refina o teu esquema de extração

Depois de a Information Extraction processar os seus dados, configure e refine os dados que pretende extrair dos seus documentos.

  1. Em Configuração, defina o seu esquema de extração. Há várias maneiras de fazer isso:

    • Introduza uma linguagem natural que descreva a informação que quer extrair e clique em Gerar Esquema. A Extração de Informação gera automaticamente, de forma inteligente, um esquema JSON com nomes de campos e definições para si. Edite estas descrições conforme necessário.
    • Alternativamente, clique em Ou, Definir manualmente para definir manualmente o seu esquema:
      1. Clica em Adicionar campo.
      2. Introduza o nome do seu campo, tipo e descrição.
      3. Clique em Confirmar.
      4. Repete para cada campo que queres extrair.
      5. Clique em Guardar e Executar extração.
    • Também pode clicar em JSON para editar diretamente o esquema JSON. Clique em Aplicar Alterações quando estiver concluído.

    Cada vez que atualiza o seu esquema e carrega em Guardar e executar extração, a Extração de Informação atualiza o agente de extração, executa a extração e mostra os resultados de cada entrada.

  2. À esquerda, revise o documento analisado e a extração realizada pelo agente. Iterar os resultados da extração de duas formas. Primeiro, fornecendo feedback em linguagem natural sobre uma ou múltiplas entradas. Isto vai ajustar automaticamente as tuas descrições assim que clicares em Guardar e executar extração. Em segundo lugar, revisando manualmente as descrições dos esquemas. Isto terá efeito assim que clicares no Guardar e executares extração.

  3. Use versões para comparar ou voltar a uma configuração anterior. Clique em Versões, depois clique em Comparar para comparar a definição do esquema de uma versão anterior com a atual. Clique em Restaurar para restaurar uma versão anterior.

Passo 3. Use o seu agente de extração

Quando estiver satisfeito com o desempenho do agente, use o agente para extrair informação.

Clique em Usar Agente no canto superior direito. Pode escolher entre ambos:

  • Executa em SQL para usar o agente e extrair informação de todos os teus dados. Isto abre uma consulta SQL que utiliza ai_extract para extrair informações do seu volume ou tabela usando o esquema definido. Para mais informações sobre a utilização ai_extract em consultas SQL, veja ai_extract função.
  • Crie um Pipeline Declarativo Spark para implementar um pipeline ETL que corra em intervalos programados para invocar o seu agente em novos dados. Isto cria os Lakeflow Spark Declarative Pipelines que atualizam uma tabela de streaming com os seus dados extraídos. Pode configurar o calendário do pipeline para correr quando chegarem novos dados. Para mais informações sobre Oleodutos Declarativos Lakeflow Spark, consulte Oleodutos Declarativos Lakeflow Spark.

Limitações

  • Os agentes de extração de informações têm um contexto de token com um comprimento máximo de 128k.
  • Não há suporte para espaços de trabalho com Segurança Reforçada e Conformidade habilitadas.
  • Não há suporte para tipos de esquema de união.