Partilhar via


Utilizar Extração de Informação (legado)

Important

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Ver Gerir pré-visualizações Azure Databricks.

Observação

Esta página cobre a versão antiga da Extração de Informação. O Databricks recomenda usar a versão mais recente. Ver Extração de Informação.

Esta página descreve como criar um agente de IA generativa para extração de informação utilizando Extração de Informação.

O que é a Extração de Informação?

A Extração de Informação suporta a extração de informação e simplifica o processo de transformar um grande volume de documentos de texto não rotulados numa tabela estruturada com a informação extraída para cada documento.

Exemplos de extração de informações incluem:

  • Extração de preços e informações de locação de contratos.
  • Organização de dados a partir de notas de clientes.
  • Obter detalhes importantes de artigos de notícias.

A Extração de Informação aproveita capacidades automatizadas de avaliação, incluindo MLflow e Avaliação de Agentes, para permitir uma avaliação rápida do equilíbrio custo-qualidade para a sua tarefa específica de extração. Essa avaliação permite que você tome decisões informadas sobre o equilíbrio entre precisão e investimento de recursos.

A Extração de Informação utiliza armazenamento padrão para armazenar transformações temporárias de dados, pontos de verificação do modelo e metadados internos que suportam cada agente. Na exclusão do agente, todos os dados associados ao agente são removidos do armazenamento padrão.

Requirements

Criar um agente de extração de informações

Vá para o ícone Agentes.Agentes no painel de navegação esquerdo do seu espaço de trabalho. No bloco Extração de Informações , clique em Compilar.

Etapa 1: Configurar o agente

Configure seu agente:

  1. No campo Nome , insira um nome para seu agente.

  2. Selecione o tipo de dados que deseja fornecer. Você pode escolher Conjunto de dados sem rótulo ou Conjunto de dados rotulado.

  3. Selecione o conjunto de dados a ser fornecido.

    Conjunto de dados sem rótulo

    Se você selecionar Conjunto de dados sem rótulo:

    1. No campo Local do conjunto de dados , selecione a pasta ou tabela que deseja usar no volume do Catálogo Unity. Se você selecionar uma pasta, a pasta deverá conter documentos em um formato de documento compatível.

      Segue-se um exemplo de volume:

      /Volumes/main/info-extraction/bbc_articles/

    2. Se você estiver fornecendo uma tabela, selecione a coluna que contém os seus dados de texto no menu drop-down. A coluna da tabela deve conter dados em um formato de dados suportado.

      Se você quiser usar PDFs, converta-os em uma tabela do Catálogo Unity primeiro. Ver Usar PDFs na extração de informação.

    3. A extração de informação infere automaticamente e gera uma amostra de saída JSON, contendo dados extraídos do seu conjunto de dados no campo de amostra de saída JSON. Você pode aceitar a saída de exemplo, editá-la ou substituí-la por um exemplo da saída JSON desejada. O agente retorna informações extraídas usando esse formato.

    Conjunto de dados rotulado

    Se você selecionar Conjunto de dados rotulado:

    1. No campo do conjunto de dados de verdades no terreno , selecione a tabela do Catálogo Unity que contém os seus dados de verdade no terreno.
    2. No campo Coluna de entrada , selecione a coluna que contém o texto que você deseja que o agente processe. Os dados nesta coluna devem estar no str formato.
    3. No campo da coluna de resposta de verdade fundamental , selecione a coluna que contém as respostas ideais esperadas. Os dados nesta coluna devem ser uma cadeia de caracteres JSON. Cada linha nesta coluna deve seguir o mesmo formato JSON. Linhas contendo chaves adicionais ou ausentes não são aceitáveis.
    4. No campo Sample JSON output, a funcionalidade de Extração de Informação gera automaticamente um exemplo de saída em formato JSON usando a primeira linha de dados da coluna de resposta de referência. Verifique se essa saída JSON corresponde ao formato esperado.
  4. Verifique se o campo de saída Sample JSON corresponde ao formato de resposta desejado. Editar conforme necessário.

    Por exemplo, a seguinte saída JSON de exemplo pode ser usada para extrair informações de um conjunto de artigos de notícias:

    {
      "title": "Economy Slides to Recession",
      "category": "Politics",
      "paragraphs": [
        {
          "summary": "GDP fell by 0.1% in the last three months of 2004.",
          "word_count": 38
        },
        {
          "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
          "word_count": 42
        }
      ],
      "tags": ["Recession", "Economy", "Consumer Spending"],
      "estimate_time_to_read_min": 1,
      "published_date": "2005-01-15",
      "needs_review": false
    }
    
  5. Em Escolha de Modelo, selecione o melhor modelo para o seu agente de extração de informação:

    • Otimizar para Escala (predefinido): Escolha esta opção se estiver a processar grandes volumes de dados ou preferir um agente económico. Este modelo foi concebido para alto rendimento e tempos de resposta mais rápidos, sendo adequado para a maioria das tarefas de extração de informação.
    • Otimize para Complexidade: Escolha esta opção se precisar de raciocínio complexo e priorize a precisão em vez de velocidade e custo. Este modelo oferece capacidades de raciocínio superiores para documentos mais longos (como submissões financeiras) e pode lidar com extrações mais complexas (como extrair 40+ campos de esquema).
  6. Clique em Criar agente.

Formatos de documentos suportados

A tabela a seguir mostra os tipos de arquivo de documento suportados para seus documentos de origem se você fornecer um volume do Catálogo Unity.

Arquivos de código Ficheiros de documentos Ficheiros de registo
  • .c
  • .cc
  • .cpp
  • .cs
  • .css
  • .cxx
  • .go
  • .h
  • .hpp
  • .htm
  • .html
  • .java
  • .js
  • .json
  • .jsonl
  • .jsx
  • .lua
  • .md
  • .php
  • .pl
  • .py
  • .rb
  • .sh
  • .swift
  • .tex
  • .ts
  • .tsx
  • .md
  • .rst
  • .tex
  • .txt
  • .xml
  • .xsd
  • .xsl
  • .diff
  • .err
  • .log
  • .out
  • .patch

Formatos de dados suportados

A Extração de Informação suporta os seguintes tipos de dados e esquemas para os seus documentos de origem se fornecer uma tabela do Catálogo Unity. A Extração de Informação também pode extrair estes tipos de dados de cada documento.

  • str
  • int
  • float
  • boolean
  • enum (utilizado para tarefas de classificação em que o agente só deve selecionar entre categorias predefinidas)
  • Objeto
  • Matrizes

enum (adequado para tarefas de classificação em que queremos que o agente produza apenas a partir de um conjunto de categorias predefinidas) objeto (no lugar de "campos aninhados personalizados") array

Passo 2: Melhore o seu agente

No separador Build, reveja resultados de amostra para o ajudar a refinar a definição do seu esquema e adicione instruções para otimizar os resultados.

  1. À esquerda, analise exemplos de respostas e dê feedback para ajustar melhor o seu agente. Esses exemplos são baseados na configuração atual do agente.

    1. Clique numa linha para rever a entrada e a resposta completas.
    2. Na parte inferior, ao lado de Está esta resposta correta?, dê feedback selecionando um ícone de polegar para cima. Sim ou ícone de polegar para baixo. Corrija isto. Para feedback sobre o Fix it , forneça detalhes adicionais sobre como o agente deve alterar a sua resposta e depois clique no ícone Verificar. Guardar.
    3. Depois de terminar de rever todas as respostas, clique no ícone Verificar. Sim, agente de atualização. Em alternativa, pode clicar em Guardar comentários e atualizar depois de rever pelo menos três respostas.
  2. À direita, em campos de Saída, refine as descrições dos campos do esquema de extração. Essas descrições são nas quais o agente se baseia para entender o que você deseja extrair. Use as respostas de exemplo à esquerda para ajudá-lo a refinar a definição de esquema.

    1. Para cada campo, revise e edite a definição de esquema conforme necessário. Use as respostas de exemplo à esquerda para ajudá-lo a refinar essas descrições.
    2. Para editar o nome e o tipo do campo, clique no ícone de lápis. Editar campo.
    3. Para adicionar um novo campo, clique no ícone de adição. Adicionar novo campo. Insira o nome, o tipo e a descrição e clique em Confirmar.
    4. Para remover um campo, clique no ícone de lixo. Remover campo.
    5. Clique em Salvar e atualizar para atualizar a configuração do agente.
  3. (Opcional) À direita, em Instruções, insira todas as instruções globais para seu agente. Estas instruções aplicam-se a todos os elementos extraídos. Clique em Salvar e atualizar para aplicar as instruções.

  4. Novas respostas de amostra são geradas no lado esquerdo. Revise essas respostas atualizadas e continue a refinar a configuração do agente até que as respostas sejam satisfatórias.

Passo 3: Use o seu agente

Você pode usar seu agente em fluxos de trabalho no Databricks.

Para começar a usar seu agente, clique em Usar. Você pode optar por usar seu agente de várias maneiras:

  • Extrair dados para todos os documentos: Clique em Iniciar extração para abrir o editor SQL e usar ai_query para enviar solicitações ao seu novo agente de extração de informações.
  • Criar pipeline ETL: Clique em Criar pipeline para implantar um pipeline que opera em intervalos agendados, aplicando o seu agente a novos dados. Consulte Lakeflow Spark Declarative Pipelines para obter mais informações sobre pipelines.
  • Teste seu agente: Clique em Abrir no Playground para experimentar seu agente em um ambiente de teste para ver como ele funciona. Veja Converse com LLMs e crie protótipos de aplicações de IA generativa usando o AI Playground para saber mais sobre o AI Playground.

(Opcional) Passo 4: Avalie o seu agente

Para garantir que você criou um agente de alta qualidade, execute uma avaliação e analise o relatório de qualidade resultante.

  1. Muda para a aba Qualidade.

  2. Clique no ícone Mais. Fazer avaliação.

  3. No painel Nova Avaliação que desliza para fora, configure a avaliação:

    1. Selecione o nome da execução da avaliação. Você pode optar por usar um nome gerado ou fornecer um nome personalizado.
    2. Selecione o conjunto de dados de avaliação. Você pode optar por usar o mesmo conjunto de dados de origem usado para criar seu agente ou fornecer um conjunto de dados de avaliação personalizado usando dados rotulados ou não rotulados.
  4. Clique em Iniciar avaliação.

  5. Depois de concluir a sua avaliação, reveja o relatório de qualidade:

    • A vista Resumo é mostrada como padrão. Revise a qualidade global, o custo, o rendimento e o relatório resumo das métricas de avaliação. Clica no ícone Livro de Informação. Ao lado do campo de esquema para veres como esse campo é avaliado.

      Vista resumida do relatório de avaliação.

    • Mude para a vista Detalhada para mais detalhes. Esta vista mostra cada pedido e a pontuação de avaliação para cada métrica. Clique numa solicitação para ver detalhes adicionais, como a entrada, saída, avaliações, rastros e prompts ligados. Também pode editar as avaliações do pedido e fornecer feedback adicional.

      Vista detalhada do relatório de avaliação.

Consultar o ponto de acesso do agente

Na página do agente, clique no ícone de serviço do modelo. Consulte o estado do Agente no canto superior direito para obter o endpoint do seu agente implementado e ver os detalhes do endpoint.

Existem várias formas de consultar o endpoint do agente criado. Use os exemplos de código fornecidos no AI Playground como ponto de partida:

  1. Na página do agente, clique em Usar.
  2. Clica em Abrir no parque infantil.
  3. No Playground, clique em Obter código.
  4. Escolha como deseja usar o ponto de extremidade:
    • Selecione Aplicar em dados para criar uma consulta SQL que aplique o agente a uma coluna de tabela específica.
    • Selecione Curl API para obter um exemplo de código para consultar o ponto de extremidade usando curl.
    • Selecione Python API para um exemplo de código para interagir com o endpoint usando Python.

Gerenciar permissões

Por defeito, apenas os autores de agentes e os administradores de espaços de trabalho têm permissões sobre o agente. Para permitir que outros usuários editem ou consultem seu agente, você precisa conceder explicitamente a eles permissão.

Para gerenciar permissões em seu agente:

  1. Abra o seu agente na página de Agentes.
  2. Na parte superior, clique no ícone do menu Kebab.
  3. Clique em Gerenciar permissões.
  4. Na janela Configurações de Permissão , selecione o usuário, grupo ou entidade de serviço.
  5. Selecione a permissão para conceder:
    • Pode Gerir: Permite gerir o agente, incluindo definir permissões, editar a configuração do agente e melhorar a sua qualidade.
    • Can Query: Permite consultar o endpoint do agente no AI Playground e através da API. Os utilizadores com apenas esta permissão não podem visualizar ou editar o agente na página de Agentes.
  6. Clique em Adicionar.
  7. Clique em Salvar.

Observação

Para pontos de extremidade de agente criados antes de 16 de setembro de 2025, pode conceder permissões de Pode Consultar ao ponto de extremidade na página Pontos de Extremidade de Serviço.

Utilizar PDFs na extração de informação

Os PDFs ainda não são suportados nativamente em Information Extraction e Custom LLM. No entanto, podes usar o fluxo de trabalho da interface para converter uma pasta de ficheiros PDF em markdown, e depois usar a tabela resultante do Catálogo Unity como entrada ao construir o teu agente. Este fluxo de trabalho utiliza ai_parse_document para a conversão. Siga estes passos:

  1. Clique em Agentes no painel de navegação esquerdo.

  2. Nos casos de uso de Extração de Informações ou LLM Personalizado, clique em Usar PDFs.

  3. No painel lateral que se abre, insira os seguintes campos para criar um novo fluxo de trabalho para converter seus PDFs:

    1. Selecionar pasta com PDFs ou imagens: Selecione a pasta Unity Catalog que contém os PDFs que você deseja usar.
    2. Selecionar tabela de destino: selecione o esquema de destino para a tabela de marcação convertida e, opcionalmente, ajuste o nome da tabela no campo abaixo.
    3. Selecione o SQL warehouse ativo: selecione o SQL warehouse para executar o fluxo de trabalho.

    Configura o fluxo de trabalho para usar PDFs.

  4. Clique em Iniciar importação.

  5. Você será redirecionado para a guia Todos os fluxos de trabalho , que lista todos os seus fluxos de trabalho em PDF. Use esta guia para monitorar o status de seus trabalhos.

    Veja o estado do fluxo de trabalho para usar PDFs.

    Se o fluxo de trabalho falhar, clique no nome do trabalho para abri-lo e exibir mensagens de erro para ajudá-lo a depurar.

  6. Quando o fluxo de trabalho for concluído com êxito, clique no nome do trabalho para abrir a tabela no Gerenciador de Catálogos para explorar e entender as colunas.

  7. Use a tabela do Unity Catalog como dados de entrada ao configurar o seu agente.

Limitations

  • Os agentes de extração de informações têm um contexto de token com um comprimento máximo de 128k.
  • Não há suporte para espaços de trabalho com Segurança Reforçada e Conformidade habilitadas.
  • Não há suporte para tipos de esquema de união.