Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Esta funcionalidade está em Pré-visualização Pública e está em conformidade com a HIPAA.
Esta página cobre a nova versão do Information Extraction. Para informações sobre a versão anterior, veja Extração de Informação de Uso (legado)
A Extração de Informação transforma documentos e textos não estruturados em insights essenciais e estruturados, utilizando um esquema definido. Isto permite que informação incorporada em texto não estruturado, PDFs, imagens ou tabelas seja usada diretamente para análise, relatórios ou agentes e aplicações a jusante.
Exemplos de extração de informações incluem:
- Extrair termos e partes legais dos contratos.
- Extração de linhas de itens e condições de pagamento das faturas.
- Retirar detalhes importantes de registos médicos e notas.
A Extração de Informação é construída sobre a função de IA, ai_extract. O Information Extraction tem uma interface visual para personalizar e otimizar a função com um esquema definido para extração.
A Extração de Informação utiliza armazenamento padrão para armazenar transformações temporárias de dados, pontos de verificação do modelo e metadados internos que suportam cada agente. Na exclusão do agente, todos os dados associados ao agente são removidos do armazenamento padrão.
Requisitos
- Um espaço de trabalho que inclui o seguinte:
- Pré-visualização pública do AI Extract ativada. Consulte Gerenciar visualizações do Azure Databricks.
- Computação sem servidor habilitada. Consulte Requisitos de computação sem servidor.
- Catálogo Unity ativado. Consulte Habilitar um espaço de trabalho para o Unity Catalog.
- Acesso a uma política de orçamento sem servidor com um orçamento diferente de zero.
- Esta função está disponível apenas em algumas regiões, veja disponibilidade de funções de IA.
- Capacidade de usar a
ai_extractfunção SQL. - Dados não estruturados dos quais queres extrair informação. Os dados devem estar num volume ou tabela do Catálogo Unity.
- Para construir o teu agente, precisas de pelo menos 1 ficheiro no volume do Unity Catalog ou 1 linha na tua tabela.
Criar um agente de extração de informações
Vá para o Agentes no painel de navegação esquerdo do seu espaço de trabalho. Clique Criar Agente>Extração de Informação.
Passo 1. Selecione os dados para extrair informação de
Selecione os ficheiros ou dados de onde quer extrair informação. Pode carregar ficheiros, selecionar um volume do Catálogo Unity com tipos de ficheiros suportados, ou uma tabela que contenha dados de texto.
Clique em Criar agente.
Passo 2. Configura e refina o teu esquema de extração
Depois de a Information Extraction processar os seus dados, configure e refine os dados que pretende extrair dos seus documentos.
Em Configuração, defina o seu esquema de extração. Há várias maneiras de fazer isso:
- Introduza uma linguagem natural que descreva a informação que quer extrair e clique em Gerar Esquema. A Extração de Informação gera automaticamente, de forma inteligente, um esquema JSON com nomes de campos e definições para si. Edite estas descrições conforme necessário.
- Alternativamente, clique em Ou, Definir manualmente para definir manualmente o seu esquema:
- Clica em Adicionar campo.
- Introduza o nome do seu campo, tipo e descrição.
- Clique em Confirmar.
- Repete para cada campo que queres extrair.
- Clique em Guardar e Executar extração.
- Também pode clicar em JSON para editar diretamente o esquema JSON. Clique em Aplicar Alterações quando estiver concluído.
Cada vez que atualiza o seu esquema e carrega em Guardar e executar extração, a Extração de Informação atualiza o agente de extração, executa a extração e mostra os resultados de cada entrada.
À esquerda, revise o documento analisado e a extração realizada pelo agente. Iterar os resultados da extração de duas formas. Primeiro, fornecendo feedback em linguagem natural sobre uma ou múltiplas entradas. Isto vai ajustar automaticamente as tuas descrições assim que clicares em Guardar e executar extração. Em segundo lugar, revisando manualmente as descrições dos esquemas. Isto terá efeito assim que clicares no Guardar e executares extração.
Use versões para comparar ou voltar a uma configuração anterior. Clique em Versões, depois clique em Comparar para comparar a definição do esquema de uma versão anterior com a atual. Clique em Restaurar para restaurar uma versão anterior.
Passo 3. Use o seu agente de extração
Quando estiver satisfeito com o desempenho do agente, use o agente para extrair informação.
Clique em Usar Agente no canto superior direito. Pode escolher entre ambos:
-
Executa em SQL para usar o agente e extrair informação de todos os teus dados. Isto abre uma consulta SQL que utiliza
ai_extractpara extrair informações do seu volume ou tabela usando o esquema definido. Para mais informações sobre a utilizaçãoai_extractem consultas SQL, vejaai_extractfunção. - Crie um Pipeline Declarativo Spark para implementar um pipeline ETL que corra em intervalos programados para invocar o seu agente em novos dados. Isto cria os Lakeflow Spark Declarative Pipelines que atualizam uma tabela de streaming com os seus dados extraídos. Pode configurar o calendário do pipeline para correr quando chegarem novos dados. Para mais informações sobre Oleodutos Declarativos Lakeflow Spark, consulte Oleodutos Declarativos Lakeflow Spark.
Limitações
- Os agentes de extração de informações têm um contexto de token com um comprimento máximo de 128k.
- Não há suporte para espaços de trabalho com Segurança Reforçada e Conformidade habilitadas.
- Não há suporte para tipos de esquema de união.