Compartilhar via


Processamento inteligente de documentos

O IDP (Processamento Inteligente de Documentos) converte conteúdo não estruturado, como PDFs, arquivos DOCX, imagens e apresentações, em dados estruturados e enriquecidos que alimentam agentes downstream, aplicativos e análises.

Com o Azure Databricks, você pode criar pipelines IDP de ponta a ponta diretamente no Lakehouse usando funções de IA composáveis nativamente, incluindo ai_parse_document, ai_extract e ai_classify. Essas funções desenvolvidas pela pesquisa são criadas para processamento de documentos de alto desempenho. Como todo o processamento é executado no Catálogo do Unity, os pipelines IDP de nível de produção permanecem seguros, controlados e totalmente gerenciados.

Caso de uso Abordagem recomendada
Análise de documentos Converta PDFs, DOCX, imagens e PPTs em descrições estruturadas de texto, tabelas e figura.
Extração de informações Extrair campos estruturados de documentos ou de texto sem formatação usando um esquema que você define.
Classificar conteúdo Atribua categorias predefinidas a documentos ou texto, dando suporte a mais de 500 rótulos.

Casos de uso comuns

O IDP no Azure Databricks alimenta uma ampla gama de aplicativos downstream:

  • RAG (geração aumentada de recuperação): analisar e estruturar documentos para melhorar a segmentação, a qualidade de recuperação e a contextualização para aplicativos LLM.
  • Extração e análise de conhecimento: extraia os principais campos e metadados para habilitar a pesquisa, os relatórios e o business intelligence nos dados do documento.
  • Fluxos de trabalho controlados por agente: rotear, classificar e enriquecer documentos para dar suporte à tomada de decisão automatizada e à execução de tarefas.
  • Compreensão e classificação de documentos: organize grandes corpora de documentos por tipo, tópico ou conteúdo para processamento subsequente.

Como funciona

O Azure Databricks permite o processamento inteligente de documentos como um fluxo de trabalho unificado de ponta a ponta no Lakehouse. A ingestão, a análise, o enriquecimento e a análise downstream são criadas em uma única plataforma, portanto, cada estágio funciona perfeitamente em conjunto sem a necessidade de integração complexa ou movimentação de dados.

  1. Ingestão e orquestração

    Use o Lakeflow Spark Declarative Pipelines para ingerir documentos brutos (como PDFs, imagens e arquivos DOCX) e orquestrar seus pipelines. Como a ingestão e a orquestração são integradas nativamente ao Lakehouse, os documentos fluem diretamente para o processamento downstream sem infraestrutura adicional.

  2. Analisar documentos (camada Bronze)

    Aplique-se ai_parse_document para converter arquivos brutos em representações estruturadas. Isso cria uma camada de bronze padronizada que captura texto, tabelas/descrições de imagem e estrutura de documentos, formando uma base consistente para todos os casos de uso downstream.

  3. Extrair e classificar

    Use ai_extract e ai_classify para enriquecer documentos analisados com campos estruturados e metadados. Essas funções operam diretamente nas saídas analisadas, permitindo extrair informações importantes, classificar documentos e roteá-los por meio de fluxos de trabalho sem etapas de transformação adicionais.

  4. Analisar e operacionalizar

    Aproveite funções de IA adicionais ou outras ferramentas (painéis de IA/BI, Aplicativos, Pesquisa de Vetores) para análises a jusante, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados estruturados do documento podem ser imediatamente usados para pesquisa, dashboards e aplicativos.