Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O IDP (Processamento Inteligente de Documentos) converte conteúdo não estruturado, como PDFs, arquivos DOCX, imagens e apresentações, em dados estruturados e enriquecidos que alimentam agentes downstream, aplicativos e análises.
Com o Azure Databricks, você pode criar pipelines IDP de ponta a ponta diretamente no Lakehouse usando funções de IA composáveis nativamente, incluindo ai_parse_document, ai_extract e ai_classify. Essas funções desenvolvidas pela pesquisa são criadas para processamento de documentos de alto desempenho. Como todo o processamento é executado no Catálogo do Unity, os pipelines IDP de nível de produção permanecem seguros, controlados e totalmente gerenciados.
| Caso de uso | Abordagem recomendada |
|---|---|
| Análise de documentos | Converta PDFs, DOCX, imagens e PPTs em descrições estruturadas de texto, tabelas e figura. |
| Extração de informações | Extrair campos estruturados de documentos ou de texto sem formatação usando um esquema que você define. |
| Classificar conteúdo | Atribua categorias predefinidas a documentos ou texto, dando suporte a mais de 500 rótulos. |
Casos de uso comuns
O IDP no Azure Databricks alimenta uma ampla gama de aplicativos downstream:
- RAG (geração aumentada de recuperação): analisar e estruturar documentos para melhorar a segmentação, a qualidade de recuperação e a contextualização para aplicativos LLM.
- Extração e análise de conhecimento: extraia os principais campos e metadados para habilitar a pesquisa, os relatórios e o business intelligence nos dados do documento.
- Fluxos de trabalho controlados por agente: rotear, classificar e enriquecer documentos para dar suporte à tomada de decisão automatizada e à execução de tarefas.
- Compreensão e classificação de documentos: organize grandes corpora de documentos por tipo, tópico ou conteúdo para processamento subsequente.
Como funciona
O Azure Databricks permite o processamento inteligente de documentos como um fluxo de trabalho unificado de ponta a ponta no Lakehouse. A ingestão, a análise, o enriquecimento e a análise downstream são criadas em uma única plataforma, portanto, cada estágio funciona perfeitamente em conjunto sem a necessidade de integração complexa ou movimentação de dados.
Ingestão e orquestração
Use o Lakeflow Spark Declarative Pipelines para ingerir documentos brutos (como PDFs, imagens e arquivos DOCX) e orquestrar seus pipelines. Como a ingestão e a orquestração são integradas nativamente ao Lakehouse, os documentos fluem diretamente para o processamento downstream sem infraestrutura adicional.
Analisar documentos (camada Bronze)
Aplique-se
ai_parse_documentpara converter arquivos brutos em representações estruturadas. Isso cria uma camada de bronze padronizada que captura texto, tabelas/descrições de imagem e estrutura de documentos, formando uma base consistente para todos os casos de uso downstream.Extrair e classificar
Use
ai_extracteai_classifypara enriquecer documentos analisados com campos estruturados e metadados. Essas funções operam diretamente nas saídas analisadas, permitindo extrair informações importantes, classificar documentos e roteá-los por meio de fluxos de trabalho sem etapas de transformação adicionais.Analisar e operacionalizar
Aproveite funções de IA adicionais ou outras ferramentas (painéis de IA/BI, Aplicativos, Pesquisa de Vetores) para análises a jusante, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados estruturados do documento podem ser imediatamente usados para pesquisa, dashboards e aplicativos.