Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A pesquisa multimodal refere-se à capacidade de ingerir, compreender e recuperar informação em vários tipos de conteúdo, incluindo texto, imagens, vídeo e áudio. No Pesquisa de IA do Azure, a pesquisa multimodal suporta nativamente a ingestão de documentos contendo texto e imagens e a recuperação do seu conteúdo, permitindo-lhe realizar pesquisas que combinam ambas as modalidades.
Construir um pipeline multimodal robusto normalmente envolve:
Extração de imagens em linha e texto de página de documentos.
Descrever imagens em linguagem natural.
Incorporar texto e imagens num espaço vetorial partilhado.
Guardar as imagens para uso posterior como anotações.
A pesquisa multimodal também requer preservar a ordem da informação tal como aparece nos documentos e executar consultas híbridas que combinem pesquisa em texto completo com pesquisa vetorial e classificação semântica.
Na prática, uma aplicação que utiliza pesquisa multimodal pode responder a perguntas como "Qual é o processo para aprovar um formulário de RH?" mesmo quando a única descrição autoritativa do processo está dentro de um diagrama incorporado num ficheiro PDF.
Porque usar a pesquisa multimodal?
Tradicionalmente, a pesquisa multimodal requer sistemas separados para processamento de texto e imagem, frequentemente exigindo código personalizado e configurações de baixo nível por parte dos programadores. Manter estes sistemas implica custos, complexidade e esforço mais elevados.
O Pesquisa de IA do Azure resolve estes desafios integrando imagens no mesmo pipeline de recuperação que o texto. Com um único pipeline multimodal, pode simplificar a configuração e desbloquear informações que residem em gráficos, capturas de ecrã, infográficos, formulários digitalizados e outros elementos visuais complexos.
A pesquisa multimodal é ideal para cenários de geração aumentada por recuperação (RAG). Ao interpretar a lógica estrutural das imagens, a pesquisa multimodal torna a sua aplicação RAG ou agente de IA menos propensa a ignorar detalhes visuais importantes. Também fornece aos seus utilizadores respostas detalhadas que podem ser rastreadas até às suas fontes originais, independentemente da modalidade da fonte.
Como funciona a pesquisa multimodal?
Para simplificar a criação de um pipeline multimodal, Pesquisa de IA do Azure oferece o assistente Importar dados no portal Azure. O assistente ajuda-o a configurar uma fonte de dados, definir definições de extração e enriquecimento, e gerar um índice multimodal que contém texto, referências de imagem embutidas e embeddings vetoriais. Para mais informações, consulte Quickstart: Pesquisa multimodal no portal Azure.
O assistente segue estes passos para criar um pipeline multimodal:
Extrair conteúdo: Escolha entre a competência Extração de Documentos ou a competência Layout de Documentos para obter texto da página, imagens em linha e metadados estruturais. Cada competência oferece capacidades diferentes para extração de metadados, gestão de tabelas e suporte a formatos de ficheiro. Para comparações detalhadas, veja Opções para extração de conteúdo multimodal.
Texto do bloco: A habilidade Text Split divide o texto extraído em blocos geríveis para uso no pipeline restante, como a habilidade de embedding.
Gerar descrições de imagens: A competência GenAI Prompt verbaliza imagens, produzindo descrições concisas em linguagem natural para pesquisa de texto e incorporação usando um grande modelo de linguagem (LLM).
Gerar embeddings: A competência de embedding cria representações vetoriais de texto e imagens, permitindo similaridade e recuperação híbrida. Pode chamar Azure OpenAI, Microsoft Foundry ou Azure Vision a incorporar modelos nativos.
Alternativamente, pode saltar a verbalização de imagens e transferir o texto e as imagens extraídos diretamente para um modelo de incorporação multimodal por meio da competência AML ou da competência de incorporações multimodais do Azure Vision. Para mais informações, consulte Opções para incorporação de conteúdo multimodal.
Armazenar imagens extraídas: O armazenamento de conhecimento contém imagens extraídas que podem ser devolvidas diretamente às aplicações clientes. Quando usa o assistente, a localização de uma imagem é armazenada diretamente no índice multimodal, permitindo uma recuperação conveniente no momento da consulta.
Dica
Para ver a pesquisa multimodal em ação, introduza o seu índice criado pelo assistente na aplicação de exemplo multimodal RAG. O exemplo demonstra como uma aplicação RAG consome um índice multimodal e apresenta tanto citações textuais como excertos de imagem associados na resposta. O exemplo também apresenta o processo baseado em código de ingestão e indexação de dados.
Opções para extração de conteúdo multimodal
Um pipeline multimodal começa por fragmentar cada documento de origem em blocos de texto, imagens em linha e metadados associados. Para esta etapa, o Pesquisa de IA do Azure fornece três competências integradas:
- Perícia de extração de documentos
- Perícia de Layout de Documentos
- Funcionalidade de Compreensão de Conteúdo do Azure
| Característica | Capacidade de Extração de Documentos | Competência em Formatação de Documentos | Azure Capacidade de Compreensão de Conteúdo |
|---|---|---|---|
| Extração de metadados de localização do texto (páginas e polígonos delimitadores) | Não | Sim | Sim |
| Extração de metadados de localização de imagem (páginas e polígonos delimitadores) | Sim | Sim | Sim |
| Extração e preservação de tabelas | Não | Não | Sim (incluindo tabelas de páginas cruzadas) |
| Unidades semânticas entre páginas | Não aplicável | Apenas uma página | Sim (atravessa os limites das páginas) |
| Extração de metadados de localização com base no tipo de ficheiro | Apenas PDFs. | Múltiplos tipos de ficheiros suportados de acordo com o modelo de layout Azure Document Intelligence in Foundry Tools. | Vários tipos de ficheiros suportados, incluindo PDF, DOCX, XLSX e PPTX. |
| Faturação para extração de dados | A extração de imagem é faturada de acordo com os preços do Pesquisa de IA do Azure. | Faturado de acordo com os preços do Layout de Documentos. | Faturado de acordo com os preços do Azure Content Understanding. |
| Segmentação incorporada | Não (usa a habilidade Text Split) | Sim (com base nos limites dos parágrafos) | Sim (fragmentação semântica) |
| Cenários recomendados | Prototipagem rápida ou linhas de produção onde não é necessária a posição exata ou informação detalhada do layout. | Pipelines RAG e fluxos de trabalho de agentes que necessitam de numeração de páginas precisa, destaques na página ou sobreposições de diagramas nas aplicações cliente. | Análise avançada de documentos requer extração de tabelas cruzadas em páginas, fragmentação semântica ou tratamento consistente entre formatos de documentos (PDF, DOCX, XLSX, PPTX). |
Opções para incorporação de conteúdos multimodais
No sistema Pesquisa de IA do Azure, a extração de conhecimento a partir de imagens pode seguir dois caminhos complementares: verbalização de imagens ou inserções diretas. Compreender as distinções ajuda-o a alinhar custo, latência e qualidade de resposta às necessidades da sua aplicação.
Verbalização de imagens seguida por incorporações de texto
Com este método, a habilidade GenAI Prompt invoca um LLM durante a ingestão para criar uma descrição concisa em linguagem natural de cada imagem extraída, como "Fluxo de trabalho de acesso a RH em cinco passos que começa com aprovação do gestor." A descrição é armazenada como texto e incorporada junto ao texto do documento circundante, o qual pode depois ser vetorizado chamando os modelos de incorporação do Azure OpenAI, Microsoft Foundry ou Azure Vision.
Como a imagem agora é expressa numa linguagem, o Pesquisa de IA do Azure pode:
Interprete as relações e entidades apresentadas num diagrama.
Forneça legendas prontas que um LLM possa citar literalmente numa resposta.
Devolva excertos relevantes para aplicações RAG ou cenários de agentes de IA com dados fundamentados.
A profundidade semântica adicional implica uma chamada LLM para cada imagem e um aumento marginal no tempo de indexação.
Embeddings multimodais diretos
Uma segunda opção é passar as imagens e o texto extraídos do documento para um modelo multimodal de embedding que produz representações vetoriais no mesmo espaço vetorial. A configuração é simples e não é necessário nenhum LLM no momento da indexação. Os embeddings diretos são bem adequados para similaridade visual e cenários de "encontre-me algo que seja parecido com isto".
Como a representação é puramente matemática, não transmite porque é que duas imagens estão relacionadas, nem oferece ao LLM um contexto pronto para citações ou explicações detalhadas.
Combinar ambas as abordagens
Muitas soluções necessitam de ambos os caminhos de codificação. Diagramas, fluxogramas e outros elementos visuais ricos em explicações são verbalizados para disponibilizar informação semântica essencial para o ancoramento de agentes RAG e de IA. Capturas de ecrã, fotografias de produtos ou obras de arte são incorporadas diretamente para uma pesquisa eficiente de similaridade. Pode personalizar o seu índice Pesquisa de IA do Azure e o pipeline de competências do indexador para que possam armazenar os dois conjuntos de vetores e recuperá-los lado a lado.
Opções para consultar conteúdos multimodais
Se o seu pipeline multimodal for alimentado pela competência GenAI Prompt, pode executar consultas híbridas tanto em texto simples como em imagens verbalizadas no seu índice de pesquisa. Também pode usar filtros para restringir os resultados de pesquisa a tipos de conteúdo específicos, como apenas texto ou apenas imagens.
Embora a competência GenAI Prompt suporte consultas texto-para-vetor através de pesquisa híbrida, não suporta consultas imagem-para-vetor. Apenas os modelos de incorporação multimodais fornecem os vetorizadores que convertem imagens em vetores no momento da consulta.
Para usar imagens como entradas de consulta para o seu índice multimodal, deve usar a habilidade AML ou Azure Vision multimodal embeddings skill com um vetorizador equivalente. Para mais informações, veja Configurar um vetorizador num índice de pesquisa.
Tutoriais e exemplos
Para o ajudar a começar com a pesquisa multimodal no Pesquisa de IA do Azure, aqui está uma coleção de conteúdos que demonstra como criar e otimizar índices multimodais usando funcionalidades do Azure.
| Conteúdo | Descrição |
|---|---|
| Quickstart: Pesquisa multimodal no portal Azure | Crie e teste um índice multimodal no portal do Azure usando o assistente e o Explorador de Pesquisa. |
| Tutorial multimodal | Extrair texto e imagens, analisar os dados em blocos e vetorizar os blocos para pesquisa por similaridade e outros padrões de recuperação. |
| Aplicação de exemplo: Repositório GitHub RAG multimodal | Uma aplicação RAG de ponta a ponta, pronta para código, com capacidades multimodais que destaca tanto excertos de texto como anotações de imagens. Ideal para impulsionar copilotos empresariais. |