Búsqueda multimodal en Búsqueda de Azure AI

La búsqueda multimodal hace referencia a la capacidad de procesar, comprender y recuperar información en varios tipos de contenido, como texto, imágenes, vídeo y audio. En Búsqueda de Azure AI, la búsqueda bidireccional admite de forma nativa la ingesta de documentos que contienen texto e imágenes y la recuperación de su contenido, lo que permite realizar búsquedas que combinan ambas modalidades.

La creación de una canalización multimodal sólida normalmente implica:

  1. Extracción de imágenes en línea y texto de las páginas de documentos.

  2. Describir imágenes en lenguaje natural.

  3. Insertar texto e imágenes en un espacio vectorial compartido.

  4. Almacenar las imágenes para usarlas más adelante como anotaciones.

La búsqueda bidireccional también requiere conservar el orden de la información tal como aparece en los documentos y ejecutar consultas híbridas que combinan la búsqueda de texto completo con la búsqueda de vectores y la clasificación semántica.

En la práctica, una aplicación que usa la búsqueda multimodal puede responder a preguntas como "¿Cuál es el proceso para que se apruebe un formulario de RR. HH?", incluso cuando la única descripción autoritativa del proceso reside dentro de un diagrama incrustado en un archivo PDF.

Tradicionalmente, la búsqueda bidireccional requiere sistemas independientes para el procesamiento de texto e imagen, a menudo requiere código personalizado y configuraciones de bajo nivel de los desarrolladores. El mantenimiento de estos sistemas conlleva mayores costos, complejidad y esfuerzo.

Búsqueda de Azure AI aborda estos desafíos mediante la integración de imágenes en la misma canalización de recuperación que el texto. Con una sola pipeline multimodal, puede simplificar la configuración y desbloquear información que reside en gráficos, capturas de pantalla, infografías, formularios escaneados y otros objetos visuales complejos.

La búsqueda bidireccional es ideal para escenarios de generación aumentada por recuperación (RAG). Al interpretar la lógica estructural de las imágenes, la búsqueda multimodal hace que la aplicación RAG o el agente de IA tenga menos probabilidades de pasar por alto detalles visuales importantes. También proporciona a los usuarios respuestas detalladas que se pueden rastrear de nuevo a sus orígenes originales, independientemente de la modalidad del origen.

¿Cómo funciona la búsqueda multimodal?

Para simplificar la creación de una canalización multimodal, Búsqueda de Azure AI ofrece el asistente Import data en el portal de Azure. El asistente le ayuda a configurar un origen de datos, definir las opciones de extracción y enriquecimiento, y generar un índice que contenga texto, referencias de imágenes incrustadas y representaciones vectoriales. Para obtener más información, vea Quickstart: Búsqueda multimodal en el portal de Azure.

El asistente sigue estos pasos para crear una canalización multimodal:

  1. Extraer contenido: Elija entre la aptitud Extracción de documentos o la aptitud Diseño de documento para obtener texto de página, imágenes insertadas y metadatos estructurales. Cada aptitud ofrece diferentes funcionalidades para la extracción de metadatos, el control de tablas y la compatibilidad con el formato de archivo. Para obtener comparaciones detalladas, consulte Opciones para la extracción de contenido multimodal.

  2. Texto de fragmento: La habilidad de división de texto divide el texto extraído en fragmentos administrables para su uso en el pipeline restante, como la habilidad de incrustación.

  3. Generar descripciones de imágenes: La habilidad GenAI de sugerencia verbaliza imágenes, generando descripciones concisas en lenguaje natural para la búsqueda de texto e incorporación mediante un modelo de lenguaje grande (LLM).

  4. Generar incrustaciones: La aptitud de inserción crea representaciones vectoriales de texto e imágenes, lo que permite la similitud y la recuperación híbrida. Puede llamar a Azure OpenAI, Microsoft Foundry o Azure Vision insertar modelos de forma nativa.

    Como alternativa, puede omitir la verbalización de imágenes y pasar el texto extraído e imágenes directamente a un modelo de incrustaciones multimodales a través de la habilidad AML o la habilidad de incrustaciones multimodales de Azure Vision. Para obtener más información, vea Opciones para la inserción de contenidos multimodales.

  5. Almacenar imágenes extraídas: El almacén de conocimiento contiene imágenes extraídas que se pueden devolver directamente a las aplicaciones cliente. Cuando se usa el asistente, la ubicación de una imagen se almacena directamente en el índice multimodal, lo que permite una recuperación cómoda en el momento de la consulta.

Propina

Para ver la búsqueda multimodal en acción, conecte el índice creado por el asistente a la aplicación de ejemplo RAG multimodal. En el ejemplo se muestra cómo una aplicación RAG consume un índice bidireccional y representa las citas textuales y los fragmentos de imagen asociados en la respuesta. En el ejemplo también se muestra el proceso basado en código de la ingesta y la indexación de datos.

Opciones para la extracción de contenido multimodal

Una canalización multimodal comienza dividiendo cada documento de origen en fragmentos de texto, imágenes en línea y metadatos asociados. Para este paso, Búsqueda de Azure AI proporciona tres aptitudes integradas:

Característica Habilidad de extracción de documentos Aptitud en diseño de documentos habilidad de Azure para comprensión de contenido
Extracción de metadatos de ubicación de texto (páginas y polígonos delimitadores) No
Extracción de metadatos de ubicación de imagen (páginas y polígonos de delimitación)
Extracción y conservación de tablas No No Sí (incluidas las tablas entre páginas)
Unidades semánticas entre páginas No aplicable Solo página única Sí (abarca límites de página)
Extracción de metadatos de ubicación basada en el tipo de archivo Solo archivos PDF. Varios tipos de archivo admitidos según el Azure Document Intelligence in Foundry Tools layout model. Varios tipos de archivo compatibles, incluidos PDF, DOCX, XLSX y PPTX.
Facturación para la extracción de datos La extracción de imágenes se factura según las tarifas de Búsqueda de Azure AI. Facturado según las tarifas de maquetación de documentos. Facturado según los precios de Azure Content Understanding.
Fragmentación integrada No (use la habilidad 'Text Split') Sí (en función de los límites de párrafo) Sí (fragmentación semántica)
Escenarios recomendados Creación rápida de prototipos o canalizaciones de producción en las que no se requiere la información de diseño exacta o de posición detallada. Canalizaciones de RAG y flujos de trabajo de agentes que necesitan números de página precisos, resaltados dentro de las páginas o superposiciones de diagramas en las aplicaciones del cliente. Análisis avanzado de documentos que requieren extracción de tablas entre páginas, fragmentación semántica o control coherente en formatos de documento (PDF, DOCX, XLSX, PPTX).

Opciones para la inserción de contenido multimodal

En Búsqueda de Azure AI, recuperar el conocimiento de las imágenes puede seguir dos rutas complementarias: verbalización de imágenes o incrustaciones directas. Comprender las distinciones le ayuda a alinear el costo, la latencia y la calidad de respuesta con las necesidades de la aplicación.

Verbalización de imágenes seguida de incrustaciones de texto

Con este método, la habilidad Prompt de GenAI invoca un LLM durante la ingestión para crear una descripción concisa en lenguaje natural de cada imagen extraída, como "Flujo de trabajo de acceso a RRHH de cinco pasos que comienza con la aprobación del gerente". La descripción se almacena como texto e incrustada junto con el texto del documento circundante, que luego puedes vectorizar llamando a los modelos de incrustación de Azure OpenAI, Microsoft Foundry o Azure Vision.

Dado que la imagen se expresa ahora en lenguaje, Búsqueda de Azure AI puede:

  • Interpretar las relaciones y entidades que se muestran en un diagrama.

  • Proporcione subtítulos listos para usar que un LLM pueda citar textualmente en una respuesta.

  • Devuelve fragmentos relevantes para aplicaciones RAG o escenarios de agente de IA con datos fundamentados.

La profundidad semántica agregada implica una llamada LLM para cada imagen y un aumento marginal del tiempo de indexación.

Incrustaciones multimodales directas

Una segunda opción consiste en pasar las imágenes extraídas del documento y el texto a un modelo de inserción bidireccional que genera representaciones vectoriales en el mismo espacio vectorial. La configuración es sencilla y no se requiere LLM en el momento de la indexación. ** Las incrustaciones directas son adecuadas para la similitud visual y los escenarios de "encuéntrame algo que se parezca a esto".

Dado que la representación es puramente matemática, no transmite por qué se relacionan dos imágenes ni ofrece un contexto preparado para las citas o explicaciones detalladas adecuadas para un LLM.

Combinación de ambos enfoques

Muchas soluciones necesitan ambas rutas de codificación. Los diagramas, los gráficos de flujo y otros objetos visuales enriquecidos con explicaciones se verbalizan para que la información semántica esté disponible para RAG y el agente de IA. Las capturas de pantalla, las fotos del producto o las ilustraciones se incrustan directamente para una búsqueda eficaz de similitud. Puede personalizar su índice y la canalización del conjunto de habilidades del indexador de Búsqueda de Azure AI para almacenar los dos conjuntos de vectores y recuperarlos de manera simultánea.

Opciones para consultar contenido multimodal

Si la canalización multimodal se basa en la habilidad de solicitudes de GenAI, puede ejecutar consultas híbridas sobre texto sin formato e imágenes verbalizadas en su índice de búsqueda. También puede usar filtros para restringir los resultados de búsqueda a tipos de contenido específicos, como solo texto o solo imágenes.

Aunque la habilidad Preguntar de GenAI admite las consultas de texto a vector a través de la búsqueda híbrida, no admite consultas de imagen a vector. Solo los modelos de inserción multimodal proporcionan los vectorizadores que convierten imágenes en vectores durante el tiempo de consulta.

Para usar imágenes como entradas de consulta para su índice multimodal, debe usar la aptitud AML o la habilidad de inserciones multimodales de Azure Vision con un vectorizador equivalente. Para obtener más información, vea Configurar un vectorizador en un índice de búsqueda.

Tutoriales y ejemplos

Para ayudarle a empezar a trabajar con la búsqueda multifuncional en Búsqueda de Azure AI, esta es una colección de contenido que muestra cómo crear y optimizar índices multifuncionales mediante Azure funcionalidad.

Contenido Descripción
Quickstart: Búsqueda multimodal en el portal de Azure Cree y pruebe un índice contextual en el portal de Azure mediante el asistente y el Explorador de búsqueda.
Tutorial multimodal Extraiga texto e imágenes, fragmentos de datos y vectorice los fragmentos para la búsqueda de similitud y otros patrones de recuperación.
Aplicación de ejemplo: Repositorio de GitHub de RAG multimodal Una aplicación RAG lista para código de un extremo a otro con funcionalidades bidireccionales que expone tanto fragmentos de texto como anotaciones de imagen. Ideal para poner en marcha copilotos empresariales.