Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Ideas de Solución
En este artículo se describe una idea de solución. El arquitecto de la nube puede usar esta guía para ayudar a visualizar los componentes principales de una implementación típica de esta arquitectura. Use este artículo como punto de partida para diseñar una solución bien diseñada que se adapte a los requisitos específicos de la carga de trabajo.
Mediante el uso de servicios de Azure como Azure AI Content Understanding y Azure Functions, puede agregar la clasificación de imágenes y la extracción de metadatos a una aplicación web o móvil sin administrar servidores ni entrenar sus propios modelos. Esta idea de solución tiene como destino la clasificación y el etiquetado de imágenes. Si tiene otras necesidades de inteligencia artificial, consulte los catálogos Foundry Tools y Microsoft Foundry.
Arquitectura
Descargue un archivo de Visio de esta idea de solución.
Flujo de datos
Este escenario trata los componentes de back-end de una aplicación web o móvil. Los datos fluyen por el escenario de la siguiente manera:
- Nuevos archivos (cargas de imágenes) agregados a Blob Storage desencadenan un evento en Azure Event Grid. La carga se organiza mediante una aplicación web o móvil, o las imágenes se cargan directamente en Blob Storage.
- Event Grid envía una notificación que desencadena una función Azure.
- La función llama a Content Understanding para analizar la imagen recién cargada en un esquema de analizador definido. Content Understanding accede a la imagen a través de una dirección URL de SAS limitada por tiempo o un token de acceso temporal equivalente, que la función pasa en la solicitud y se limita al acceso de lectura de privilegio mínimo únicamente para el blob de destino.
- La función conserva la salida estructurada que devuelve Content Understanding, junto con los metadatos de imagen, en Azure Cosmos DB para NoSQL.
- El front-end web o móvil consume los resultados. Este flujo de datos devuelve la salida de clasificación y los metadatos; no devuelve los bytes de imagen originales.
Componentes
Content Understanding es una funcionalidad Microsoft Foundry que usa ia generativa para extraer la salida estructurada definida por el usuario de documentos, imágenes, vídeo y audio. En esta arquitectura, analiza cada imagen cargada en un esquema de analizador que define las categorías, atributos y etiquetas que desea que se devuelvan (por ejemplo, tipo de producto, color, clase de defecto). La salida es un JSON que se asigna directamente al modelo de datos de tu aplicación.
Azure Functions es una plataforma de proceso sin servidor. En esta arquitectura, Azure Functions proporciona la API de back-end y la capa de procesamiento de eventos para imágenes cargadas. La función organiza el flujo de trabajo. Llama a Content Understanding, procesa la respuesta y escribe el resultado en la base de datos. Esta arquitectura usa el Flex Consumption plan para apoyar la integración de red virtual, la opción de memoria de instancia y el escalado rápido.
Azure Event Grid es un servicio de enrutamiento de eventos administrado que usa un modelo de publicación y suscripción. En esta arquitectura, un tema del sistema de Event Grid en la cuenta de almacenamiento emite un evento
Microsoft.Storage.BlobCreatedcuando se carga una nueva imagen y la entrega a la función.Azure Blob Storage es un almacén de objetos para datos no estructurados. En esta arquitectura, almacena todas las imágenes cargadas y los recursos estáticos que sirve la aplicación web. Blob Storage es la única fuente confiable para las imágenes entrantes.
Azure Cosmos DB para NoSQL es una base de datos de NoSQL administrada. En esta arquitectura, almacena los metadatos de cada imagen, incluida la salida estructurada que devuelve Content Understanding.
Alternativas
Azure Machine Learning AutoML for Images entrena modelos personalizados de clasificación de imágenes y detección de objetos a partir de los datos etiquetados mediante técnicas clásicas de aprendizaje automático. Elija AutoML cuando tenga un conjunto de datos etiquetado y necesite un modelo determinista e implementable para dominios estrechos (por ejemplo, detección de defectos de fabricación o imágenes médicas) en los que no caben los enfoques generativos. AutoML es la ruta de acceso que Microsoft recomienda para los clientes que migran desde Custom Vision cuando quieren mantener un modelo de ML clásico.
Modelos Foundry habilitados para la visión de Microsoft permiten llamar o ajustar directamente modelos multimodales (GPT-4.1, GPT-4o y Phi-4 multimodal). Elija esta opción cuando necesite un control detallado sobre la instrucción y el modelo, quiera afinar en sus propios datos o necesite responder preguntas visuales e interacción mediante imágenes en lugar de extracción estructurada.
Búsqueda de Azure AI indexa los metadatos para que los usuarios puedan consultar y filtrar imágenes por etiqueta, título u otros atributos. El conjunto de habilidades de enriquecimiento de IA puede utilizar servicios de IA generativa y de visión y escribir los resultados directamente en un índice de búsqueda sin una función independiente.
Azure Logic Apps es adecuado cuando no necesita reacción en tiempo real a las cargas de archivos. Un flujo de trabajo que se ejecuta mediante un disparador de recurrencia o de ventana deslizante puede buscar nuevos blobs y llamar a la funcionalidad de Comprensión de Contenido por lotes.
Azure Document Intelligence extrae imágenes incrustadas en documentos a través del modelo de diseño, lo que permite ejecutar la clasificación posterior en esas figuras incrustadas. Use modelos de clasificación personalizados cuando los archivos de entrada contengan varios tipos de documento y necesite identificar cada uno antes de su posterior procesamiento.
Detalles del escenario
Este escenario se aplica a las empresas que procesan imágenes a escala y quieren adjuntar metadatos estructurados como etiquetas, subtítulos o etiquetas de categoría a cada imagen sin entrenar y operar sus propios modelos.
Entre las aplicaciones típicas se incluyen la clasificación de imágenes en un sitio de moda, el análisis de fotos para reclamaciones de seguros y la extracción de contexto de capturas de pantalla del juego. La creación de esta característica interna requiere tradicionalmente experiencia en computer vision, datos de entrenamiento y administración del ciclo de vida del modelo. La arquitectura de este artículo reemplaza ese trabajo con servicios administrados Azure.
Posibles casos de uso
Esta solución se aplica al comercio minorista, comercio electrónico, juegos, finanzas y seguros. Entre los casos de uso comunes se incluyen:
Etiquetado de imágenes en un sitio comercial o de moda. Los vendedores cargan fotos de productos. Content Understanding devuelve las etiquetas, los títulos y los atributos que se definen en el esquema del analizador. La plataforma los usa para rellenar automáticamente los campos de descripción, impulsar la búsqueda visual y reducir el esfuerzo de etiquetado manual.
Categorización de productos en un catálogo de comercio electrónico. Un analizador de Content Understanding asigna metadatos de categoría y subcategoría (por ejemplo, calzado a zapatillas para correr) y atributos visuales, como el color y el material. Los compradores obtienen una búsqueda y filtrado más precisos, y los vendedores pasan menos tiempo corrigiendo categorías.
Clasificación de telemetría a partir de capturas de pantalla del juego. Las plataformas de streaming clasifican erróneamente una secuencia cuando un creador olvida actualizar el título después de cambiar de juegos. Una función que clasifica las capturas de pantalla periódicas puede detectar el cambio y actualizar los metadatos de la secuencia. Para dominios estrechos en los que la clasificación generativa tiene un rendimiento inferior, use AutoML para imágenes para entrenar un clasificador determinista.
Enrutamiento de fotos de reclamaciones de seguros. Content Understanding identifica los daños del vehículo, los daños causados por desastres naturales o el tipo de propiedad en las fotos de reclamación. Los metadatos enrutan la reclamación a la cola del ajustador correcto y reducen el tiempo de triaje.
Consideraciones
Estas consideraciones implementan los pilares del Azure Well-Architected Framework, un conjunto de principios rectores que puede usar para mejorar la calidad de una carga de trabajo.
Seguridad
La seguridad proporciona garantías contra ataques deliberados y el uso indebido de sus valiosos datos y sistemas. Para obtener más información, vea Lista de comprobación para la revisión de diseño de seguridad.
- Use identidades administradas para que la aplicación de funciones se autentique en Blob Storage, Azure Cosmos DB y el recurso Microsoft Foundry que hospeda Content Understanding. Evite almacenar cadenas de conexión o claves de API en la configuración de la aplicación.
- Restrinja el recurso Foundry y Cosmos DB a puntos de conexión privados y deshabilite el acceso a la red pública cuando la carga de trabajo se ejecute dentro de una red virtual. El plan flex Consumption admite la integración de red virtual.
- Valide las imágenes cargadas antes de invocar el servicio de visión. Aplique los límites de tamaño y tipo de contenido en el límite de carga, busque malware y almacene cargas en un contenedor que los usuarios públicos no puedan leer directamente.
- Esta arquitectura solo es adecuada para las imágenes que decida que son adecuadas para ser procesadas por una solución en la nube, no se admite el procesamiento de imágenes local o sin conexión.
Optimización de costos
La optimización de costos se centra en formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costes.
- Limite el esquema del analizador en Content Understanding a los campos que realmente consume la aplicación. Cada campo adicional aumenta el uso de tokens y el costo por llamada. Revisar precios de Microsoft Foundry para las tarifas actuales.
- Para Azure Functions, utilice el plan de consumo Flex para cargas de trabajo con picos impulsadas por eventos. Se escala a cero y factura por segundo en instancias activas.
- Para Azure Cosmos DB, evalúe serverless o autoscale rendimiento cuando el tráfico es desigual. Sin servidor se adapta a cargas de trabajo de bajo tráfico y desarrollo/pruebas; el escalado automático se adapta a producción con carga variable.
Excelencia operativa
La excelencia operativa abarca los procesos de las operaciones que implementan una aplicación y la mantienen en ejecución en producción. Para obtener más información, consulte la Lista de comprobación de revisión de diseño para la excelencia operativa.
- Envíe la información de diagnóstico de Azure Functions, Event Grid y Microsoft Foundry a un área de trabajo compartida de Log Analytics y use Application Insights para el seguimiento distribuido en el flujo desde la carga hasta el resultado.
- Configure un destino de mensajes fallidos de Event Grid para que los eventos que la función no pueda procesar llegan a un contenedor de blobs independiente para la reproducción.
- Versiona los esquemas del analizador de comprensión de contenido como código y despliega a través del mismo pipeline que despliega la función. Trate los cambios de esquema como cambios importantes para los consumidores de nivel inferior.
Contributors
Microsoft mantiene este artículo. Los siguientes colaboradores escribieron este artículo.
Autores principales:
- Ananya Ghosh Chowdhury | Arquitecto principal de soluciones en la nube
Otros colaboradores:
- Delyn Choong | Arquitecto sénior de soluciones en la nube: datos e inteligencia artificial
- Abhishek Singh | Ingeniero de soporte técnico
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
- ¿Qué es Content Understanding?
- Introducción a los modelos de Microsoft Foundry
- Opciones de migración de Azure Vision Image Analysis
- Enriquecimiento de IA en Búsqueda de Azure AI
- Introducción a Azure Functions
- Plan de consumo flexible de Azure Functions
- ¿Qué es Azure Event Grid?
- Introducción a Azure Blob Storage
- Bienvenido a Azure Cosmos DB
Para conocer las rutas de aprendizaje guiadas, consulte:
- Desarrollo de una aplicación de IA generativa habilitada para la visión
- Entrenamiento de modelos de clasificación de imágenes personalizadas con AutoML
Recursos relacionados
- Usar enriquecimiento con IA para el procesamiento de imágenes y texto
- Introducción a las aplicaciones de chat de visión multimodal mediante azure OpenAI