Memoria en el servicio Microsoft Foundry Agent (versión preliminar)

Importante

La función de memoria (vista previa) en Foundry Agent Service y la API de Memory Store (vista previa) están licenciadas para usted como parte de su suscripción a Azure y están sujetas a los términos aplicables a las "vistas previas" en los Términos del producto de Microsoft y el Anexo de protección de datos de productos y servicios de Microsoft, así como a los términos de vista previa de los servicios de IA generativa de Microsoft en los Términos de uso suplementarios para las vistas previas de Microsoft Azure.

La memoria en el Servicio de Agente de Foundry de Microsoft es una solución de memoria administrada y a largo plazo. Permite la continuidad del agente entre sesiones, dispositivos y flujos de trabajo. Al crear y administrar almacenes de memoria, puede crear agentes que conserven las preferencias del usuario, mantengan el historial de conversaciones y proporcionen experiencias personalizadas.

En este artículo se proporciona información general sobre la memoria del agente, incluidos sus conceptos, casos de uso y limitaciones. Para obtener instrucciones de uso, consulte Creación y uso de memoria en foundry Agent Service.

¿Qué es la memoria?

La memoria es un conocimiento persistente conservado por un agente entre sesiones. Por lo general, la memoria del agente se divide en dos categorías:

  • La memoria a corto plazo realiza un seguimiento de la conversación de la sesión actual y mantiene el contexto inmediato para las interacciones en curso. Los frameworks de orquestación de agentes suelen gestionar esta memoria como parte del contexto de la sesión.

  • La memoria a largo plazo conserva los conocimientos destilados entre sesiones. El modelo puede recordar y construir sobre interacciones anteriores del usuario con el paso del tiempo. La memoria a largo plazo requiere un sistema persistente que extrae, consolida y administra el conocimiento.

La memoria en Foundry Agent Service está diseñada para el almacenamiento a largo plazo. Extrae información significativa de las conversaciones, la consolida en conocimientos duraderos y hace que esté disponible en todas las sesiones.

Funcionamiento de la memoria

En segundo plano, los recuerdos se almacenan como elementos en un almacén de memoria administrado. El sistema puede aplicar lógica de consolidación y resolución de conflictos cuando corresponda (por ejemplo, para combinar información de perfil de usuario duplicada o superpuesta).

Nota

El comportamiento de consolidación puede variar según el tipo de memoria y puede cambiar durante la versión preliminar. Para obtener el comportamiento más reciente, consulte Creación y uso de memoria en el servicio del agente Foundry.

La memoria funciona en las siguientes fases:

  1. Extracción: Cuando un usuario interactúa con un agente, el sistema extrae activamente información clave de la conversación, como preferencias de usuario, hechos y contexto relevante. Por ejemplo, las preferencias como "alérgica a los productos lácteos" y los resúmenes de las actividades recientes se identifican y almacenan.

  2. Consolidación: Los recuerdos extraídos se consolidan para mantener el almacén de memoria eficiente y relevante. El sistema usa LLM para combinar temas similares o duplicados para que el agente no almacene información redundante. Los hechos conflictivos, como una nueva alergia, se resuelven para mantener una memoria precisa.

  3. Recuperación: Cuando el agente necesita recuperar información, busca en el almacén de memoria los recuerdos más relevantes. Esto permite al agente exponer rápidamente el contexto correcto, lo que hace que las conversaciones se sientan naturales e informadas. Para obtener los mejores resultados, recupere información estable del perfil de usuario al principio de la conversación para que el agente pueda personalizar las respuestas.

Este es un ejemplo de cómo la memoria puede mejorar y personalizar las interacciones entre un agente de recetas y un usuario que expresó previamente una alergia alimentaria:

Diagrama que muestra la extracción de memoria, el almacenamiento y la recuperación de un agente entre sesiones.

Propina

¿Necesita ayuda para decidir cuándo usar memoria? Tenga en cuenta estas directrices:

  • Use la memoria para el contexto específico del usuario que persiste con el tiempo.
  • Usa una base de conocimiento de Foundry IQ para anclar tu agente en contenido organizacional curado.
  • Use la herramienta de búsqueda de archivos para buscar documentos proporcionados por el usuario durante una interacción.

Tipos de memoria

La memoria en Foundry Agent Service extrae y almacena dos tipos de memoria a largo plazo:

Tipo Descripción Configuración
Memoria del perfil de usuario Información y preferencias sobre el usuario, como el nombre preferido, las restricciones alimentarias y las preferencias de idioma. Estos recuerdos se consideran "estáticos" con respecto a una conversación porque generalmente no dependen del contexto de chat actual. Recuperar memorias de perfil de usuario una vez al principio de cada conversación. Especifique user_profile_details en un almacén de memoria.
Memoria de resumen de chat Resumen destilado de cada tema o subproceso tratado en una sesión de chat. Estas memorias permiten a los usuarios continuar las conversaciones o hacer referencia a sesiones anteriores sin repetir el contexto anterior. Recuperar resúmenes de chats basados en la conversación actual para mostrar hilos pertinentes. Establézcalo chat_summary_enabled en true en un almacén de memoria.

Trabajar con memoria

Hay dos maneras de usar la memoria para las interacciones del agente:

  • Herramienta de búsqueda de memoria: Adjunte la herramienta de búsqueda de memoria a un agente de comandos para permitir la lectura y escritura en el almacén de memoria durante las conversaciones. Este enfoque es ideal para la mayoría de los escenarios, ya que simplifica la administración de memoria. Para obtener más información, consulte Uso de memorias a través de una herramienta de agente.

  • API de almacenamiento de memoria: Interactúe directamente con el almacén de memoria mediante las API de bajo nivel. Este enfoque proporciona más control y flexibilidad para los casos de uso avanzados. Para obtener más información, consulte Uso de memorias mediante API.

Casos de uso

En los ejemplos siguientes se muestra cómo la memoria puede mejorar varios tipos de agentes.

  • Un agente de soporte al cliente que recuerde su nombre, problemas anteriores y resoluciones, números de vales y su método de contacto preferido (chat, correo electrónico o devolución de llamada). Esta memoria le ayuda a evitar la repetición de información, por lo que las conversaciones son más eficaces y satisfactorias.

  • Un asistente de compras personal que recuerda su tamaño en marcas específicas, colores preferidos, devoluciones anteriores y compras recientes. El agente puede sugerir elementos relevantes tan pronto como inicie una sesión y evite recomendar productos que ya posee.

Riesgos de seguridad

Cuando se trabaja con memoria en foundry Agent Service, el modelo de lenguaje grande (LLM) extrae y consolida memorias basadas en conversaciones. Proteja la memoria frente a amenazas como la inyección de mensajes y los daños en la memoria. Estos riesgos surgen cuando los datos incorrectos o dañinos se almacenan en la memoria del agente, lo que puede influir en las respuestas y acciones del agente.

Para mitigar los riesgos de seguridad, tenga en cuenta estas acciones:

Limitaciones y cuotas

Las siguientes limitaciones y cuotas se aplican a la memoria en el Foundry Agent Service. Para ver limitaciones y cuotas más amplias, consulte Límites, cuotas y soporte técnico regional del servicio Foundry Agent.

Limitaciones

  • Actualmente, la memoria requiere implementaciones compatibles de los modelos de chat e incrustación de Azure OpenAI. Para obtener una lista de los modelos admitidos, consulte Foundry Models vendidos directamente por Azure.
  • Para las API de memoria de bajo nivel, debe establecer scope explícitamente en cada solicitud. La resolución automática del ámbito desde la identidad del llamador solo se admite cuando se usa la herramienta de búsqueda de memoria con scope establecido en {{$userId}}. Para obtener más información, consulte Descripción del ámbito.

Cuotas

  • Ámbitos máximos por almacén de memoria: 100
  • Memorias máximas por ámbito: 10 000
  • Memorias de búsqueda: 1000 solicitudes por minuto
  • Memorias de actualización: 1000 solicitudes por minuto

Disponibilidad de regiones

La memoria está disponible en las siguientes regiones:

  • Este de Australia
  • Sur de Brasil
  • Este de Canadá
  • Este de EE. UU. 2
  • Centro de Francia
  • Norte de Italia
  • Este de Japón
  • Centro de Corea del Sur
  • Centro-norte de EE. UU.
  • Este de Noruega
  • Norte de Sudáfrica
  • Sur de la India
  • Centro de Suecia
  • Norte de Suiza
  • Norte de Emiratos Árabes Unidos
  • Sur de Reino Unido
  • Oeste de EE. UU.
  • Oeste de EE. UU. 2
  • Oeste de EE. UU. 3

Precios

La memoria se encuentra actualmente en versión preliminar pública. Los precios y la facturación de la memoria y la API de almacenamiento de memoria pueden cambiar durante la versión preliminar.

Se le factura por el uso del chat subyacente y los modelos de incrustación que configure. Para más información sobre los precios actuales, consulte Precios del servicio Foundry Agent.