Puntos de intervención

La inteligencia artificial agente expande tanto la funcionalidad como la superficie expuesta a ataques. Cuando un agente puede llamar a herramientas externas, escribir en bases de datos o desencadenar procesos posteriores, los errores de funcionamiento o ataques malintencionados pueden desviarlo de su curso, filtrar datos confidenciales o ejecutar acciones perjudiciales.

Los límites de protección aplicados solo en el nivel de modelo pueden dejar estos vectores expuestos. Para cerrar esta brecha, Microsoft Foundry le permite aplicar barreras de protección directamente a los agentes y configurar controles individuales en cuatro puntos de intervención diferentes.

Puntos de intervención

Punto de intervención Descripción Control de ejemplo en este punto de intervención
Entrada del usuario Una consulta enviada desde un usuario a un modelo o agente. A veces se conoce como "prompt". Algunos controles en este punto de intervención requieren la inclusión de la inserción de documentos por parte del usuario para que surta efecto. Riesgo: Ataques de entrada de usuario
Acción: Anotar y bloquear

Cuando se especifica este control en la barrera de protección de un agente o modelo, la entrada del usuario se examina mediante un modelo de clasificación que detecta ataques de jailbreak. Si se detecta un ataque, se impide que la entrada del usuario se envíe al modelo, lo que detiene la interacción.
Llamada a herramienta (versión preliminar) La siguiente acción que el agente propone realizar, según lo generado por su modelo subyacente. La llamada a la herramienta se compone de la herramienta que se invoca y de los argumentos con los que se invoca, incluidos los datos que se envían a la herramienta. Riesgo: Odio (alto)
Acción: Anotar y bloquear

Cuando se especifica este control, cada vez que el agente está a punto de ejecutar una llamada de herramienta, se examina el contenido propuesto que se envía a la herramienta para detectar contenido de odio. Si se detecta alguno, la llamada a la herramienta no se ejecutará y el agente dejará de funcionar hasta que haya otra entrada del usuario.
Respuesta de la herramienta (versión preliminar) El contenido enviado de regreso por una herramienta que es interno a la orquestación de un agente, y antes de que el contenido se agregue a la memoria del agente o se devuelva al usuario final. Riesgo: Ataque indirecto
Acción: Anotar y bloquear

Cuando se especifica este control, se examina la carga completa enviada de cada herramienta a este agente en busca de intentos de ataques indirectos de inyección de comandos. Si se detecta, el agente deja de funcionar inmediatamente e impide que se guarde contenido malintencionado y que se desvíe el agente de su curso de forma malintencionada.
Salida El contenido final devuelto al usuario final en respuesta a su consulta. Riesgo: Material protegido para texto
Acción: Solo anotar

Cuando se especifica este control, el contenido final destinado a mostrarse al usuario se examina para determinados tipos de texto con derechos de autor. Si se detecta, hay una marca en la respuesta de anotación de la API que se usa para llamar a este modelo o agente.

Nota

Consideraciones sobre el rendimiento
El procesamiento de salvaguardas en cada punto de intervención agrega entre 50 y 100 ms de latencia. La latencia real varía en función de la longitud del contenido y del número de controles activos en la barrera de protección.

Configurar controles en puntos de intervención

Al crear una barrera de protección, se seleccionan los controles que se van a habilitar y en qué puntos de intervención se aplicarán. Por ejemplo, para protegerse contra ataques indirectos en las respuestas de herramientas:

  1. Cree un límite de protección en el portal de Foundry.
  2. Agregue un control para el riesgo de "ataque indirecto".
  3. Seleccione "Respuesta de la herramienta" como punto de intervención.
  4. Elija "Anotar y bloquear" como acción.

Para obtener pasos detallados, consulte Creación de un límite de protección.

Herramientas compatibles

Los puntos de intervención de llamada y respuesta de herramientas requieren apoyo de moderación proveniente de la propia herramienta. Actualmente, las siguientes herramientas admiten la moderación: Búsqueda de Azure AI, Azure Functions, OpenAPI, Sharepoint Grounding, Fabric Data Agent, Bing Grounding, Bing Custom Search y Automatización del explorador. Si configura controles en los puntos de intervención de llamada a la herramienta o respuesta a la herramienta, pero su agente utiliza herramientas que no están en esta lista, esos controles no surtirán efecto para esas herramientas específicas.