Implementación de la seguridad de datos de inteligencia artificial

Completado

La seguridad de los datos es fundamental para la inteligencia artificial, ya que los sistemas de inteligencia artificial amplifican los desafíos existentes con la clasificación de datos, los permisos y la gobernanza. La inteligencia artificial facilita la detección de datos, lo que significa que los problemas con el control de datos se magnifican, lo que conduce a posibles fugas de datos y acceso no autorizado. La inteligencia artificial no solo se basa en los datos, sino que también crea nuevos datos que obtienen valor a lo largo del tiempo, lo que lo convierte en un destino para los atacantes. Aunque la seguridad de los datos no es una nueva materia, la inteligencia artificial hace que la seguridad de los datos sea aún más crítica.

Un principio fundamental de la seguridad de los datos de inteligencia artificial es que las decisiones de control de acceso nunca deben devolverse al sistema de inteligencia artificial. La inteligencia artificial solo debe tener acceso a los mismos datos que el usuario en cuyo nombre actúa.

Captura de pantalla de los desafíos de la gobernanza y la seguridad de la inteligencia artificial, en la que se muestra cómo la inteligencia artificial amplía los problemas de seguridad de datos existentes.

Descripción del panorama de datos de los sistemas de inteligencia artificial

Los sistemas de inteligencia artificial generativa interactúan con una amplia gama de tipos de datos que requieren protección:

  • Datos de entrenamiento: los conjuntos de datos usados para crear y ajustar modelos, que pueden contener información propietaria, datos personales o material protegido por derechos de autor
  • Datos de base: documentos, bases de datos y bases de conocimiento que la inteligencia artificial recupera en tiempo de ejecución a través de técnicas como la generación aumentada de recuperación (RAG)
  • Datos de interacción: solicitudes de usuario, respuestas de modelo, historiales de conversaciones y cargas de llamada a herramientas generadas durante el uso
  • Salidas generadas: resúmenes, código, informes y otros artefactos que crea la inteligencia artificial, lo que puede combinar información de varios orígenes confidenciales.

Cada tipo de datos tiene diferentes requisitos de seguridad, patrones de acceso e implicaciones normativas. Una estrategia completa de seguridad de datos de inteligencia artificial aborda todos ellos.

Captura de pantalla de los tipos de datos usados por la inteligencia artificial generativa, que muestra las categorías de datos consumidas, creadas y a las que se accede.

Implementación del control de acceso con identidades de agente

El principio de que la inteligencia artificial solo debe tener acceso a los mismos datos que el usuario que actúa en nombre de es sencillo de indicar, pero su implementación requiere una administración de identidades creada específicamente. Los marcos de identidad del agente proporcionan formas estandarizadas de controlar, autenticar y autorizar a los agentes de inteligencia artificial.

Los marcos de identidad del agente suelen admitir dos modos de autenticación:

  • Acceso delegado (en nombre del usuario): el agente opera bajo la identidad del usuario que ha iniciado sesión mediante un flujo en nombre del usuario. El agente hereda solo los permisos para los que el usuario ha consentido y está autorizado. Esto aplica directamente el principio de que la inteligencia artificial no puede acceder a los datos a los que el usuario no puede acceder.
  • Acceso solo a la aplicación: el agente actúa bajo su propia identidad dedicada, regulada por sus propias asignaciones de roles. Este modo se usa para flujos de trabajo en segundo plano o desatendidos en los que ningún usuario está implicado.

Al crear un agente en una plataforma de inteligencia artificial moderna, el servicio puede aprovisionar automáticamente una identidad del agente. A continuación, los administradores asignan roles a esa identidad mediante el control de acceso basado en rol (RBAC), aplicando el acceso con privilegios mínimos en el nivel de agente, aparte de los permisos de los desarrolladores humanos que lo crearon.

Esta separación es importante para la auditabilidad: las operaciones realizadas por el agente de IA aparecen en los registros de la identidad del agente, no en la cuenta de un usuario humano, lo que permite detectar e investigar el comportamiento inesperado del agente.

Por ejemplo, Agente de Microsoft Entra ID proporciona esta funcionalidad mediante la emisión de identidades dedicadas para agentes de IA que admiten modos de acceso delegados y de solo aplicación, con asignaciones de roles administradas a través de Azure RBAC.

Diagrama que compara los modos de acceso delegado y de solo aplicación para las identidades del agente de IA.

Clasificación y gobernanza de datos

Para que la seguridad de los datos mediante IA sea eficaz, también se requieren prácticas de gobernanza de datos sólidas.

  • Clasificación de datos antes de que la inteligencia artificial acceda a ellos: asegúrese de que los datos a los que acceden los sistemas de inteligencia artificial están clasificados y etiquetados según su nivel de confidencialidad. La inteligencia artificial solo puede aplicar controles de acceso que existen, si los datos no están clasificados correctamente, la inteligencia artificial puede exponer información confidencial a usuarios no autorizados.
  • Aplique directivas de prevención de pérdida de datos (DLP): amplíe las directivas DLP ya existentes para cubrir los canales de interacción con IA. Supervise si hay datos confidenciales que aparecen en las solicitudes de inteligencia artificial, las respuestas y las cargas de llamada a herramientas.
  • Aplicar directivas de retención y eliminación: defina cuánto tiempo se conservan los datos de interacción (registros de conversación, historiales de mensajes). Minimice la ventana de exposición purgando automáticamente los datos que ya no son necesarios.
  • Auditar patrones de acceso a datos: supervise los datos a los que accede la inteligencia artificial, cuándo y en cuyo nombre. Los patrones de acceso anómalos , como un agente que consulta repentinamente grandes volúmenes de datos fuera de su ámbito normal, pueden indicar un riesgo.