conceptos del agente de datos de Fabric

El agente de datos de Microsoft Fabric es una característica disponible de manera general, lo que le permite crear sus propios sistemas de preguntas y respuestas conversacionales mediante IA generativa. Un agente de datos de Fabric hace que la información de datos sea más accesible y procesable para todos los usuarios de su organización. Mediante el uso de un agente de datos de Fabric, el equipo puede tener conversaciones, con preguntas de idioma inglés sin formato, sobre los datos almacenados en Fabric OneLake y, a continuación, recibir respuestas pertinentes. De este modo, incluso las personas sin conocimientos técnicos en inteligencia artificial o una comprensión profunda de la estructura de datos pueden recibir respuestas precisas y contextuales. Dentro de arquitecturas de aplicaciones agente más amplias en Microsoft Fabric, los agentes de datos sirven como componente de análisis conversacional, conectándose a datos regulados en OneLake a través de lakehouses, almacenes de datos, modelos semánticos y bases de datos KQL en soluciones multiagente.

También puede agregar instrucciones, ejemplos y orientación específicas de la organización para afinar el agente de datos de Fabric. Este enfoque garantiza que las respuestas se alineen con las necesidades y los objetivos de su organización, lo que permite a todos interactuar con los datos de forma más eficaz. Fabric agente de datos fomenta una cultura de toma de decisiones controlada por datos porque reduce las barreras a la accesibilidad de información, facilita la colaboración y ayuda a su organización a extraer más valor de sus datos.

Prerrequisitos

Requisitos previos de gobernanza

Si el entorno o el área de trabajo están sujetos a las directivas de Microsoft Purview, los agentes deben operar dentro de esas directivas. Las siguientes directivas de Purview pueden limitar el acceso de los agentes y los resultados que los agentes devuelven, en función de la configuración de confidencialidad y directiva.

  • Directivas DLP dePurview en Fabric Data Warehouse (disponible con carácter general): las directivas DLP pueden detectar y restringir el acceso a datos confidenciales en los recursos de almacenamiento que consulta el agente.
  • Directivas de restricción de acceso (versión preliminar) para Fabric base de datos KQL, Fabric SQL Database y Fabric Data Warehouse: estas directivas pueden impedir que el agente acceda o devuelva resultados de recursos clasificados como confidenciales.

Funcionamiento del agente de datos de Fabric

El agente de datos de Fabric usa modelos de lenguaje grandes (LLM) para ayudar a los usuarios a interactuar con sus datos de forma natural. El agente de datos Fabric aplica Azure API de OpenAI Assistant y se comporta como un agente. Procesa preguntas de usuario, determina el origen de datos más relevante (Lakehouse, Warehouse, Power BI conjunto de datos, bases de datos KQL, ontología o Microsoft Graph) e invoca la herramienta adecuada para generar, validar y ejecutar consultas. A continuación, los usuarios pueden formular preguntas en lenguaje sin formato y recibir respuestas estructuradas y legibles. Este enfoque elimina la necesidad de escribir consultas complejas y garantiza el acceso preciso y seguro a los datos.

Así es como funciona con detalle:

Análisis y validación de la pregunta: El agente de datos de Fabric utiliza las API de Azure OpenAI Assistant como agente subyacente para procesar las preguntas de los usuarios. Este enfoque garantiza que la pregunta cumpla con los protocolos de seguridad, las directivas de IA responsable (RAI) y los permisos de usuario. El agente de datos Fabric también respeta los controles de gobernanza de Microsoft Purview, aplicados a los orígenes de datos subyacentes de Fabric, incluidas las directivas de prevención de pérdida de datos (DLP) y las políticas de restricción de acceso. La aplicación de directivas podría impedir que determinadas consultas se ejecuten o que se muestren datos específicos en las respuestas. El agente de datos de Fabric aplica estrictamente el acceso de solo lectura, manteniendo conexiones de datos de solo lectura a todos los orígenes de datos.

Mecanismos de aplicación: el agente de datos de Fabric aplica varias capas de protección durante el procesamiento. Usa las credenciales y permisos del usuario solicitante para aplicar el acceso con privilegios mínimos, lo que garantiza que cada interacción solo alcanza los datos que el usuario tiene autorización para ver. El agente evalúa las solicitudes según las configuraciones de políticas del inquilino y área de trabajo antes de ejecutar cualquier acción. Las barandillas restringen la invocación de herramientas y los resultados a fuentes de datos delimitadas, evitando que las consultas alcancen recursos fuera del ámbito configurado. Opcionalmente, puede integrar Azure AI Content Safety para aplicar controles de riesgo de contenido que ayuden a reducir las respuestas perjudiciales o fuera de la directiva.

Identificación del origen de datos: el agente de datos de Fabric usa las credenciales del usuario para acceder al esquema del origen de datos. Este enfoque garantiza que el sistema captura información de la estructura de datos que el usuario tiene permiso para ver. A continuación, el agente evalúa la pregunta del usuario en todos los orígenes de datos disponibles, incluidas las bases de datos relacionales (Lakehouse y Warehouse), Power BI conjuntos de datos (modelos semánticos), bases de datos KQL, ontologías y Microsoft Graph. También puede hacer referencia a instrucciones del agente de datos proporcionados por el usuario para determinar el origen de datos más relevante. Para los modelos semánticos de Power BI, el agente usa el permiso de lectura del usuario en el modelo para extraer el esquema y los metadatos para la generación de consultas; no se requiere el permiso de compilación para las consultas impulsadas por agentes.

Tool invocation and query generation: Una vez identificado el origen de datos o los orígenes correctos, el agente de datos Fabric vuelve a modificar la pregunta para mayor claridad y estructura y, a continuación, invoca la herramienta correspondiente para generar una consulta estructurada:

  • Lenguaje natural a SQL (NL2SQL) para bases de datos relacionales (Lakehouse/Warehouse).
  • Lenguaje natural a DAX (NL2DAX) para conjuntos de datos de Power BI (modelos semánticos).
  • Lenguaje natural a KQL (NL2KQL) para bases de datos KQL. NL2KQL puede usar funciones definidas por el usuario (UDF) de KQL cuando estén disponibles en las bases de datos seleccionadas.
  • Consultas de datos organizacionales accesibles a través de Microsoft Graph.

La herramienta seleccionada genera una consulta basada en el esquema, los metadatos y el contexto proporcionados, los cuales el agente de datos de Fabric subyacente luego transmite.

Validación de consultas: la herramienta realiza la validación para asegurarse de que la consulta se ha formado correctamente y cumple sus propios protocolos de seguridad y directivas RAI.

Query execution and response: Una vez validado, el agente de datos Fabric ejecuta la consulta en el origen de datos elegido. Los resultados se formatean en una respuesta fácil de leer, que puede incluir datos estructurados como tablas, resúmenes o perspectivas clave.

Mediante este enfoque, los usuarios pueden interactuar con sus datos mediante lenguaje natural. El agente de datos Fabric controla las complejidades de la generación, validación y ejecución de consultas. Los usuarios no necesitan escribir SQL, DAX ni KQL por sí mismos.

Seguridad y gobernanza con Microsoft Purview

Microsoft Purview proporciona controles de gobernanza y riesgo para agentes de datos de Fabric. Estas características se encuentran actualmente en versión preliminar y ayudan a las organizaciones a mantener el cumplimiento al usar agentes para acceder a los datos Fabric. Entre las funcionalidades clave se incluyen:

  • Detección y auditoría: las solicitudes y respuestas de los agentes de datos de Fabric pueden estar sujetas a la detección y auditoría de riesgos de Purview, lo que proporciona a los equipos de seguridad visibilidad sobre cómo interactúan los agentes con los datos de la organización.
  • Evaluaciones de riesgos de datos de DSPM: las evaluaciones de riesgos de datos de administración de la posición de seguridad de datos (DSPM) pueden exponer riesgos de datos confidenciales en los orígenes de datos que usan los agentes, lo que le ayuda a identificar y abordar la posible exposición.
  • Administración de riesgos internos: La administración de riesgos internos de Purview puede detectar patrones de uso de inteligencia artificial de riesgo que implican agentes, como volúmenes de consultas inusuales o acceso a datos confidenciales.
  • Auditoría, eDiscovery y retención: Las directivas de Auditoría, eDiscovery y retención de Purview se aplican a las interacciones y salidas del agente en cargas de trabajo de Fabric admitidas. La detección de uso no compatible también puede marcar la actividad del agente que infringe las directivas organizativas.

Para obtener más información sobre cómo se integra Microsoft Purview con Fabric, consulte Use Microsoft Purview para controlar Microsoft Fabric.

configuración del agente de datos de Fabric

La configuración de un agente de datos de Fabric es similar a la creación de un informe de Power BI, ya que empieza por diseñarlo y refinarlo para asegurarse de que satisface sus necesidades y, a continuación, publicarlo y compartirlo con compañeros para que puedan interactuar con los datos. La configuración de un agente de datos de Fabric implica:

Selección de orígenes de datos: un agente de datos de Fabric admite hasta cinco orígenes de datos en cualquier combinación, incluidas las casas de lago, almacenes, bases de datos KQL, modelos semánticos de Power BI, ontologías y Microsoft Graph. Por ejemplo, un agente de datos de Fabric configurado podría incluir cinco modelos semánticos Power BI. Podría incluir una combinación de dos modelos semánticos de Power BI, un lago y una base de datos KQL. Tiene muchas opciones disponibles.

Elegir tablas pertinentes: Después de seleccionar los orígenes de datos, agréguelos uno a uno y defina las tablas específicas de cada origen que usa el agente de datos de Fabric. Este paso garantiza que el agente de datos de Fabric recupere resultados precisos al centrarse solo en los datos pertinentes. En el caso de lakehouses, este paso significa seleccionar tablas de lakehouse (no archivos de lakehouse individuales). Si los datos se inician como archivos (por ejemplo, CSV o JSON), haga que esté disponible para el agente ingeriéndolo en tablas o exponiendolos a través de tablas.

Agregar contexto: para mejorar la precisión del agente de datos Fabric, proporcione más contexto a través de instrucciones del agente de datos Fabric y consultas de ejemplo. Como agente subyacente para el agente de datos de Fabric, el contexto ayuda al Azure API de OpenAI Assistant a tomar decisiones más fundamentadas sobre cómo procesar preguntas de usuario y determinar qué origen de datos es más adecuado para responder a ellos.

  • Instrucciones para el agente de datos: Añadir instrucciones para guiar al agente que subyace al "agente de datos Fabric", en determinar la mejor fuente de datos para responder a tipos específicos de preguntas. También puede proporcionar reglas o definiciones personalizadas que aclare la terminología organizativa o los requisitos específicos. Estas instrucciones pueden proporcionar más contexto o preferencias que influyen en cómo selecciona el agente y consulta orígenes de datos. Por ejemplo, asigne las preguntas directas sobre las métricas financieras a un modelo semántico de Power BI, asigne consultas que impliquen exploración de datos en bruto al sistema Lakehouse, y enrute preguntas que requieran análisis de registros a la base de datos KQL.

  • Consultas de ejemplo: Agregue pares de pregunta-consulta de muestra para ilustrar cómo debería responder el agente de datos de Fabric a consultas comunes. Estos ejemplos sirven como guía para el agente, lo que ayuda a comprender cómo interpretar preguntas similares y generar respuestas precisas.

Nota:

Actualmente no se admite la adición de pares de consulta/pregunta de ejemplo para los orígenes de datos del modelo semántico de Power BI.

Al combinar instrucciones claras de inteligencia artificial y consultas de ejemplo pertinentes, puede alinear mejor el agente de datos de Fabric con las necesidades de datos de su organización, lo que garantiza respuestas más precisas y compatibles con el contexto.

Importante

Las instrucciones del agente de datos proporcionadas por el desarrollador y las consultas de ejemplo deben funcionar dentro de restricciones basadas en roles y de organización. Si las instrucciones o los mensajes entran en conflicto con la directiva (por ejemplo, intenta omitir el comportamiento de solo lectura o acceder a orígenes fuera del ámbito), el agente rechaza o redirige la solicitud según el modelo de precedencia descrito en la sección siguiente.

Capas de gobernanza y propósito

Al configurar un agente de datos de Fabric, varias capas de intención pueden influir en el comportamiento del agente. Estas capas, enumeradas de mayor a menor prioridad, definen lo que el agente puede hacer:

  1. Intención organizativa: directivas aplicables a toda la entidad y requisitos de conformidad establecidos por los administradores de la organización. Estas restricciones tienen la prioridad más alta y ninguna otra capa puede invalidarlas.
  2. Intención basada en roles: configuraciones de gobernanza del espacio de trabajo y límites de permiso que se aplican a roles o grupos específicos. Esta configuración aplica controles de acceso y restricciones de ámbito de datos.
  3. Intención del desarrollador: instrucciones personalizadas, consultas de ejemplo y configuraciones de origen de datos que se proporcionan al compilar el agente de datos.
  4. Intención del usuario: preguntas y mensajes que los usuarios finales envían durante las conversaciones con el agente.

Cuando surgen conflictos entre capas, las capas de mayor prioridad reemplazan a las inferiores. Por ejemplo, las directivas organizativas y la configuración de gobernanza del área de trabajo siempre invalidan las instrucciones de desarrollador y las indicaciones del usuario. Este modelo de precedencia garantiza que el agente funcione dentro de los límites aprobados, independientemente de cómo se configure o se le solicite.

Diferencia entre un agente de datos de Fabric y un copiloto

Aunque tanto los agentes de datos de Fabric como los copilotos de Fabric usan inteligencia artificial generativa para procesar y razonar sobre datos, existen diferencias clave en su funcionalidad y casos de uso:

Flexibilidad de configuración: Puede hacer altamente configurables los agentes de datos de Fabric. Puede proporcionar instrucciones y ejemplos personalizados para adaptar su comportamiento a escenarios específicos. Los copilotos de Fabric, por otro lado, vienen preconfigurados y no ofrecen este nivel de personalización.

Alcance y caso de uso: Los copilotos de Fabric ayudan con tareas en el contexto de Microsoft Fabric, como generar código de cuaderno o consultas de almacén. Agentes de datos de Fabric, por el contrario, son artefactos configurables independientes que pueden consultar datos en OneLake y modelos semánticos. Los agentes de datos de Fabric también se pueden integrar con Microsoft 365 Copilot para mostrar información en lenguaje natural directamente dentro de las aplicaciones de Microsoft 365. Cuando se accede a los agentes a través de Microsoft 365 Copilot, las directivas de gobernanza de Microsoft Purview se siguen aplicando a los orígenes de datos subyacentes. Además, Fabric agentes de datos pueden conectarse con sistemas externos como Microsoft Copilot Studio, Azure AI Foundry, Microsoft Teams u otras herramientas fuera de Fabric. Los orquestadores externos y los entornos de ejecución de varios agentes pueden invocar a los agentes de datos de Fabric para admitir flujos de trabajo agénticos de extremo a extremo, mientras que los agentes de datos se mantienen enfocados en el acceso a datos regulado y de solo lectura.

Evaluación del agente de datos de Fabric

El equipo del producto evaluó rigurosamente la calidad y seguridad de las respuestas del agente de datos de Fabric:

Benchmark Testing: El equipo del producto probó agentes de datos de Fabric en una gama de conjuntos de datos públicos y privados para garantizar respuestas precisas y de alta calidad.

Enhanced Harm Mitigations: El equipo de productos implementó medidas de seguridad para garantizar que las salidas del agente de datos de Fabric permanezcan centradas en el contexto de los orígenes de datos seleccionados, lo que reduce el riesgo de respuestas irrelevantes o engañosas.

Gobernanza y seguridad

La integración de Microsoft Purview proporciona controles de gobernanza para los agentes de datos de Fabric. Al configurar un agente de datos, las directivas de gobernanza de Purview se aplican a los orígenes de datos subyacentes a los que puede acceder el agente. Esta integración ayuda a garantizar que el acceso a los datos a través de agentes sigue las mismas reglas de cumplimiento y clasificación que el acceso directo.

Directivas de Microsoft Purview: las directivas de Purview, como los controles de acceso a datos y las etiquetas de confidencialidad, se aplican a los orígenes de datos consultados por los agentes. Si una directiva de Purview restringe el acceso a un lakehouse o un almacén de datos, el agente respeta esa restricción al procesar las consultas de los usuarios.

Protección de acceso saliente: los agentes de datos de Fabric funcionan dentro de los límites de protección de acceso saliente del área de trabajo. Los administradores del área de trabajo pueden administrar las conexiones salientes permitidas a través de la configuración del área de trabajo para controlar los puntos de conexión externos a los que puede llegar el agente de datos.

Integración con Microsoft 365 Copilot: Cuando los agentes de datos de Fabric se exponen a través de Microsoft 365 Copilot, las políticas de gobernanza de Purview siguen aplicándose. Los usuarios solo pueden acceder a los datos que permiten sus credenciales y directivas de Purview, independientemente del punto de entrada.

ALM y DevOps para agentes de datos

Fabric agentes de datos admiten funcionalidades de administración del ciclo de vida de las aplicaciones (ALM) que le ayudan a administrar las configuraciones del agente en entornos de desarrollo, prueba y producción.

Diagnósticos: use diagnósticos integrados para supervisar el comportamiento del agente, identificar problemas de generación de consultas y solucionar problemas de calidad de respuesta. Los diagnósticos proporcionan visibilidad sobre cómo procesa el agente las preguntas y selecciona los orígenes de datos.

Integración de Git: puede controlar la versión de las configuraciones del agente con la integración de Git. Conecte el área de trabajo de Fabric a un repositorio de Git para realizar un seguimiento de los cambios en las instrucciones del agente, las consultas de ejemplo y las selecciones del origen de datos a lo largo del tiempo.

Canalizaciones de implementación: use canalizaciones de implementación de Fabric para promover agentes de datos entre áreas de trabajo (por ejemplo, de desarrollo a producción). Esta compatibilidad le permite probar los cambios en un entorno de ensayo antes de que estén disponibles para los usuarios finales.

Supervisión operativa

Para mantener la alineación continua de calidad y políticas, considere estas prácticas operativas para su agente de datos de Fabric.

  • Registro y auditoría: supervise las interacciones del agente a través de las funcionalidades de registro y auditoría disponibles. Revisar los patrones de consulta y la calidad de respuesta le ayuda a identificar el comportamiento inesperado al principio.
  • Escalación con intervención humana: establecer caminos de escalación para solicitudes confidenciales o de alto impacto. En escenarios en los que las respuestas automatizadas no son suficientes, defina los procesos que enrutan las preguntas a revisores calificados.
  • Revisión periódica: revise periódicamente las instrucciones del agente de datos y las consultas de ejemplo para asegurarse de que permanecen alineadas con las directivas y estructuras de datos actuales de la organización. A medida que cambian los orígenes de datos o los requisitos empresariales, actualice la configuración del agente en consecuencia.

Limitaciones

  • El agente de datos de Fabric solo genera consultas SQL, DAX y KQL "read". No genera consultas SQL, DAX ni KQL que crean, actualizan o eliminan datos.
  • El agente de datos de Fabric no admite datos no estructurados, como .pdf, .docxo archivos .txt. No puede usar el agente de datos de Fabric para acceder a recursos de datos no estructurados.
  • En el caso de los orígenes de datos de lakehouse, el agente de datos de Fabric responde a preguntas mediante las tablas de lakehouse que seleccione. No lee directamente los archivos de lakehouse independientes (por ejemplo, archivos CSV o JSON), a menos que se ingieren o se exponen como tablas.
  • El agente de datos de Fabric no admite actualmente idiomas que no son de inglés. Para obtener un rendimiento óptimo, proporcione preguntas, instrucciones y consultas de ejemplo en inglés.
  • No se puede cambiar el LLM que usa el agente de datos de Fabric.
  • Es posible que el historial de conversaciones del agente de datos de Fabric no se conserve siempre. En determinados casos, como los cambios en la infraestructura de back-end, las actualizaciones del servicio o las actualizaciones del modelo, es posible que se restablezca o pierda el historial de conversaciones anteriores.
  • El agente de datos de Fabric no puede ejecutar consultas cuando la capacidad del área de trabajo del origen de datos está en una región diferente de la capacidad del área de trabajo del agente de datos. Por ejemplo, una Lakehouse con capacidad en el norte de Europa falla si la capacidad del Agente de Datos está en el centro de Francia.
  • Los usuarios pueden proporcionar hasta 100 consultas de ejemplo por origen de datos en su agente de datos.
  • Fabric Data Agents están diseñados actualmente para información conversacional en lugar de devolver conjuntos de datos completos. Para garantizar respuestas concisas y eficaces, las salidas de chat limitan automáticamente o resumen los datos devueltos. En la actualidad, las respuestas están limitadas a un máximo de 25 filas y 25 columnas. Tenga en cuenta que el historial de chat anterior puede influir en las respuestas posteriores. Por ejemplo, si pide que "muestre todas las filas de este año", el agente seguirá devolviendo un máximo de 25 filas. A continuación, se pueden responder preguntas de seguimiento en función de este contexto ya limitado, lo que puede afectar al resultado. En tales casos, se recomienda iniciar una nueva sesión de chat.
  • Las respuestas del agente pueden truncarse o bloquearse si las directivas de DLP o de restricción de acceso de Microsoft Purview se aplican a los orígenes de datos subyacentes. El comportamiento específico depende de la configuración de directiva de la organización.
  • Los recursos marcados como confidenciales por las directivas de Purview podrían ser inaccesibles para el agente, lo que puede dar lugar a respuestas incompletas o a una incapacidad para consultar determinados orígenes de datos.
  • Es posible que las interacciones del agente se registren y detecten a través de Microsoft Purview Audit y eDiscovery. Las organizaciones deben tener en cuenta estos controles de gobernanza al implementar agentes para cargas de trabajo confidenciales.
  • El acceso a modelos semánticos de Power BI a través de un agente de datos está sujeto a tener permiso de lectura sobre el modelo y no requiere acceso a nivel de área de trabajo. Row-Level Security (RLS) y Column-Level Security (CLS) todavía se aplican.