Código abierto frente a MLflow administrado en Azure Databricks

Esta página está pensada para ayudar a los usuarios de MLflow de código abierto a familiarizarse con el uso de MLflow en Databricks. MLflow administrado por Databricks usa las mismas API, pero proporciona funcionalidades adicionales a través de integraciones con la plataforma más amplia de Azure Databricks.

Ventajas de MLflow administrado en Azure Databricks

MLflow de código abierto proporciona el modelo de datos principal, la API y el SDK. Esto significa que los datos y las cargas de trabajo siempre son portátiles.

El MLflow administrado en Databricks agrega:

  • Gobernanza y seguridad de nivel empresarial mediante la integración con la plataforma de Databricks, Lakehouse y unity Catalog. Los datos de inteligencia artificial y aprendizaje automático, las herramientas, los agentes, los modelos y otros recursos se pueden gobernar y usar en la misma plataforma que el resto de los datos y cargas de trabajo.
  • Hospedaje totalmente administrado en servidores escalables y listos para producción
  • Integraciones para el desarrollo y la producción con la plataforma más amplia de Mosaic AI

Consulte la página del producto MLflow administrado para obtener más información sobre las ventajas y consulte el resto de esta página para obtener información sobre los detalles técnicos.

Sugerencia

Los datos siempre son suyos : el modelo de datos principal y las API son completamente de código abierto. Puede exportar y usar los datos de MLflow en cualquier lugar.

Funcionalidades adicionales en Databricks

En esta sección se enumeran las funcionalidades importantes habilitadas en MLflow administrado mediante integraciones con la plataforma más amplia de Azure Databricks. Para obtener información general sobre todas las funcionalidades de MLflow para GenAI, consulte MLflow 3 para GenAI y la documentación de GenAI de código abierto.

Gobernanza y seguridad de nivel empresarial

  • Gobernanza empresarial con el catálogo de Unity: los modelos, las tablas de características, los índices vectoriales, las herramientas y mucho más se rigen de forma centralizada en el catálogo de Unity. Al implementar agentes, la autenticación para el agente, los datos y el acceso a herramientas se puede controlar con precisión mediante la autenticación de paso a través y la autenticación en nombre de usuario.
  • Integración de datos de Lakehouse: aproveche los espacios y paneles de AI/BI Genie y Databricks SQL para analizar registros y seguimientos de experimentos de MLflow.
  • Seguridad y administración: los permisos de MLflow siguen los mismos patrones de gobernanza que la plataforma más amplia de Databricks:
  • Auditoría: las tablas del sistema proporcionan registros de uso y auditoría para MLflow administrado.

Hospedaje totalmente administrado en servidores listos para producción

  • Totalmente administrado: Azure Databricks proporciona servidores de MLflow con actualizaciones automáticas, diseñadas para escalabilidad y producción. Para más información, consulte Límites de recursos.
  • Plataforma de confianza: MLflow administrado lo usan miles de clientes de todo el mundo.

Integraciones para desarrollo y producción

El desarrollo de inteligencia artificial y aprendizaje automático se simplifica mediante integraciones como:

La inteligencia artificial y el aprendizaje automático de producción se facilitan mediante integraciones como:

  • Infraestructura como código para CI/CD: administre experimentos, modelos y más de MLflow con paquetes de automatización declarativa y pilas de MLOps.
  • Implementación de modelos mediante CI/CD: los trabajos de implementación de MLflow 3 integran flujos de trabajo de Databricks con Unity Catalog para automatizar la implementación provisional de modelos de ML.
  • Integración de Feature Store: La integración del Almacén de características de Databricks + MLflow proporciona una implementación más sencilla para los modelos de ML que usan tablas de características.
  • Supervisión de producción de GenAI: Databricks proporciona un servicio de supervisión de producción que evalúa continuamente una muestra del tráfico de producción mediante jueces y evaluadores LLM. Esto se basa en la ingesta de trazas a escala de producción que incluye el almacenamiento de trazas en tablas del Catálogo de Unity.

Nota:

La colección de telemetría de código abierto se introdujo en MLflow 3.2.0 y está deshabilitada en Databricks de forma predeterminada. Para más información, consulte la documentación de seguimiento de uso de MLflow.

Pasos siguientes

Introducción a MLflow en Databricks:

Material de referencia relacionado: