Notas de la versión de Las canalizaciones declarativas de Spark de Lakeflow 2026

En 2026 se publicaron las siguientes características, mejoras y correcciones de errores de Lakeflow Spark Declarative Pipelines.

Nota:

Dado que las actualizaciones de las canalizaciones declarativas de Lakeflow Spark siguen un proceso de actualización continua, las actualizaciones de los canales se implementan en distintas regiones en diferentes momentos. Es posible que su versión, incluidas las versiones de Databricks Runtime, no se actualice hasta una semana o más después de la fecha de lanzamiento inicial. Para buscar la versión actual de Databricks Runtime para una canalización, consulte Información del entorno de ejecución.

Marzo de 2026

Estas características y mejoras en las canalizaciones declarativas de Lakeflow Spark se publicaron entre el 26 de febrero de 2026 y el 31 de marzo de 2026.

Versiones de Databricks Runtime usadas por esta versión

Las siguientes versiones estaban actualizadas desde el 31 de marzo de 2026.

Canal:

  • CURRENT (valor predeterminado): Databricks Runtime 17.3.8
  • VERSIÓN PRELIMINAR: Databricks Runtime 18.1.0

Nuevas características y mejoras

  • Las canalizaciones sin servidor ahora admiten el escalado automático vertical basado en CPU. La característica ajusta dinámicamente los recursos del clúster en función del uso real de la CPU para mejorar la estabilidad de la carga de trabajo.
  • Ahora puede conservar las tablas de Catálogo de Unity al eliminar una canalización, conservando los recursos de datos incluso después de la eliminación de la canalización. Esto proporciona una mayor flexibilidad en la administración de los ciclos de vida de la canalización sin riesgo de pérdida de datos.
  • Ahora puede crear tablas de streaming mediante la nueva sintaxis de flujo, que proporciona una manera más directa y declarativa de definir canalizaciones de datos de streaming. Esto simplifica la creación de canalizaciones y se alinea con los patrones de ingeniería de datos actuales.
  • Los ganchos de canalización ya están disponibles para las canalizaciones activadas por trabajos. Úselos para ejecutar lógica personalizada antes y después de las actualizaciones de canalización en trabajos de Lakeflow. Los enlaces de canalización amplían las funcionalidades de automatización para el procesamiento de datos orquestado.
  • Las canalizaciones ahora conservan las configuraciones de filtro de fila y máscara de columna durante las actualizaciones de la tabla, por lo que las directivas de seguridad del catálogo de Unity permanecen intactas en las actualizaciones de canalización. Esto evita la eliminación accidental de directivas de seguridad durante la evolución del esquema.
  • Los cambios en la aplicación de CDC ahora admiten el modo de realineación de datetime. La característica controla correctamente las conversiones de marca de tiempo entre los sistemas de calendario heredados y modernos. Esto evita incoherencias de datos al procesar datos históricos de fecha y hora a través de flujos de captura de datos modificados.
  • Ahora puede usar instrucciones SQL dentro de foreachBatch las operaciones en canalizaciones de streaming, lo que permite una lógica de procesamiento por lotes más flexible. Esto elimina las limitaciones anteriores que requerían Python o Scala para el control de lotes personalizado.
  • Las canalizaciones ahora admiten referencias adelantadas en el registro del sumidero. Puede definir flujos de datos que hagan referencia a tablas de bajada antes de declararlos. Esto simplifica las definiciones de canalización complejas y quita las restricciones de ordenación.
  • Los flujos agregados una sola vez ahora se validan durante las pruebas en seco, detectando errores de configuración antes de que comience la ejecución del pipeline. Esto mejora la experiencia de desarrollo al revelar problemas tempranamente en el flujo de trabajo de creación de canalizaciones.

Corrección de errores

No se han incluido correcciones de errores importantes en este período de versión. Todos los cambios fueron nuevas características y mejoras.

Febrero de 2026

Estas características y mejoras en las canalizaciones declarativas de Lakeflow Spark se publicaron entre el 14 de enero de 2026 y el 25 de febrero de 2026.

Versiones de Databricks Runtime usadas por esta versión

Las versiones siguientes estaban actualizadas a partir del 25 de febrero de 2026.

Canal:

  • CURRENT (valor predeterminado): Databricks Runtime 17.3
  • VERSIÓN PRELIMINAR: Databricks Runtime 17.3

Nuevas características y mejoras

  • Las canalizaciones ahora admiten la ampliación de tipos para tablas Delta, lo que permite ampliar de forma segura los tipos de datos de columna (por ejemplo, INT a LONG, FLOAT a DOUBLE) sin necesidad de restablecer la canalización completa. Esto permite flujos de trabajo de evolución de esquemas que antes requerían la intervención manual.
  • Ahora puede usar la materialización SCD Type 1 con AUTO CDC, proporcionando un patrón CDC más sencillo que actualice el valor más reciente sin mantener el historial completo de cambios. Esto reduce la sobrecarga de almacenamiento para los casos de uso que no requieren historial completo.
  • Las canalizaciones ahora reutilizan los clústeres existentes al reintentar las actualizaciones con errores, lo que reduce la latencia de reintento y reduce los costos de proceso al eliminar el tiempo de inicio del clúster redundante.
  • La habilitación de optimización predictiva ahora se muestra correctamente en vistas materializadas y tablas de streaming, si se han actualizado en el último mes.
  • Las canalizaciones ahora validan varios flujos juntos, detectando conflictos de configuración y problemas de dependencia entre flujos durante la fase de ejecución en seco antes de que comience la ejecución.
  • Los metadatos modificables ahora se conservan durante las actualizaciones de la canalización de ingesta, lo que permite la compatibilidad completa con comandos "ALTER" en tablas de streaming de ingesta.
  • Errores de Python dentro de las canalizaciones ahora llevan códigos de estado de SQL, lo que mejora el diagnóstico de errores y habilita un mejor control de errores mediante programación en las herramientas posteriores.
  • Las pipelines ahora admiten instancias ARM para computación clásica.

Corrección de errores

  • Los valores de columnas de identidad en tablas de streaming solo anexas ahora se generan correctamente durante la primera ejecución de la actualización.

Enero de 2026

Estas características y mejoras en las canalizaciones declarativas de Lakeflow Spark se publicaron entre el 14 de noviembre de 2025 y el 13 de enero de 2026.

Versiones de Databricks Runtime usadas por esta versión

Las versiones siguientes estaban actualizadas a partir del 13 de enero de 2026.

Canal:

  • CURRENT (valor predeterminado): Databricks Runtime 17.3
  • VERSIÓN PRELIMINAR: Databricks Runtime 17.3

Nuevas características y mejoras

  • Ahora puede almacenar y administrar las expectativas de calidad de los datos directamente en tablas del catálogo de Unity, centralizando las reglas de calidad de los datos con el marco de gobernanza de datos. Esto permite reglas de calidad auditables y controladas por versiones que se pueden compartir entre varias canalizaciones.

  • Las canalizaciones continuas que se ejecutan durante más de 7 días ahora se reinician correctamente con un tiempo de inactividad mínimo y una causa de actualización explícita (INFRASTRUCTURE_MAINTENANCE), en lugar de reiniciar repentinamente cuando es necesario actualizar el proceso subyacente.

  • Las canalizaciones ahora admiten el modo de ejecución en espera, donde varias peticiones de actualización se ponen en una cola y se ejecutan secuencialmente, evitando fallos por conflictos. Esto simplifica las operaciones de las canalizaciones que tienen frecuentes desencadenadores de actualización y elimina la necesidad de una coordinación manual de intentos.

  • Ahora puede materializar varias vistas del tipo 2 de SCD desde un único origen de datos modificado, lo que mejora la eficacia al crear varias vistas históricas de los mismos datos. Esto elimina la necesidad de volver a procesar los datos de origen para cada salida del tipo 2 de SCD.

  • Las planificaciones de las canalizaciones y la configuración ahora se pueden almacenar y leer de las propiedades de las tablas en Unity Catalog, lo que permite la administración centralizada de la configuración mediante la gobernanza de datos. Esto le permite administrar el comportamiento de la canalización junto con las definiciones de datos.

  • MANAGE los permisos ahora se propagan automáticamente a vistas materializadas y tablas de streaming en el Catálogo de Unity, lo que simplifica la administración de permisos para las salidas de canalización. Esto garantiza un control de acceso coherente sin concesiones de permisos manuales.

  • Las operaciones de tipo 2 de SCD ahora unen automáticamente registros duplicados con la misma clave natural, lo que garantiza la coherencia de los datos y evita los registros históricos duplicados en las tablas de dimensiones que cambian lentamente.

  • Las canalizaciones ahora tienen una opción para quitar automáticamente las tablas inactivas que ya no forman parte de la definición de canalización. Esto ayuda a mantener almacenes de datos limpios y reduce los costos de almacenamiento de tablas obsoletas. Consulte Uso del catálogo de Unity con canalizaciones.

  • La definición de canalización, las operaciones de parche y los cambios de identidad de ejecución actualmente se incluyen en el registro de auditoría, lo que proporciona un seguimiento exhaustivo de todas las modificaciones en la configuración para la supervisión del cumplimiento y la seguridad. Consulte Registro de eventos de canalización.

Corrección de errores

No se han incluido correcciones de errores importantes en este período de versión. Todos los cambios fueron nuevas características y mejoras.