Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se enumeran las preguntas más frecuentes sobre los conjuntos de automatización declarativos (anteriormente conocidos como Conjuntos de recursos de Databricks).
¿Por qué se cambió el nombre de Databricks Asset Bundles a Paquetes de automatización declarativos?
El nuevo nombre Declarative Automation Bundles refleja con más precisión el uso y las funcionalidades de los conjuntos. Además, el término assets provocó cierta confusión, ya que tiene más de un significado en Databricks. Este cambio de nombre no es disruptivo. El comando bundle de la CLI y toda tu configuración existente no necesitan ser modificados.
¿Cómo uso paquetes de automatización declarativa como parte de mi canalización de CI/CD en Azure Databricks?
Puede usar paquetes de Automatización declarativa para definir y administrar mediante programación los recursos en la implementación de CI/CD de Azure Databricks, que normalmente incluye:
- Cuadernos: los cuadernos de Azure Databricks suelen ser una parte clave de los flujos de trabajo de ingeniería de datos y ciencia de datos. Puede usar el control de versiones para cuadernos y también validarlos y probarlos como parte de un pipeline de CI/CD. Puede ejecutar pruebas automatizadas en cuadernos para comprobar si funcionan según lo previsto.
- Bibliotecas: administre las dependencias de biblioteca necesarias para ejecutar el código implementado. Use el control de versiones en bibliotecas e incluyéndolas en pruebas y validación automatizadas.
- Flujos de trabajo: los trabajos de Lakeflow se componen de trabajos que permiten programar y ejecutar tareas automatizadas mediante cuadernos o trabajos de Spark.
- Canalizaciones de datos: también puede incluir canalizaciones de datos en la automatización de CI/CD, mediante Lakeflow Spark Declarative Pipelines, el marco de trabajo de Databricks para declarar canalizaciones de datos.
- Infraestructura: la configuración de infraestructura incluye definiciones e información de aprovisionamiento para clústeres, áreas de trabajo y almacenamiento para entornos de destino. Los cambios de infraestructura se pueden validar y probar como parte de una canalización de CI/CD, lo que garantiza que son coherentes y libres de errores.
¿Por qué necesito tener entornos de destino de producción y desarrollo independientes?
Los entornos de desarrollo y producton independientes le permiten:
- Aísle los cambios de desarrollo de forma segura para que no afecten accidentalmente a la producción.
- Evite la duplicación de código personalizando los recursos para aplicarlos a un entorno de destino específico.
- Optimice y simplifique CI/CD con configuración específica del entorno, como rutas de acceso a la base de datos, alertas y controles de acceso.
- Reutilización de flujos de trabajo en equipos y entornos.
Use objetivos para definir entornos de implementación de paquetes. Consulte destinos.
¿Cómo puedo hacer que mis agrupaciones sean coherentes en toda mi organización?
Use plantillas de agrupación para una estructura coherente, para reducir los errores de configuración y promover los procedimientos recomendados. Puede usar plantillas de agrupación predeterminadas o puede crear sus propias plantillas de agrupación personalizadas. Consulte las plantillas de proyectos de paquetes de automatización declarativa.
Hay una gran cantidad de repetición en mis agrupaciones, como las mismas definiciones de clúster. ¿Cuál es la mejor manera de manejar esto?
Las variables personalizadas son la mejor manera de controlar las repeticiones, así como la configuración específica del contexto. Consulte Variables personalizadas.
¿Cuáles son algunos procedimientos recomendados al usar agrupaciones en mi flujo de implementación?
Databricks recomienda:
- Cambie de implementaciones manuales a automatización confiable mediante flujos de trabajo integrados de Git.
- Valide antes de implementar un paquete mediante
databricks bundle validateen la tubería CI/CD. - Separe los pasos de implementación para asegurarse de que los cambios se revisen y sean intencionales.
- Parametrizar entornos (desarrollo, pruebas, producción) con anulaciones para aislar los cambios.
- Ejecute pruebas de integración posteriores a la implementación para detectar problemas al principio.
- Utilice Acciones de GitHub, Azure DevOps o GitLab CI para desencadenar implementaciones en la confirmación o combinación de PR.
- Realice un seguimiento de lo que se ha desplegado, dónde y cuándo, asegurando que cada despliegue se vincule a un commit y a una versión de paquete.
¿Puedo migrar trabajos, canalizaciones, paneles y otros objetos de Databricks existentes a mi paquete?
Sí. Use el databricks bundle generate comando para generar un archivo de configuración para un trabajo, canalización o panel existente en la agrupación local y, a continuación, use databricks bundle deployment bind para enlazar el recurso de agrupación al recurso correspondiente en el área de trabajo. Esto es ideal para incorporar flujos de trabajo existentes en desarrollo estructurado y con versiones. El enlace también resuelve las rutas de acceso relativas a las referencias absolutas del espacio de trabajo, lo que evita errores de ruta de acceso.
Ver Migrar recursos existentes a un paquete.
¿Cómo puedo probar mi paquete de forma iterativa?
Puede desarrollar más rápido con implementaciones iterativas y ejecuciones:
- Validación antes de la implementación
- Desplegar incrementalmente
- Ejecutar solo lo que se necesita
- Editar y repetir
Esto acelera las pruebas y la depuración, reduce el cambio de contexto, permite una iteración más segura y rápida sin reimplementaciones completas y fomenta la disciplina a medida que avanza hacia la producción.