Guía rápida de programación de trabajos de producción

Este artículo tiene como objetivo proporcionar instrucciones claras y fundamentadas para la programación de trabajos de producción. El uso de procedimientos recomendados puede ayudar a reducir los costos, mejorar el rendimiento y reforzar la seguridad.

Práctica recomendada Impacto Documentación
Uso de computación sin servidor para tareas Costo: los trabajos sin servidor no requieren ninguna configuración de clúster. Azure Databricks administra el aprovisionamiento y el escalado automáticamente.
Uso de trabajos de Lakeflow para la orquestación siempre que sea posible Cost: no es necesario usar herramientas externas para orquestar si solo está orquestando cargas de trabajo en Azure Databricks.
Uso de entidades de servicio en lugar de cuentas de usuario para ejecutar trabajos de producción Seguridad: si los trabajos son propiedad de usuarios individuales, cuando esos usuarios abandonan la organización, estos trabajos pueden dejar de ejecutarse.
Para la computación clásica: utilizar clústeres de trabajos para flujos de trabajo automatizados Costo: los clústeres de trabajos se facturan a tarifas más bajas que los clústeres interactivos.
Para el cálculo clásico: reiniciar clústeres de ejecución prolongada Seguridad: reinicie los clústeres para aprovechar las revisiones y correcciones de errores en Databricks Runtime.
Para el proceso clásico: use la versión más reciente de LTS de Databricks Runtime. Rendimiento y coste: Azure Databricks mejora constantemente el Databricks Runtime para mejorar la facilidad de uso, el rendimiento y la seguridad.
Para el proceso clásico: no almacene datos de producción en la raíz de DBFS Seguridad: cuando los datos se almacenan en la raíz de DBFS, todos los usuarios pueden acceder a ellos.