Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo tiene como objetivo proporcionar instrucciones claras y fundamentadas para la programación de trabajos de producción. El uso de procedimientos recomendados puede ayudar a reducir los costos, mejorar el rendimiento y reforzar la seguridad.
| Práctica recomendada | Impacto | Documentación |
|---|---|---|
| Uso de computación sin servidor para tareas | Costo: los trabajos sin servidor no requieren ninguna configuración de clúster. Azure Databricks administra el aprovisionamiento y el escalado automáticamente. | |
| Uso de trabajos de Lakeflow para la orquestación siempre que sea posible | Cost: no es necesario usar herramientas externas para orquestar si solo está orquestando cargas de trabajo en Azure Databricks. | |
| Uso de entidades de servicio en lugar de cuentas de usuario para ejecutar trabajos de producción | Seguridad: si los trabajos son propiedad de usuarios individuales, cuando esos usuarios abandonan la organización, estos trabajos pueden dejar de ejecutarse. | |
| Para la computación clásica: utilizar clústeres de trabajos para flujos de trabajo automatizados | Costo: los clústeres de trabajos se facturan a tarifas más bajas que los clústeres interactivos. | |
| Para el cálculo clásico: reiniciar clústeres de ejecución prolongada | Seguridad: reinicie los clústeres para aprovechar las revisiones y correcciones de errores en Databricks Runtime. | |
| Para el proceso clásico: use la versión más reciente de LTS de Databricks Runtime. | Rendimiento y coste: Azure Databricks mejora constantemente el Databricks Runtime para mejorar la facilidad de uso, el rendimiento y la seguridad. | |
| Para el proceso clásico: no almacene datos de producción en la raíz de DBFS | Seguridad: cuando los datos se almacenan en la raíz de DBFS, todos los usuarios pueden acceder a ellos. |