Descripción de los componentes clave de los trabajos de Lakeflow
Los trabajos de Lakeflow constan de varios componentes clave que permiten la orquestación y ejecución de tareas de procesamiento de datos de forma eficaz en la nube. Estos son los componentes principales:
Trabajos: los trabajos son el componente principal de los trabajos de Lakeflow. Permiten definir y programar tareas automatizadas, como ejecutar cuadernos, scripts o archivos Java compilados (JAR). Los trabajos se pueden desencadenar de forma programada, o bien ejecutarse manualmente, y se pueden configurar para controlar tanto dependencias como flujos de trabajo complejos.
Tareas: los trabajos de Databricks admiten una amplia variedad de tipos de tareas, incluidos cuadernos, scripts y paquetes, consultas SQL, canalizaciones y tareas de flujo de control. También puede definir dependencias entre tareas para organizar flujos de trabajo complejos y de varios pasos. Las tareas se organizan como un grafo Acíclico dirigido (DAG), que representa visualmente el orden de ejecución y las relaciones de dependencia.
Compute: Azure Databricks ofrece tres opciones de proceso para ejecutar tareas. Proceso sin servidor es el valor predeterminado para los tipos de tareas admitidos: Azure Databricks administra automáticamente la infraestructura, por lo que no es necesario configurar las opciones del clúster. El proceso de trabajos clásicos proporciona control sobre la configuración del clúster (versión de Spark, tipos de instancia, directivas de escalado automático) y se usa cuando se requieren configuraciones o bibliotecas específicas. Los almacenes de SQL ejecutan tareas de consulta SQL y se conectan a un almacenamiento SQL sin servidor o pro existente en el área de trabajo.
Programación y desencadenadores: la programación y los desencadenadores determinan cómo y cuándo se ejecutan los trabajos. Los trabajos se pueden desencadenar manualmente, de forma programada (mediante expresiones Cron) o en respuesta a determinados desencadenadores. Esto proporciona flexibilidad en la forma en que se orquestan los trabajos de Lakeflow.
Cuadernos: los cuadernos de Databricks son documentos colaborativos que contienen código ejecutable, visualizaciones y texto narrativo. Son una unidad común de ejecución en trabajos de Lakeflow y se pueden usar para orquestar transformaciones de datos complejas, visualizaciones y modelos de aprendizaje automático.
Bibliotecas: Las bibliotecas de Databricks contienen paquetes o módulos que pueden usar cuadernos y trabajos. Los módulos pueden incluir paquetes de Python, bibliotecas de Java/Scala o paquetes de R. Las bibliotecas se pueden conectar a clústeres y se puede hacer que estén disponibles para que las tareas las usen durante la ejecución.
Supervisión y registro: Azure Databricks proporciona las herramientas necesarias para supervisar el rendimiento tanto de los trabajos como de los clústeres. Los registros y las métricas se recopilan automáticamente, lo que supone una ayuda a la hora de diagnosticar problemas y optimizar el rendimiento. La integración con Azure Monitor permite realizar una supervisión completa y generar alertas en todo el ecosistema de Azure.
Automation: Databricks ofrece la CLI de Databricks, los SDK de Databricks y la API de REST para crear y administrar trabajos mediante programación, lo que permite la integración con sistemas externos y herramientas de automatización.
Estos componentes funcionan conjuntamente para proporcionar un marco sólido para la administración de flujos de trabajo de datos, lo que permite un procesamiento y una colaboración eficaces en un entorno de nube seguro y escalable.