Depuración de canalizaciones de Data Factory

Completado

Los requisitos y las expectativas de los clientes en cuanto a la integración de datos están cambiando. Por tanto, la necesidad de los usuarios de desarrollar y depurar sus flujos de trabajo de extracción, transformación y carga de datos (ETL) y de extracción, carga y transformación (ELT) de forma iterativa es cada más imperativa.

Azure Data Factory puede ayudarle a crear y desarrollar canalizaciones de depuración iterativas de Data Factory para desarrollar una solución de integración de datos. Al crear una canalización con el entorno de diseño de canalización, podrá probar sus actividades y canalizaciones mediante la funcionalidad de depuración.

En Azure Data Factory, no es necesario publicar cambios en la canalización ni en las actividades antes de proceder a depurar. Esto resulta útil en un escenario en el que desee probar los cambios y ver si funcionan según lo esperado antes de guardarlos y publicarlos realmente.

A veces, no desea depurar toda la canalización, sino probar solo una parte de ella. Una ejecución en modo de depuración permite hacer exactamente eso. Puede probar la canalización de principio a fin o establecer un punto de interrupción. Si lo hace con el modo de depuración, puede ver de forma interactiva los resultados de cada paso mientras compila y depura la canalización.

Depurar y publicar un flujo de trabajo

A medida que crea o modifica una canalización que se está ejecutando, puede ver los resultados de cada actividad en la pestaña Salida del lienzo de canalización.

Después de que una ejecución de prueba tenga éxito y estés satisfecho con los resultados, puedes agregar más actividades a la canalización y continuar depurando de forma iterativa. Cuando no esté satisfecho o quiera detener la depuración de la canalización, puede cancelar una ejecución de prueba mientras está en curso. Tenga en cuenta que si selecciona el deslizador de depuración, la canalización realmente se ejecutará. Por tanto, si por ejemplo la canalización contiene una actividad de copia, la serie de pruebas copiará los datos del origen al destino.

Un procedimiento recomendado es usar carpetas de prueba en las actividades de copia y otras actividades al depurar, de modo que cuando esté satisfecho con los resultados y haya depurado la canalización, cambie a las carpetas reales para las operaciones normales.

Para depurar la canalización, seleccione Depurar en la barra de herramientas. Verá el estado de ejecución de la canalización en la pestaña Output (Salida) en la parte inferior de la ventana.

Después de que la canalización pueda ejecutarse correctamente, en la barra de herramientas superior, seleccione Publicar todo. Esta acción publica las entidades (conjuntos de datos y canalizaciones) que creó para Data Factory.

Espere a que aparezca el mensaje de publicación exitosa. Para ver los mensajes de notificación, seleccione Mostrar notificaciones (icono de campana) en la parte superior derecha del portal (botón de campana).

Depuración del mapeo de flujo de datos

Durante la construcción de los Flujos de Datos de Mapeo, puede ver de forma interactiva cómo se ejecutan las estructuras y transformaciones de datos para que pueda depurarlas. Para usar esta funcionalidad, primero es necesario activar la función "Depuración de Flujo de Datos".

La sesión de depuración se puede usar tanto en las sesiones de diseño de flujo de datos como durante la ejecución de depuración de canalizaciones de flujos de datos. Una vez encendido el modo de depuración, realmente construirás el flujo de datos con un clúster de Spark activo. El clúster de Spark se cerrará una vez que la depuración esté desactivada. Sí, tiene la opción de elegir qué computación utilizar. Cuando se utiliza un clúster de depuración existente, se reducirá el tiempo de inicio. Sin embargo, para cargas de trabajo complejas o paralelas, podría considerar poner en marcha su propio clúster just-in-time.

Para los flujos de datos de depuración se recomienda mantener el modo de depuración activado y comprobar y validar la lógica de negocios incluida en el flujo de datos. Poder consultar visualmente las transformaciones y formas de datos ayuda a ver los cambios.

Si desea probar el flujo de datos en una canalización que ha creado, es mejor usar el botón Depurar en el panel de canalización. Aunque la vista previa de datos no escribe datos, una ejecución de depuración dentro del flujo de datos escribirá datos en el destino final, como al depurar una canalización.

Configuración de depuración

Como se ha descrito antes, cada sesión de depuración que se inicia desde la interfaz de usuario de Azure Data Factory se considera una sesión nueva con su propio clúster de Spark. Para monitorizar las sesiones, puede usar la vista de monitorización de la sesión de depuración para administrar sus sesiones de depuración según lo ha configurado Data Factory.

Para ver si un clúster de Spark está listo para depurarse, puede comprobar la indicación de estado del clúster en la parte superior de la superficie de diseño. Si es de color verde, está listo. Si el clúster no estaba en ejecución al activar el modo de depuración, el tiempo de espera podría ser de entre 5 y 7 minutos, ya que los clústeres deben ponerse en marcha.

Es una buena práctica que, después de finalizar la depuración, se desactive el modo de depuración para que termine el clúster de Spark.

Durante la depuración, puede editar la vista previa de datos en un flujo de datos si selecciona Configuración de depuración. Algunos ejemplos de cambios en la vista previa de datos podrían ser un límite de filas o un origen de archivo, en caso de que se usen transformaciones de origen. Al seleccionar el servicio vinculado de almacenamiento provisional, puede especificar un almacén de datos compatible como origen de almacenamiento provisional.

Si tiene parámetros en su flujo de datos o en cualquiera de sus conjuntos de datos referenciados, puede especificar qué valores usar durante la depuración seleccionando la pestaña Parámetros. Durante la depuración, los receptores no son necesarios y se ignoran en el flujo de datos. Si quiere probar y escribir los datos transformados en el destino, puede ejecutar el flujo de datos desde una canalización y utilizar la ejecución de depuración de la misma.

Como se ha descrito anteriormente, dentro de Azure Data Factory, solo es posible depurar hasta un punto determinado o una actividad. Para ello, puede usar un punto de interrupción en la actividad, hasta donde quiera probar, y luego seleccionar Depurar. La opción Depurar hasta aparece como un círculo rojo vacío en la esquina superior derecha del elemento. Tras seleccionar la opción Depurar hasta, esta se convierte en un círculo rojo lleno para indicar que el punto de interrupción está habilitado. A continuación, Azure Data Factory se asegurará de que la prueba solo se ejecute hasta el punto de interrupción de la actividad en la canalización. Esta característica es útil si solo quiere probar un subconjunto de las actividades de una canalización.

En la mayoría de los escenarios, las características de depuración de Azure Data Factory son suficientes. Sin embargo, a veces es necesario probar los cambios en una canalización en un entorno de espacio aislado clonado. Un caso de uso para hacerlo es cuando hay canalizaciones ETL con parámetros donde le gustaría probar cómo se comportarían al desencadenar una llegada de archivo frente a una ventana de tiempo deslizante. En este caso, la clonación de un entorno sandbox podría ser más adecuada.

Una de las ventajas de Azure Data Factory es que, como en la mayoría de los casos solo se cobra por el número de ejecuciones, una segunda instancia de Data Factory no tiene por qué suponer cargos adicionales.

Monitorizar las ejecuciones de depuración

Para supervisar las ejecuciones de depuración, puede comprobar la pestaña Salida, pero solo para la ejecución más reciente que se haya producido en la sesión de exploración, ya que no se mostrará el historial. Si quiere ver el historial de las ejecuciones de depuración, o todas las ejecuciones de depuración activas, puede ir a la pestaña Supervisión.

Hay que tener en cuenta que el servicio Azure Data Factory solo guarda el historial de ejecución de depuraciones durante 15 días. Para supervisar las sesiones de depuración de flujos de datos, también tendría que ir a la pestaña Monitor.