Uso de canalizaciones de Data Factory

Completado

Para trabajar con canalizaciones de factoría de datos, es fundamental comprender lo que es una canalización en Azure Data Factory.

Una canalización de Azure Data Factory representa una agrupación lógica de actividades donde las actividades juntas realizan una determinada tarea.

Un ejemplo de una combinación de actividades en una canalización puede ser la ingestión y limpieza de datos de registro en combinación con un flujo de datos de mapeo que analiza los datos de registro ya limpiados.

Una canalización permite administrar las actividades individuales independientes como conjunto que, de otro modo, se administrarían de forma individual. Permite implementar y programar las actividades de forma eficaz, mediante el uso de una sola canalización, en lugar de administrar cada actividad de forma independiente.

Las actividades de una canalización se conocen como "acciones" y se realizan en los datos. Una actividad puede tomar cero o más conjuntos de datos de entrada y producir uno o más conjuntos de datos de salida.

Un ejemplo de una acción puede ser el uso de una actividad de copia, donde se copian datos de un Azure SQL Database a un Azure Data Lake Storage Gen2. Para basarse en este ejemplo, puede usar una actividad de flujo de datos o una actividad de cuaderno de Azure Databricks para procesar y transformar los datos que se copiaron en su cuenta de Azure Data Lake Storage Gen2, con el fin de tener los datos listos para soluciones de informes de inteligencia empresarial como Microsoft Fabric.

Debido a que hay muchas actividades posibles en una canalización de Azure Data Factory, las hemos agrupado en tres categorías:

  • Actividades de movimiento de datos: la actividad de copia de Data Factory copia los datos de un almacén de datos de origen a uno receptor.
  • Actividades de transformación de datos: Azure Data Factory admite actividades de transformación, como Data Flow, Azure Functions, Spark y otras que se puedan agregar a las canalizaciones de forma individual o encadenadas a otra actividad.
  • Actividades de control: algunos ejemplos de actividades del flujo de control son la de obtención de metadatos, "for-each" y la de ejecución de canalización.

Las actividades pueden depender unas de otras. Es decir, la dependencia de la actividad define el modo en que las actividades posteriores dependen de las anteriores. La dependencia en sí misma puede basarse en una condición de si se debe continuar o no en la ejecución de actividades definidas previamente para completar una tarea. Una actividad que depende de una o varias actividades anteriores puede tener distintas condiciones de dependencia.

Las cuatro condiciones de dependencia son las siguientes:

  • Correcto
  • Fallido
  • Omitido
  • Completado

Por ejemplo, si una canalización tiene una actividad A seguida de una actividad B, y la actividad B tiene como condición de dependencia que la actividad A tenga el estado 'Exitoso', entonces la actividad B solo se ejecutará si la actividad A tiene el estado 'Exitoso'.

Si tiene varias actividades en una canalización y las actividades posteriores no dependen de las actividades anteriores, las actividades se pueden ejecutar en paralelo.