Procedimientos recomendados para obtener el mejor rendimiento con Dataflow Gen2

En este artículo se proporcionan procedimientos recomendados para optimizar el rendimiento de Dataflow Gen2 en Fabric Data Factory. Siguiendo estas instrucciones, puede mejorar la eficacia y la velocidad de los procesos de integración de datos.

Temas que se abordarán

En este artículo, descubrirá lo siguiente:

  • Áreas clave de optimización del rendimiento: descripción de los tres componentes críticos (origen de datos, motor de flujo de datos y destino de datos) que afectan al rendimiento del flujo de datos.
  • Técnicas fundamentales de optimización: Cómo aprovechar la copia rápida, el plegado de consultas y el almacenamiento provisional para maximizar la eficiencia
  • Escenarios reales: desafíos comunes de rendimiento y sus soluciones específicas
  • Procedimientos recomendados: guía procesable para diferentes patrones de integración de datos y casos de uso

¿Cuáles son las áreas clave en las que centrarse en la optimización del rendimiento?

Dentro de la experiencia de un extremo a otro del flujo de datos, hay varias áreas clave en las que centrarse en la optimización del rendimiento. Estas áreas incluyen el movimiento de datos, el motor de flujo de datos y las transformaciones de datos. Cada uno de estos componentes y las rutas de acceso entre desempeñan un papel fundamental en el rendimiento general del flujo de datos y optimizarlos puede dar lugar a mejoras significativas en el tiempo de ejecución y el uso de recursos.

Diagrama de la introducción al back-end de Dataflow Gen2.

Movimiento de datos

El movimiento de datos es un aspecto crítico del rendimiento del flujo de datos. Implica la transferencia de datos entre varios componentes, como orígenes de datos, áreas de ensayo y destinos finales. El movimiento de datos eficaz puede reducir significativamente el tiempo de ejecución y el consumo de recursos. En Dataflow Gen2, el movimiento de datos se optimiza a través de técnicas como Fast Copy, lo que permite la transferencia de datos de alto rendimiento sin la sobrecarga de transformaciones que no se ajustan al sistema de origen. Obtenga más información sobre la copia rápida.

Transformación de datos

La transformación de datos es el proceso de conversión de datos de una estructura a otra, que suele implicar operaciones como el filtrado, la agregación y la unión. En Dataflow Gen2, las transformaciones están diseñadas para ser eficaces y aplicar funcionalidades de plegado de consultas siempre que sea posible. El plegado de consultas permite que las transformaciones se deleguen al sistema de origen, lo que reduce la cantidad de datos transferidos y procesados en Dataflow Gen2. Esta reducción es especialmente importante para grandes conjuntos de datos, ya que minimiza la carga de trabajo en el motor de flujo de datos y acelera el tiempo de ejecución. Para obtener más información sobre el plegado de consultas, vaya a Plegado de consultas. Siga también otros procedimientos recomendados para la optimización de consultas, como el filtrado temprano y a menudo, el uso de parametrización para limitar las vistas previas de datos y evitar transformaciones innecesarias en el flujo de datos. Para más información sobre la optimización de consultas, vaya a Optimización de consultas.

Almacenamiento provisional de datos y proceso de almacenamiento

Los datos de almacenamiento provisional son una técnica que se usa para mejorar el rendimiento mediante el almacenamiento temporal de resultados intermedios en un área de almacenamiento provisional. Dataflow Gen2 incluye una instancia de Staging Lakehouse y un almacenamiento provisional, que se puede usar para realizar transformaciones de forma más eficaz. Mediante los datos de almacenamiento provisional, puede usar los recursos de proceso de estas áreas de almacenamiento provisional para dividir flujos de datos complejos en pasos administrables, lo que reduce el tiempo de procesamiento general. Esta interrupción es especialmente útil para grandes conjuntos de datos o transformaciones complejas que, de lo contrario, tardarían mucho tiempo en ejecutarse en un solo paso. Puede considerar las ubicaciones de almacenamiento provisional como un área de almacenamiento temporal que le permite plegar las transformaciones. Este enfoque es especialmente beneficioso cuando se trabaja con orígenes de datos que no admiten el plegado de consultas o cuando las transformaciones son demasiado complejas para insertarse en el sistema de origen. Para aplicar la fase intermedia de forma eficaz, puede vigilar los indicadores de plegado en el editor de flujo de datos para asegurarse de que las transformaciones se aplican en el origen. Si observa que una transformación no se plega, considere la posibilidad de dividir la consulta en dos consultas y aplicar la transformación en la segunda consulta. Habilite el almacenamiento provisional en la primera consulta para realizar la transformación en el proceso de staging Lakehouse o Warehouse. Este enfoque le permite aprovechar las ventajas de los recursos de proceso disponibles en las áreas de almacenamiento provisional, a la vez que garantiza que el flujo de datos siga siendo eficaz y con capacidad de respuesta.

Captura de pantalla que muestra cómo habilitar el almacenamiento provisional en Dataflow Gen2.

Cuando tenga datos que ya están almacenados provisionalmente en Lakehouse o Warehouse y aplique más transformaciones que se doblan completamente en las consultas siguientes, el flujo de datos escribirá la salida en el almacenamiento provisional. Esto puede ser más rápido que escribir en el entorno de Staging Lakehouse, ya que el conjunto de datos se puede escribir en paralelo por medio de un Data Warehouse (DW) y se somete a menos saltos de red con sus pasos de serialización correspondientes.

Escenarios y qué optimizaciones se deben tener en cuenta

Al trabajar con Dataflow Gen2, es esencial comprender los distintos escenarios que podría encontrar y cómo optimizar el rendimiento en cada caso. Las siguientes consideraciones proporcionan instrucciones prácticas sobre cómo aplicar los procedimientos recomendados a situaciones reales. Al adaptar el enfoque en función de las características específicas de los datos y las transformaciones, puede lograr un rendimiento óptimo en los flujos de trabajo de integración de datos. Estos son algunos escenarios comunes que puede encontrar al trabajar con Dataflow Gen2, junto con acciones recomendadas para optimizar el rendimiento. Tenga en cuenta que la optimización del rendimiento es un proceso continuo y muy específico de su escenario. Es posible que tenga que ajustar el enfoque en función de las características específicas de sus propios datos y transformaciones.

Consideración 1: Mejora del movimiento de datos con copia rápida

En este escenario, observará que el movimiento de datos entre el origen de datos y el área de almacenamiento provisional o el destino final tarda más de lo esperado. Puede haber varios factores, como la latencia de red, los tamaños de conjunto de datos grandes o los métodos de transferencia de datos ineficaces.

En este caso, considere la posibilidad de evaluar la ruta de movimiento de datos y optimizarla para mejorar el rendimiento. Un enfoque consiste en usar la copia rápida para la transferencia de datos de alto rendimiento, lo que puede reducir significativamente el tiempo de ejecución. Fast Copy está diseñado para controlar grandes volúmenes de datos de forma eficaz, lo que minimiza la sobrecarga asociada a los métodos tradicionales de transferencia de datos. Sin embargo, tenga cuidado: si agrega transformaciones en la misma consulta que una operación de copia rápida, puede desactivar la copia rápida si las transformaciones no se integran al sistema de origen. En tales casos, considere la posibilidad de separar la consulta en dos pasos: uno para la operación de copia rápida y otro para las transformaciones usando el entorno de preparación de Lakehouse o la capacidad de cómputo de Warehouse. Este enfoque permite aprovechar las ventajas de la copia rápida para el movimiento de datos de alto rendimiento mientras realiza las transformaciones necesarias en un paso independiente. Obtenga más información sobre la copia rápida.

Captura de pantalla del cuadro de diálogo Opciones que muestra la ubicación para habilitar la copia rápida en Dataflow Gen2.

Puede habilitar Fast Copy en la configuración del flujo de datos. Esta configuración está habilitada de forma predeterminada, pero también puede requerir que se use copia rápida para una consulta específica en el flujo de datos. Para ello, seleccione la opción Requerir copia rápida en la configuración de la consulta. Esta acción garantiza que la copia rápida se use para la consulta seleccionada y que omita el umbral de tamaño mínimo para copia rápida. Esta configuración es especialmente útil cuando desea asegurarse de que la copia rápida se usa para consultas específicas, independientemente del tamaño de los datos u otras condiciones. Si necesita copia rápida, asegúrese de que el origen de datos sea compatible con Fast Copy y de que las transformaciones de la consulta se puedan insertar en el sistema de origen. Si necesita copia rápida en una consulta que no sea compatible con Fast Copy, se producirá un error en el flujo de datos. Si no requiere Fast Copy, el flujo de datos todavía se ejecutará, pero puede utilizar el método de movimiento de datos predeterminado, que podría no ser tan eficiente como Fast Copy. Esta flexibilidad le permite optimizar el flujo de datos en función de los requisitos específicos de los procesos de integración de datos.

Captura de pantalla que muestra la ubicación de la opción Requerir copia rápida para Dataflow Gen2.

Consideración 2: Mejora del tiempo de ejecución para transformaciones complejas mediante el almacenamiento provisional

En este escenario, tiene un flujo de datos con varias transformaciones complejas, como combinaciones, agregaciones y filtrado. El tiempo de ejecución es mayor que el deseado y desea optimizar el rendimiento de estas transformaciones.

En este caso, considere la posibilidad de dividir el flujo de datos en pasos más pequeños y fáciles de administrar. En lugar de realizar todas las transformaciones en una sola consulta, puede almacenar provisionalmente los datos en una instancia de Staging Lakehouse o Warehouse y, a continuación, aplicar las transformaciones en consultas posteriores. Este enfoque permite aplicar los recursos de proceso del área de ensayo para transformaciones complejas, lo que reduce el tiempo de ejecución general. Además, asegúrese de que las transformaciones están diseñadas para plegarse al sistema de origen siempre que sea posible, ya que esto puede mejorar significativamente el rendimiento al reducir la cantidad de datos transferidos y procesados en Dataflow Gen2. Si observa que ciertas transformaciones no se doblan, considere la posibilidad de dividirlas en consultas independientes y aplicarlas después de almacenar provisionalmente los datos.

En la imagen siguiente, observe cómo los indicadores de plegado en el editor de flujo de datos pueden ayudarle a identificar qué transformaciones se trasladan al sistema de origen.

Captura de pantalla que resalta los indicadores de plegado en el panel Pasos aplicados.

Para implementar el almacenamiento provisional de forma eficaz, puede dividir el flujo de datos en dos consultas. Para ello, haga clic con el botón derecho en el primer paso que no se plega al sistema de origen y seleccione la opción Extraer anterior . Esta acción crea una nueva consulta que almacena provisionalmente los datos en el proceso de almacenamiento provisional de Lakehouse o Warehouse, lo que le permite realizar la transformación en un paso independiente. Este enfoque le ayuda a aprovechar los recursos de proceso disponibles en las áreas de almacenamiento provisional, a la vez que garantiza que el flujo de datos siga siendo eficaz y con capacidad de respuesta.

Captura de pantalla del menú contextual del paso con la opción Extraer anterior resaltada.

A continuación, proporcione un nombre para la nueva consulta y seleccione "Aceptar".

Captura de pantalla del cuadro de diálogo Extraer pasos con el nuevo nombre insertado.

Ahora con la nueva consulta creada, puede comprobar si el almacenamiento provisional está habilitado para la primera consulta. Si el almacenamiento provisional no está habilitado, puede habilitarlo seleccionando la opción Habilitar almacenamiento provisional en la configuración de consulta. Esta acción le permite realizar transformaciones en el proceso de almacenamiento provisional de Lakehouse o Warehouse, optimizando el rendimiento del flujo de datos. El almacenamiento provisional de la segunda consulta es opcional, pero puede mejorar aún más el rendimiento al permitirle realizar transformaciones adicionales en el área de almacenamiento provisional antes de escribir la salida final en el destino.

Captura de pantalla del menú contextual de consulta con las opciones Habilitar almacenamiento provisional y Copia rápida resaltadas.

Si ahora observa los indicadores de plegado en el editor de flujo de datos, las transformaciones de la primera consulta se transfieren al sistema de origen. La segunda consulta podría no reflejar los mismos indicadores de plegado, ya que solo es consciente del área de ensayo y de las transformaciones que se pueden aplicar al área de ensayo durante el tiempo de ejecución.

Captura de pantalla del panel Pasos aplicados con los indicadores de plegado resaltados y todos configurados en verde.

Para obtener más información sobre cómo optimizar las transformaciones del flujo de datos y asegurarse de que se delegan al sistema de origen, consulte Plegado de consultas.

Consideración 3: Impacto en el almacenamiento provisional en el movimiento de datos al usar Lakehouse como destino

En este escenario, está utilizando un destino de Lakehouse para su flujo de datos y ha habilitado el almacenamiento provisional para realizar transformaciones antes de escribir el resultado final. Sin embargo, observa que el tiempo de actualización general es mayor que el esperado y desea optimizar el rendimiento de este proceso.

En este caso, el traslado de datos desde el almacén provisional hasta el destino Lakehouse puede convertirse en un cuello de botella. Para mejorar el rendimiento, considere cambiar el destino a un almacén en lugar de a un Lakehouse. Este cambio permite usar los recursos de computación del almacén provisional para las transformaciones y escribir el resultado final directamente en el destino del almacén. La ruta de desplazamiento de datos se vuelve más eficiente, ya que evita la sobrecarga adicional de escribir en un Lakehouse. Si es necesario un destino de Lakehouse, considere la posibilidad de deshabilitar el almacenamiento provisional de la consulta que escribe en Lakehouse. Esta acción le permite escribir la salida final directamente en Lakehouse sin la sobrecarga adicional del almacenamiento provisional, lo que puede mejorar significativamente el rendimiento. Sin embargo, tenga en cuenta que deshabilitar el almacenamiento provisional significa que no podrá realizar transformaciones en el área de almacenamiento provisional, por lo que debe asegurarse de que las transformaciones están diseñadas para plegarse al sistema de origen siempre que sea posible. En este escenario se resalta la importancia de comprender la ruta de desplazamiento de datos y optimizarla para mejorar el rendimiento. Observe la diferencia en el tiempo de ejecución cuando se usa un destino de almacenamiento en comparación con un destino de Lakehouse con almacenamiento provisional deshabilitado. Al considerar cuidadosamente las opciones de destino y almacenamiento provisional, puede mejorar la eficacia del flujo de datos y reducir el tiempo de actualización general.

Consideración 4: Vistas previas de datos grandes durante el tiempo de diseño

En este escenario, estás trabajando en un flujo de datos con grandes conjuntos de datos y la experiencia al diseñar es lenta debido al tamaño de las previsualizaciones de datos. Este proceso puede dificultar la creación y prueba eficaz del flujo de datos.

En este caso, considere la posibilidad de usar la vista de esquema o la parametrización para limitar el tamaño de las vistas previas de datos. Al aplicar filtros basados en parámetros, como un intervalo de fechas o identificadores específicos, puede reducir la cantidad de datos que se muestran en el entorno en tiempo de diseño. Este enfoque ayuda a mantener el entorno de diseño con capacidad de respuesta y eficacia, lo que le permite centrarse en la creación y prueba del flujo de datos sin que las vistas previas de datos de gran tamaño las impidan. Además, puede ajustar los parámetros durante el tiempo de ejecución para recuperar el conjunto de datos completo cuando sea necesario.

Por ejemplo, si está trabajando con un conjunto de datos transaccional grande, puede crear un parámetro que filtre los datos en función de un intervalo de fechas específico. De este modo, durante el tiempo de diseño, solo verá un subconjunto de los datos que son relevantes para el trabajo actual. Cuando esté listo para ejecutar el flujo de datos, puede ajustar el parámetro para incluir el conjunto de datos completo, lo que garantiza que los procesos de integración de datos sigan siendo eficaces y dinámicos. En el ejemplo siguiente se muestra cómo configurar un parámetro en Dataflow Gen2:

  1. Seleccione la opción Administrar parámetros en el editor de flujo de datos.

  2. Seleccione el botón Agregar parámetro para agregar un nuevo parámetro.

    Captura de pantalla del editor de flujo de datos con la selección Administrar parámetros y la opción Nuevo parámetro resaltada.

  3. Rellene los detalles del parámetro, como el nombre, el tipo y el valor. Por ejemplo, puede crear un parámetro denominado DesignDateFilter de tipo DateTime con un valor predeterminado que limite la vista previa de datos a un intervalo de fechas específico.

    Captura de pantalla del cuadro de diálogo Administrar parámetros con la configuración nombre, tipo y valor actual resaltada.

  4. Aplique el parámetro en las consultas de flujo de datos usándolo en las condiciones de filtro. Por ejemplo, puede filtrar los datos en función del parámetro DesignDateFilter para limitar la vista previa de datos a un intervalo de fechas específico. En este caso, filtramos los datos para incluir solo los registros en los que la columna "Date" es mayor que el parámetro DesignDateFilter .

    Captura de pantalla del menú Filtro de columna fecha con el nuevo filtro aplicado a la columna.

  5. Ahora puede usar el parámetro DesignDateFilter en las consultas de flujo de datos para limitar la vista previa de datos durante el tiempo de diseño. Cuando esté listo para ejecutar el flujo de datos, puede ajustar el valor del parámetro para incluir el conjunto de datos completo, lo que garantiza que los procesos de integración de datos sigan siendo eficaces y respondan.

    Captura de pantalla del cuadro de diálogo Filtrar filas con DesignDateFilter como parámetro usado como filtro.

Otra opción es usar la vista de esquema, que permite ver la estructura de los datos sin cargar todo el conjunto de datos. Esta vista proporciona información general de alto nivel de los tipos de datos y columnas del conjunto de datos, lo que le permite diseñar y probar el flujo de datos sin verse afectado por vistas previas de datos de gran tamaño. Para cambiar a la vista de esquema, seleccione la opción Vista esquema en el editor de flujos de datos. Captura de pantalla del editor de flujos de datos con la opción Vista esquema resaltada.

Consideración 5: Características del entorno de ejecución de Dataflow Gen2 en comparación con Dataflow Gen1

En este escenario, observará que el rendimiento de Dataflow Gen2 es más lento que el de Dataflow Gen1, especialmente en términos de tiempo de ejecución y uso de recursos. Esta diferencia de rendimiento puede deberse a varios factores, incluidas las diferencias en las técnicas de optimización y los formatos de salida usados en Dataflow Gen2.

Dataflow Gen2 emite datos en formato Delta Parquet al usar destinos de almacenamiento provisional o Lakehouse, que es diferente de la salida CSV de Dataflow Gen1. Aunque Delta Parquet puede dar lugar a tiempos de ejecución de ETL más largos en comparación con CSV, permite funcionalidades de bajada eficaces como Direct Lake, Lakehouses y Warehouses, lo que permite a estos servicios consumir datos de forma eficaz sin procesamiento ni costo adicionales. Esta diferencia en el método de almacenamiento significa que, aunque el tiempo de ejecución inicial puede ser mayor, el rendimiento general y la eficacia de los procesos de bajada se pueden mejorar significativamente y pueden dar lugar a un mejor rendimiento a largo plazo de los flujos de trabajo de integración de datos. Obtenga más información sobre el formato Delta Parquet.

Consideración 6: Optimización del tiempo de actualización para grandes conjuntos de datos transaccionales mediante la actualización incremental

En este escenario, está tratando con un gran conjunto de datos transaccional que se actualiza con frecuencia y quiere optimizar el tiempo de actualización del flujo de datos. Esta optimización puede ser difícil debido al volumen de datos y a la necesidad de procesar solo los registros nuevos o modificados.

En este caso, considere la posibilidad de usar la actualización incremental o el patrón para amasar datos de forma incremental. La actualización incremental permite procesar solo los datos nuevos o modificados desde la última actualización, lo que reduce la cantidad de datos procesados y acelera el tiempo de ejecución general. Este enfoque es especialmente útil para escenarios en los que los datos se actualizan con frecuencia, como en sistemas transaccionales. Al implementar la actualización incremental, puede optimizar el rendimiento del flujo de datos y asegurarse de que los procesos de integración de datos sigan siendo eficaces y dinámicos. Obtenga más información sobre la actualización incremental o obtenga información sobre el patrón de datos de amasamiento incremental.

Consideración 7: Uso una puerta de enlace para conectarse al origen de datos local y quiero optimizar el rendimiento de mi flujo de datos

En este escenario, usted usa una puerta de enlace para conectar al origen de datos local y quiere optimizar el rendimiento del flujo de datos. Las puertas de enlace pueden introducir latencia y sobrecarga adicionales, lo que puede afectar al rendimiento general del flujo de datos.

En este caso, considere la posibilidad de dividir el flujo de datos en dos flujos de datos independientes: uno para el movimiento de datos desde el origen de datos local a un destino de datos (como lakehouse o warehouse) y otro para las transformaciones y la salida final. Este enfoque le permite optimizar el paso de movimiento de datos aprovechando la copia rápida para la transferencia de datos de alto rendimiento, a la vez que mantiene el paso de transformación centrado en procesar los datos de forma eficaz y reducir el tiempo de ejecución general. Al separar los pasos de movimiento y transformación de datos, puede reducir el impacto de las limitaciones de latencia y capacidad de la puerta de enlace. La razón de esto es que la puerta de enlace ejecuta todo el flujo de datos y, si el flujo de datos es complejo o tiene muchas transformaciones, puede provocar un rendimiento más lento, ya que la puerta de enlace procesa todas las transformaciones del equipo que hospeda la puerta de enlace. Al dividir el flujo de datos, puede asegurarse de que la puerta de enlace solo es responsable del paso de movimiento de datos, lo que puede mejorar significativamente el rendimiento y reducir el tiempo de ejecución.

Consideración 8: Uso los conectores de flujo de datos para consumir datos del flujo de datos y quiero optimizar mis procesos de integración de datos

En este escenario, usas conectores de flujo de datos para extraer información de tu dataflow y optimizar los procesos de integración de datos. Los conectores de flujo de datos pueden proporcionar una manera cómoda de acceder a los datos y consumirlos.

En este caso, considere la posibilidad de usar destinos de datos en lugar de conectores de flujo de datos para consumir datos del flujo de datos. Los destinos de datos, como Lakehouses y Warehouses, están diseñados para almacenar y servir datos de forma eficaz, lo que le permite aplicar sus funcionalidades para el consumo descendente. Una ventaja importante del uso de destinos de datos es que a menudo sirven formas más genéricas de conectarse a datos, como el punto de conexión de SQL o usar las funcionalidades de Direct Lake, lo que puede mejorar significativamente el rendimiento y reducir el consumo de recursos.

Consideración 9: Habilitar el evaluador moderno para mejorar el rendimiento de la ejecución de consultas

En este escenario, desea mejorar el rendimiento general del flujo de datos, especialmente al abordar transformaciones complejas o cuando se trabaja con conectores que no admiten el plegado de consultas.

En este caso, considere la posibilidad de habilitar el motor de evaluación de consultas modernas (evaluador moderno) para el flujo de datos Gen2 con CI/CD. El evaluador moderno es un nuevo motor de ejecución de consultas que se ejecuta en .NET Core 8 que puede mejorar significativamente el rendimiento de las ejecuciones de flujo de datos. Se recomienda habilitar siempre esta característica para escenarios admitidos, ya que proporciona varias ventajas clave:

  • Ejecución más rápida del flujo de datos: el motor moderno puede reducir considerablemente el tiempo de evaluación de consultas. Muchos flujos de datos se ejecutan notablemente más rápido, lo que le permite actualizar los datos con más frecuencia o cumplir las ventanas de actualización ajustadas.
  • Procesamiento más eficaz: el motor está optimizado para mejorar la eficacia, mediante algoritmos mejorados y un entorno de ejecución moderno. Esto significa que puede controlar transformaciones complejas con menos sobrecarga, lo que ayuda a mantener el rendimiento a medida que crece el volumen de datos.
  • Escalabilidad y confiabilidad: al acelerar la ejecución y reducir los cuellos de botella, el evaluador moderno ayuda a escalar los flujos de datos a volúmenes más grandes con mayor estabilidad. Puede esperar duraciones de actualización más coherentes y menos problemas de tiempo de espera en flujos de datos grandes.

El evaluador moderno es especialmente beneficioso cuando:

  • Está trabajando con conectores no plegables o parcialmente plegables
  • Está aplicando filtros, derivaciones de columnas o operaciones de limpieza de datos
  • Está gestionando grandes volúmenes de datos o transformaciones complejas.
  • Los flujos de datos se ejecutan varias veces al día y es necesario lograr ahorros de tiempo.

Para habilitar el evaluador moderno:

  1. Abra el flujo de datos en el editor de Power Query.
  2. Seleccione Opciones en el menú.
  3. Vaya a la pestaña Escala .
  4. Active la opción Motor de evaluación de consultas moderna .
  5. Guarde y ejecute el flujo de datos.

Captura de pantalla del cuadro de diálogo de opciones que muestra la configuración del evaluador de consultas moderna.

El evaluador moderno admite una lista creciente de conectores. Para obtener la lista completa de conectores admitidos y el estado actual de las características, consulte Evaluador moderno para Dataflow Gen2 con CI/CD. Si el flujo de datos usa conectores que no están en la lista admitida, esas consultas continúan ejecutándose con el motor estándar.

Para más información sobre el evaluador moderno, consulte Evaluador moderno para Dataflow Gen2 con CI/CD.

Conclusion

Siguiendo estos procedimientos recomendados y teniendo en cuenta las características específicas de los datos y las transformaciones, puede optimizar el rendimiento de Dataflow Gen2 en Fabric Data Factory. Independientemente de si trabaja con grandes conjuntos de datos, transformaciones complejas o patrones de integración de datos específicos, estas directrices proporcionan información útil para mejorar la eficacia y la velocidad de los procesos de integración de datos. Recuerde que la optimización del rendimiento es un proceso continuo y es posible que tenga que ajustar el enfoque en función de las necesidades cambiantes de los flujos de trabajo de integración de datos. Al supervisar y optimizar continuamente los flujos de datos, puede asegurarse de que siguen siendo eficientes y respondiendo a sus requisitos empresariales.