Uso del proceso con particiones en Dataflow Gen2 (versión preliminar)

Nota:

El cómputo particionado está actualmente en versión preliminar y solo está disponible en Dataflow Gen2 con CI/CD.

El proceso con particiones es una funcionalidad del motor de Dataflow Gen2 que permite que partes de la lógica del flujo de datos se ejecuten en paralelo, lo que reduce el tiempo para finalizar sus evaluaciones.

Escenarios donde los objetivos de cálculo están particionados en los que el motor de flujo de datos puede integrar eficazmente las operaciones que pueden particionar la fuente de datos y procesar cada partición en paralelo. Por ejemplo, en un escenario en el que se conecta a varios archivos almacenados en un Azure Data Lake Storage Gen2, puede dividir la lista de archivos de su origen, recuperar eficazmente la lista particionada de archivos mediante query folding, utilizar la opción para combinar archivos y procesar todos los archivos en paralelo.

Nota:

Solo los conectores de Azure Data Lake Storage Gen2, Folder y Azure Blob Storage emiten el script correcto para usar el proceso con particiones. Los conectores para SharePoint y Fabric Lakehouse no lo admiten actualmente.

Cómo configurar la computación particionada

Para usar esta funcionalidad, siga estos pasos:

Habilitación de la configuración del flujo de datos

Dentro de la pestaña Inicio de la cinta de opciones, seleccione el botón Opciones para mostrar su cuadro de diálogo. Vaya a la sección Escala y active la configuración que lee Permitir el uso del proceso con particiones.

Captura de pantalla de la configuración de proceso con particiones dentro de la sección Escala del cuadro de diálogo Opciones.

La habilitación de esta opción tiene dos propósitos:

  • Permite que Dataflow use el cómputo particionado si así lo detectan tus scripts de consulta.

  • Experiencias como la función de combinar archivos ahora crearán automáticamente claves de partición que se pueden usar para particiones computadas.

También debe activar la configuración en la sección Privacidad para Permitir la combinación de datos de varios orígenes.

Consulta con clave de partición

Nota:

Para usar cómputo particionado, asegúrese de que la consulta esté configurada para ser preparada.

Después de activar la configuración, puede utilizar la funcionalidad de combinación de archivos para un origen de datos que emplee la vista del sistema de archivos, como Azure Data Lake Storage Gen2. Cuando finalice la experiencia de combinación de archivos, observará que la consulta tiene un paso Agregado personalizado, que tiene un script similar al siguiente:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Este script, y específicamente el withPartitionKey componente, impulsa la lógica sobre cómo el flujo de datos intenta particionar los datos y cómo intenta evaluar las cosas en paralelo.

Puede usar la función Table.PartitionKey en el paso Agregado personalizado. Esta función devuelve la clave de partición de la tabla especificada. Para el caso anterior, es la columna RelativePath. Puede obtener una lista distinta de los valores de esa columna para aprender todas las particiones que se usan durante la ejecución del flujo de datos.

Importante

Es importante que la columna de clave de partición permanezca en la consulta para que se aplique la computación particionada.

Consideraciones y recomendaciones

  • Compute particionado frente a copia rápida: Si el origen de datos no admite el plegado de las transformaciones de los archivos, se recomienda elegir el compute particionado en lugar de la copia rápida.

  • Lakehouse file access: Para conectarse a los archivos de Lakehouse, se recomienda usar el conector Azure Data Lake Storage Gen2 pasando la dirección URL del nodo Files.

  • Mejor rendimiento: Use este método para cargar datos directamente en el almacenamiento provisional como su destino o en un almacén de Fabric.

  • Retención de datos: solo la ejecución más reciente de la partición se almacena en Dataflow Staging Lakehouse y es devuelta por el conector de Dataflow. Considere la posibilidad de usar un destino de datos para conservar los datos de cada partición independiente.

  • Transformaciones de archivos: use el archivo de transformación de muestra de la funcionalidad Combinar archivos para introducir transformaciones que deben producirse en cada archivo.

  • Transformaciones admitidas: el proceso con particiones solo admite un subconjunto de transformaciones. El rendimiento puede variar en función del origen y del conjunto de transformaciones usadas.

  • Facturación: La facturación de la ejecución del flujo de datos se basa en el consumo de unidad de capacidad (CU).