Usar computação particionada no Dataflow Gen2 (versão prévia)

Observação

A computação particionada está atualmente em versão prévia e só está disponível no Dataflow Gen2 com CI/CD.

A computação particionada é uma funcionalidade do mecanismo de fluxo de dados Gen2 que permite que partes da lógica de fluxo de dados sejam executadas em paralelo, reduzindo o tempo para concluir suas avaliações.

A computação particionada direciona cenários em que o mecanismo de fluxo de dados pode dobrar com eficiência operações que podem particionar a fonte de dados e processar cada partição em paralelo. Por exemplo, em um cenário em que você está se conectando a vários arquivos armazenados em um Azure Data Lake Storage Gen2, você pode particionar a lista de arquivos de sua origem, recuperar com eficiência a lista particionada de arquivos usando dobramento de consultas, usar a funcionalidade de combinação de arquivos e processar todos os arquivos em paralelo.

Observação

Somente conectores para Azure Data Lake Storage Gen2, Pasta e Azure Blob Storage emitem o script correto para usar a computação particionada. Os conectores para SharePoint e Fabric Lakehouse não dão suporte a ele hoje.

Como definir a computação particionada

Para usar essa funcionalidade, siga estas etapas:

Habilitar configurações de fluxo de dados
Consulta com chaves de partição

Habilitar configurações de fluxo de dados

Dentro da guia Página Inicial da faixa de opções, selecione o botão Opções para mostrar sua caixa de diálogo. Vá para a seção Escala e ative a configuração que lê Permitir uso da computação particionada.

Captura de tela da configuração de computação particionada dentro da seção Escala da caixa de diálogo Opções.

Habilitar essa opção tem duas finalidades:

Permite que o Dataflow use computação particionada se for descoberta por meio dos seus scripts de consulta
Experiências como os arquivos de combinação agora criarão automaticamente chaves de partição que podem ser usadas para computados particionados

Você também precisa ativar a configuração na seção Privacidade para Permitir a combinação de dados de várias fontes.

Consulta com chave de partição

Observação

Para usar a computação particionada, verifique se a consulta está definida para ser estagiada.

Depois de ativar a configuração, você pode usar a funcionalidade de combinar arquivos para uma fonte de dados que utiliza a visão do sistema de arquivos, como o Azure Data Lake Storage Gen2. Quando a experiência de combinação de arquivos for finalizada, você observará que sua consulta tem uma etapa personalizada adicionada , que tem um script semelhante a este:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Esse script e, especificamente, o componente withPartitionKey, executa a lógica de como o Dataflow tenta particionar os seus dados e avaliar os elementos em paralelo.

Você pode usar a função Table.PartitionKey na etapa Adicionada personalizada. Essa função retorna a chave de partição da tabela especificada. Para o caso acima, é a coluna RelativePath. Você pode obter uma lista distinta dos valores nessa coluna para aprender todas as partições usadas durante a execução do fluxo de dados.

Importante

É importante que a coluna de chave de partição permaneça na consulta para que a computação particionada seja aplicada.

Considerações e recomendações

Computação particionada versus cópia rápida: se a fonte de dados não oferecer suporte à dobra das transformações para seus arquivos, recomendamos que você escolha a computação particionada em vez de uma cópia rápida.
Acesso a arquivos do Lakehouse: para se conectar aos arquivos no Lakehouse, recomendamos usar o conector Azure Data Lake Storage Gen2, fornecendo a URL do nó Files.
Best performance: Use esse método para carregar dados diretamente na área de preparo como destino ou para um Fabric Warehouse.
Retenção de dados: somente a última execução de partição é armazenada no Dataflow Staging Lakehouse e retornada pelo Conector de Fluxo de Dados. Considere usar um destino de dados para reter dados para cada partição separada.
Transformações de arquivo: use o arquivo de transformação exemplo da experiência Combinar arquivos para introduzir transformações que devem acontecer em todos os arquivos.
Transformações com suporte: a computação particionada dá suporte apenas a um subconjunto de transformações. O desempenho pode variar dependendo da origem e do conjunto de transformações usadas.
Cobrança: a cobrança para a execução do fluxo de dados baseia-se no consumo de unidades de capacidade (CU).

Comentários

Esta página foi útil?

Last updated on 2026-04-13

Usar computação particionada no Dataflow Gen2 (versão prévia)

Como definir a computação particionada

Habilitar configurações de fluxo de dados

Consulta com chave de partição

Considerações e recomendações

Comentários

Recursos adicionais