Usar computação particionada no Dataflow Gen2 (Visualização)

Observação

A computação particionada está atualmente em pré-visualização e só está disponível no Dataflow Gen2 com CI/CD.

Computação particionada é uma capacidade do motor Dataflow Gen2 que permite que partes da sua lógica de dataflow corram em paralelo, reduzindo o tempo para concluir as suas avaliações.

A computação particionada destina-se a cenários em que o mecanismo de fluxo de dados pode dobrar eficientemente operações que podem particionar a fonte de dados e processar cada partição em paralelo. Por exemplo, num cenário em que se liga a vários ficheiros armazenados num Azure Data Lake Storage Gen2, pode particionar a lista de ficheiros da sua fonte, recuperar eficientemente a lista particionada usando query folding, usar a experiência combinar ficheiros e processar todos os ficheiros em paralelo.

Observação

Apenas os conectores para Azure Data Lake Storage Gen2, Folder e Azure Blob Storage emitem o script correto para usar computação particionada. Os conectores para SharePoint e Fabric Lakehouse não o suportam atualmente.

Como definir computação particionada

Para usar esta capacidade, siga estes passos:

Habilitar configurações de fluxo de dados

Dentro do separador Início da fita, selecione o botão Opções para mostrar o seu diálogo. Vai à secção Escala e ativa a definição que diz Permitir uso de computação particionada.

Captura de ecrã da definição de computação particionada dentro da secção Escala do diálogo de Opções.

Ativar esta opção tem duas finalidades:

  • Permite que o Dataflow utilize computação particionada se for descoberta através de scripts de consulta

  • Experiências como a combinação de arquivos agora criarão automaticamente chaves de partição que podem ser usadas para computação particionada.

Também precisa de ativar a opção na secção de Privacidade para permitir combinar dados de várias fontes.

Consulta com chave de partição

Observação

Para usar computação particionada, verifique se a sua consulta está configurada para ser encenada.

Depois de ativares a definição, podes usar a experiência de combinar ficheiros para uma fonte de dados que utiliza a vista do sistema de ficheiros, como o Azure Data Lake Storage Gen2. Quando o processo de combinar arquivos é finalizado, nota-se que a sua consulta possui um Passo Personalizado Adicionado, que contém um script semelhante a este:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Esse script, e especificamente o withPartitionKey componente, orienta a lógica sobre como seu Dataflow tenta particionar seus dados e como ele tenta avaliar as coisas em paralelo.

Você pode usar a função Table.PartitionKey na etapa Adicionado personalizado. Esta função retorna a chave de partição da tabela especificada. Para o caso acima, é a coluna RelativePath. Podes obter uma lista distinta dos valores nessa coluna para aprenderes todas as partições que são usadas durante a execução do dataflow.

Importante

É importante que a coluna da chave de partição permaneça na consulta para que a computação particionada seja aplicada.

Considerações e recomendações

  • Computação particionada vs. cópia rápida: Se a sua fonte de dados não suportar a dobra das transformações dos seus ficheiros, recomendamos que escolha computação particionada em vez de cópia rápida.

  • Acesso a ficheiros do Lakehouse: Para ligar a ficheiros no Lakehouse, recomendamos usar o conector Azure Data Lake Storage Gen2, passando a URL do Files nó.

  • Melhor desempenho: Use este método para carregar dados diretamente para a área de preparação como destino ou para um Fabric Warehouse.

  • Retenção de dados: Apenas a última execução de partição é armazenada no Dataflow Staging Lakehouse e devolvida pelo Dataflow Connector. Considere usar um destino de dados para reter dados de cada partição separada.

  • Transformações de ficheiro: Use o ficheiro de transformação Sample da experiência dos ficheiros Combine para introduzir transformações que devem acontecer em cada ficheiro.

  • Transformações suportadas: A computação particionada suporta apenas um subconjunto de transformações. O desempenho pode variar dependendo da origem e do conjunto de transformações usadas.

  • Faturação: A faturação da execução do fluxo de dados baseia-se no consumo de unidades de capacidade ().