Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
A computação particionada está atualmente em versão prévia e só está disponível no Dataflow Gen2 com CI/CD.
A computação particionada é uma funcionalidade do mecanismo de fluxo de dados Gen2 que permite que partes da lógica de fluxo de dados sejam executadas em paralelo, reduzindo o tempo para concluir suas avaliações.
A computação particionada direciona cenários em que o mecanismo de fluxo de dados pode dobrar com eficiência operações que podem particionar a fonte de dados e processar cada partição em paralelo. Por exemplo, em um cenário em que você está se conectando a vários arquivos armazenados em um Azure Data Lake Storage Gen2, você pode particionar a lista de arquivos de sua origem, recuperar com eficiência a lista particionada de arquivos usando dobramento de consultas, usar a funcionalidade de combinação de arquivos e processar todos os arquivos em paralelo.
Observação
Somente conectores para Azure Data Lake Storage Gen2, Pasta e Azure Blob Storage emitem o script correto para usar a computação particionada. Os conectores para SharePoint e Fabric Lakehouse não dão suporte a ele hoje.
Como definir a computação particionada
Para usar essa funcionalidade, siga estas etapas:
Habilitar configurações de fluxo de dados
Dentro da guia Página Inicial da faixa de opções, selecione o botão Opções para mostrar sua caixa de diálogo. Vá para a seção Escala e ative a configuração que lê Permitir uso da computação particionada.
Habilitar essa opção tem duas finalidades:
Permite que o Dataflow use computação particionada se for descoberta por meio dos seus scripts de consulta
Experiências como os arquivos de combinação agora criarão automaticamente chaves de partição que podem ser usadas para computados particionados
Você também precisa ativar a configuração na seção Privacidade para Permitir a combinação de dados de várias fontes.
Consulta com chave de partição
Observação
Para usar a computação particionada, verifique se a consulta está definida para ser estagiada.
Depois de ativar a configuração, você pode usar a funcionalidade de combinar arquivos para uma fonte de dados que utiliza a visão do sistema de arquivos, como o Azure Data Lake Storage Gen2. Quando a experiência de combinação de arquivos for finalizada, você observará que sua consulta tem uma etapa personalizada adicionada , que tem um script semelhante a este:
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
Esse script e, especificamente, o componente withPartitionKey, executa a lógica de como o Dataflow tenta particionar os seus dados e avaliar os elementos em paralelo.
Você pode usar a função Table.PartitionKey na etapa Adicionada personalizada. Essa função retorna a chave de partição da tabela especificada. Para o caso acima, é a coluna RelativePath. Você pode obter uma lista distinta dos valores nessa coluna para aprender todas as partições usadas durante a execução do fluxo de dados.
Importante
É importante que a coluna de chave de partição permaneça na consulta para que a computação particionada seja aplicada.
Considerações e recomendações
Computação particionada versus cópia rápida: se a fonte de dados não oferecer suporte à dobra das transformações para seus arquivos, recomendamos que você escolha a computação particionada em vez de uma cópia rápida.
Acesso a arquivos do Lakehouse: para se conectar aos arquivos no Lakehouse, recomendamos usar o conector Azure Data Lake Storage Gen2, fornecendo a URL do nó
Files.Best performance: Use esse método para carregar dados diretamente na área de preparo como destino ou para um Fabric Warehouse.
Retenção de dados: somente a última execução de partição é armazenada no Dataflow Staging Lakehouse e retornada pelo Conector de Fluxo de Dados. Considere usar um destino de dados para reter dados para cada partição separada.
Transformações de arquivo: use o arquivo de transformação exemplo da experiência Combinar arquivos para introduzir transformações que devem acontecer em todos os arquivos.
Transformações com suporte: a computação particionada dá suporte apenas a um subconjunto de transformações. O desempenho pode variar dependendo da origem e do conjunto de transformações usadas.
Cobrança: a cobrança para a execução do fluxo de dados baseia-se no consumo de unidades de capacidade (CU).