Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Observação
A computação particionada está atualmente em pré-visualização e só está disponível no Dataflow Gen2 com CI/CD.
Computação particionada é uma capacidade do motor Dataflow Gen2 que permite que partes da sua lógica de dataflow corram em paralelo, reduzindo o tempo para concluir as suas avaliações.
A computação particionada destina-se a cenários em que o mecanismo de fluxo de dados pode dobrar eficientemente operações que podem particionar a fonte de dados e processar cada partição em paralelo. Por exemplo, num cenário em que se liga a vários ficheiros armazenados num Azure Data Lake Storage Gen2, pode particionar a lista de ficheiros da sua fonte, recuperar eficientemente a lista particionada usando query folding, usar a experiência combinar ficheiros e processar todos os ficheiros em paralelo.
Observação
Apenas os conectores para Azure Data Lake Storage Gen2, Folder e Azure Blob Storage emitem o script correto para usar computação particionada. Os conectores para SharePoint e Fabric Lakehouse não o suportam atualmente.
Como definir computação particionada
Para usar esta capacidade, siga estes passos:
Habilitar configurações de fluxo de dados
Dentro do separador Início da fita, selecione o botão Opções para mostrar o seu diálogo. Vai à secção Escala e ativa a definição que diz Permitir uso de computação particionada.
Ativar esta opção tem duas finalidades:
Permite que o Dataflow utilize computação particionada se for descoberta através de scripts de consulta
Experiências como a combinação de arquivos agora criarão automaticamente chaves de partição que podem ser usadas para computação particionada.
Também precisa de ativar a opção na secção de Privacidade para permitir combinar dados de várias fontes.
Consulta com chave de partição
Observação
Para usar computação particionada, verifique se a sua consulta está configurada para ser encenada.
Depois de ativares a definição, podes usar a experiência de combinar ficheiros para uma fonte de dados que utiliza a vista do sistema de ficheiros, como o Azure Data Lake Storage Gen2. Quando o processo de combinar arquivos é finalizado, nota-se que a sua consulta possui um Passo Personalizado Adicionado, que contém um script semelhante a este:
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
Esse script, e especificamente o withPartitionKey componente, orienta a lógica sobre como seu Dataflow tenta particionar seus dados e como ele tenta avaliar as coisas em paralelo.
Você pode usar a função Table.PartitionKey na etapa Adicionado personalizado. Esta função retorna a chave de partição da tabela especificada. Para o caso acima, é a coluna RelativePath. Podes obter uma lista distinta dos valores nessa coluna para aprenderes todas as partições que são usadas durante a execução do dataflow.
Importante
É importante que a coluna da chave de partição permaneça na consulta para que a computação particionada seja aplicada.
Considerações e recomendações
Computação particionada vs. cópia rápida: Se a sua fonte de dados não suportar a dobra das transformações dos seus ficheiros, recomendamos que escolha computação particionada em vez de cópia rápida.
Acesso a ficheiros do Lakehouse: Para ligar a ficheiros no Lakehouse, recomendamos usar o conector Azure Data Lake Storage Gen2, passando a URL do
Filesnó.Melhor desempenho: Use este método para carregar dados diretamente para a área de preparação como destino ou para um Fabric Warehouse.
Retenção de dados: Apenas a última execução de partição é armazenada no Dataflow Staging Lakehouse e devolvida pelo Dataflow Connector. Considere usar um destino de dados para reter dados de cada partição separada.
Transformações de ficheiro: Use o ficheiro de transformação Sample da experiência dos ficheiros Combine para introduzir transformações que devem acontecer em cada ficheiro.
Transformações suportadas: A computação particionada suporta apenas um subconjunto de transformações. O desempenho pode variar dependendo da origem e do conjunto de transformações usadas.
Faturação: A faturação da execução do fluxo de dados baseia-se no consumo de unidades de capacidade ().