Transformação de classificação no fluxo de dados de mapeamento

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Os fluxos de dados estão disponíveis em pipelines Azure Data Factory e pipelines de Azure Synapse Analytics. Este artigo se aplica ao fluxo de dados de mapeamento. Se você for novo em transformações, consulte o artigo introdutório Transformar dados usando fluxos de dados de mapeamento.

Dica

Para obter a transformação equivalente (Classificação) no Dataflow Gen2, consulte um guia do Dataflow Gen2 para mapear usuários de fluxo de dados.

A transformação de classificação permite que você classifique as linhas de entrada no fluxo de dados atual. Você pode escolher colunas individuais e classificá-las em ordem crescente ou decrescente.

Observação

Os fluxos de dados de mapeamento são executados em clusters spark que distribuem dados entre vários nós e partições. Se você optar por reparticionar seus dados em uma transformação subsequente, poderá perder a classificação devido ao reencolhimento de dados. A melhor maneira de manter a ordem de classificação em seu fluxo de dados é definir uma única partição na guia Otimizar na transformação e manter a transformação de Classificação o mais próximo possível do Coletor.

Configuração

Configurações de classificação

Não diferencia maiúsculas de minúsculas: se você deseja ignorar maiúsculas e minúsculas ao classificar uma cadeia de caracteres ou campos de texto

Classificar Somente Dentro das Partições: à medida que os fluxos de dados são executados no Spark, cada fluxo de dados é dividido em partições. Essa configuração classifica os dados somente dentro das partições de entrada em vez de classificar todo o fluxo de dados.

Condições de classificação: escolha quais colunas você está classificando e em qual ordem a classificação acontece. A ordem determina a prioridade de classificação. Escolha se os nulos são exibidos ou não no início ou no final do fluxo de dados.

Colunas computadas

Para modificar ou extrair um valor de coluna antes de aplicar a classificação, passe o mouse sobre a coluna e selecione "coluna computada". No construtor de expressões, crie uma expressão para a operação de classificação em vez de usar um valor de coluna.

Script de fluxo de dados

Sintaxe

<incomingStream>
    sort(
        desc(<sortColumn1>, { true | false }),
        asc(<sortColumn2>, { true | false }),
        ...
    ) ~> <sortTransformationName<>

Exemplo

Configurações de classificação

O script de fluxo de dados para a configuração de classificação acima está no trecho de código abaixo.

BasketballStats sort(desc(PTS, true),
    asc(Age, true)) ~> Sort1

Após a classificação, talvez você queira usar a Transformação Agregação

Comentários

Esta página foi útil?

Last updated on 2026-04-28