Compartilhar via


Transformação de classificação no fluxo de dados de mapeamento

APPLIES TO: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Os fluxos de dados estão disponíveis em pipelines Azure Data Factory e pipelines de Azure Synapse Analytics. Este artigo se aplica ao fluxo de dados de mapeamento. Se você for novo em transformações, consulte o artigo introdutório Transformar dados usando fluxos de dados de mapeamento.

A transformação de classificação permite que você classifique as linhas de entrada no fluxo de dados atual. Você pode escolher colunas individuais e classificá-las em ordem crescente ou decrescente.

Observação

Os fluxos de dados de mapeamento são executados em clusters do Spark que distribuem dados entre vários nós e partições. Se você optar por reparticionar seus dados em uma transformação subsequente, poderá perder sua classificação devido a essa recombinação de dados. A melhor maneira de manter a ordem de classificação em seu fluxo de dados é definir uma única partição na guia Otimizar na transformação e manter a transformação de Classificação o mais próximo possível do Coletor.

Configuração

Configurações de classificação

Não diferencia maiúsculas de minúsculas: se você deseja ignorar maiúsculas e minúsculas ao classificar uma cadeia de caracteres ou campos de texto

Classificar Somente Dentro das Partições: à medida que os fluxos de dados são executados no Spark, cada fluxo de dados é dividido em partições. Essa configuração classifica os dados somente dentro das partições de entrada em vez de classificar todo o fluxo de dados.

Condições de classificação: escolha quais colunas você está classificando e em qual ordem a classificação acontece. A ordem determina a prioridade de classificação. Escolha se os nulos aparecerão ou não no início ou no final do fluxo de dados.

Colunas computadas

Para modificar ou extrair um valor de coluna antes de aplicar a classificação, passe o mouse sobre a coluna e selecione "coluna computada". Isso abrirá o construtor de expressões para criar uma expressão para a operação de classificação em vez de usar um valor de coluna.

Script de fluxo de dados

Sintaxe

<incomingStream>
    sort(
        desc(<sortColumn1>, { true | false }),
        asc(<sortColumn2>, { true | false }),
        ...
    ) ~> <sortTransformationName<>

Exemplo

Configurações de classificação

O script de fluxo de dados para a configuração de classificação acima está no trecho de código abaixo.

BasketballStats sort(desc(PTS, true),
    asc(Age, true)) ~> Sort1

Após a classificação, talvez você queira usar a Transformação de Agregação