Compartilhar via


Funções de janela em fluxos de dados de mapeamento

APPLIES TO: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Os fluxos de dados estão disponíveis em pipelines Azure Data Factory e pipelines de Azure Synapse Analytics. Este artigo se aplica ao fluxo de dados de mapeamento. Se você for novo em transformações, consulte o artigo introdutório Transformar dados usando fluxos de dados de mapeamento.

Este artigo fornece detalhes sobre as funções de janela compatíveis com Azure Data Factory e Azure Synapse Analytics em fluxos de dados de mapeamento.

Lista de funções de janela

As funções a seguir estão disponíveis apenas em transformações de janela.

Função de janela Tarefa
cumeDist Calcula a posição de um valor relativo a todos os valores na partição. O resultado é o número de linhas anteriores ou iguais à linha atual na ordenação da partição, dividido pelo número total de linhas na partição de janela. Todos os valores empatados na ordenação são avaliados na mesma posição.
denseRank Computa a classificação de um valor em um grupo de valores especificados na cláusula order by de uma janela. O resultado é 1 mais o número de linhas anteriores ou iguais à linha atual na ordenação da partição. Os valores não produzem lacunas na sequência. A denseRank função funciona mesmo quando os dados não são classificados e procura alterações nos valores.
lag Obtém o valor do primeiro parâmetro avaliado n linhas antes da linha atual. O segundo parâmetro é o número de linhas para olhar para trás e o valor padrão é 1. Se não houver tantas linhas assim, um valor null é retornado, a menos que um valor padrão seja especificado.
lead Obtém o valor do primeiro parâmetro avaliado nas linhas n após a linha atual. O segundo parâmetro é o número de linhas a serem aguardadas e o valor padrão é 1. Se não houver tantas linhas assim, um valor null é retornado, a menos que um valor padrão seja especificado.
nTile Divide as linhas de cada partição de janela em buckets de n que variam de 1 a, no máximo, n. Os valores do bucket diferem em no máximo 1. Se o número de linhas na partição não se dividir uniformemente no número de buckets, os valores restantes serão distribuídos um por bucket, começando com o primeiro bucket. A função NTile é útil para o cálculo de tertiles, quartis, decis e outras estatísticas de resumo comuns.

A função calcula duas variáveis durante a inicialização. O tamanho de um bucket regular tem uma linha extra adicionada a ele. Ambas as variáveis são baseadas no tamanho da partição atual. Durante o processo de cálculo, a função acompanha o número da linha atual, o número do bucket atual e o número da linha em que o bucket muda (bucketThreshold). Quando o número de linha atual atinge o limite do bucket, o valor do bucket aumenta em um. O limite aumenta de acordo com o tamanho do bucket (mais um extra se o bucket atual estiver preenchido).
rank Computa a classificação de um valor em um grupo de valores especificados na cláusula order by de uma janela. O resultado é 1 mais o número de linhas anteriores ou iguais à linha atual na ordenação da partição. Os valores produzem lacunas na sequência. A rank função funciona mesmo quando os dados não são classificados e procura alterações nos valores.
rowNumber Atribui uma numeração de linha sequencial para linhas em uma janela começando com 1.