Operadores internos no Lakeflow Designer

Important

Esse recurso está em Visualização Pública.

O Lakeflow Designer inclui operadores internos para tarefas comuns de preparação e transformação de dados. Abra o menu do operador no painel lateral à esquerda para procurar operadores por categoria ou use Pesquisar um operador... na parte superior do painel. Para abrir o painel de configuração de um operador depois de adicioná-lo à tela, clique duas vezes nele ou segure o ponteiro sobre ele e clique no ícone Lápis. (Operador Editar).

Origem e saída

Fonte

Importa dados para o Designer. O operador de origem lê de uma tabela do Catálogo do Unity ou de outras fontes com suporte. Ele tem dois estágios:

  1. Selecionando uma tabela ou arquivo: pesquise uma tabela ou arquivo por nome ou navegue por catálogo e esquema. Você também pode criar uma nova tabela a partir deste painel.
  2. Resumo da tabela: depois de selecionar uma tabela, o painel de configuração mostra o nome, o proprietário e a hora da última atualização da tabela. Clique em Selecionar uma nova fonte de dados para alterar a origem. Alterar a origem invalida o cache de saída para todos os operadores downstream.

Para obter toda a gama de opções de ingestão de dados, consulte Ingestão de dados no Lakeflow Designer.

Saída

Exporta dados do Designer escrevendo resultados para uma tabela no Catálogo do Unity.

No painel Configuração de saída, especifique:

  • Nome da tabela: o nome da tabela a ser criada.
  • Local de saída: o catálogo e o esquema em que a tabela é criada.

Clique em Executar para executar a preparação de dados visuais e gravar resultados.

Função de IA

Executa uma operação interna de IA em seus dados. No painel de configuração, abra Selecionar uma função e escolha uma das funções abaixo. Cada função expõe opções no painel para entradas (por exemplo, colunas, prompts, rótulos ou idiomas) e saídas.

Função Descrição
ai_analyze_sentiment Executa a análise de sentimento no texto de entrada.
ai_classify Classifica texto ou documentos analisados usando rótulos fornecidos.
ai_extract Extrai dados estruturados de texto ou documentos analisados usando campos definidos.
ai_fix_grammar Corrige erros gramaticais no texto.
ai_gen Responde a um prompt fornecido pelo usuário em relação à entrada.
ai_mask Mascara as entidades especificadas no texto (por exemplo, para desentupimento).
ai_similarity Compara duas cadeias de caracteres e retorna uma pontuação de similaridade semântica.
ai_summarize Gera um resumo do texto.
ai_translate Converte o texto em um idioma de destino especificado.

Transformations

Os operadores a seguir executam transformações em seus dados.

Aggregate

Resume as linhas agrupando dados e calculando valores agregados.

  • Agregar por: selecione uma coluna, escolha uma função de agregação e forneça um nome para a coluna de saída. Clique em + Adicionar agregação para adicionar mais.
  • Agrupar por: Selecione as colunas pelas quais agrupar. Clique em + Adicionar agrupamento para adicionar mais.

Funções de agregação com suporte: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.

Note

As colunas usadas em Grupo são incluídas automaticamente na saída.

Combinar

Mescla dados de duas tabelas com esquemas correspondentes em uma única saída.

  • Definir operação: Escolha União, Intersect ou Exceto.
  • Estratégia de mesclagem: escolha Distinct para excluir linhas duplicadas da saída ou Todas para manter todas as linhas, incluindo duplicatas.

Filter

Seleciona as linhas correspondentes mantendo apenas as linhas que atendem a uma ou mais condições, usando um construtor de condições gráficas. Para cada condição, selecione uma coluna, um tipo de condição e um valor para corresponder condicionalmente.

Tipos de condição com suporte:

  • É igual a / Não é igual a
  • É um de / Não é um dos
  • Contém/Não contém
  • Começa com /Não começa com
  • Termina com /Não termina com
  • Maior que /Menor que
  • É nulo/ Não é nulo

Join

Vincula duas tabelas em uma chave combinando dois conjuntos de dados de entrada com base em valores de coluna correspondentes.

Para configurar uma junção:

  1. Selecione as duas tabelas de entrada a serem unidas.
  2. Especifique pelo menos uma condição de junção selecionando colunas correspondentes das duas tabelas. Clique + Adicionar expressão de junção para adicionar mais condições.
  3. Selecione o tipo de junção: Junção completa, junção interna, junção à esquerda ou junção à direita.
  4. Opcional: escolha quais colunas incluir na saída. Por padrão, todas as colunas de ambas as tabelas são incluídas. Nomes de coluna duplicados recebem um prefixo de nome de tabela.
  5. Opcional: adicione colunas de expressão personalizadas com base no resultado associado.

Limit

Restringe a contagem de linhas passando apenas até o número máximo de linhas especificadas.

Dinâmico

Remodela dados tabulares em duas direções. Use as guias na parte superior do painel de configuração para escolher o modo:

  • Linhas → Colunas (pivô): transforme valores distintos em uma coluna em novos cabeçalhos de coluna e preencha essas colunas com valores agregados de outra coluna.
  • Colunas → Linhas (unpivot): Dobre uma ou mais colunas em linhas; definir nomes para a chave de saída e as colunas de valor.

No modo Linhas → Colunas :

  • Coluna dinâmica: escolha a coluna cujos valores distintos se tornam os novos cabeçalhos.
  • Valor &agregação: escolha a coluna cujos valores preencham as células dinâmicas e selecione uma função de agregação (por exemplo, SOMA, AVG, COUNT, MIN ou MAX). Configure como os valores ausentes são tratados (por exemplo, nulo ou zero), se disponíveis no painel.

No modo Colunas → Linhas , selecione as colunas para despivotar e configurar os nomes da chave de saída e da coluna de valor.

Incluir colunas: use a tabela para escolher quais colunas permanecem na saída ao lado dos valores dinâmicos ou não dinâmicos (e para remover colunas que você não precisa antes da transformação). O designer infere colunas fixas (agrupamento) das colunas que você não atribui a funções dinâmicas, de valor ou não dinâmicas.

Classificar

Ordena linhas em uma ou mais colunas. Para cada coluna, escolha ASC (crescente) ou DESC (decrescente ). Clique + Adicionar expressão de classificação para classificar por colunas adicionais. A classificação segue a ordem léxica padrão.

SQL

Grava código SQL personalizado para qualquer transformação não coberta pelos outros operadores.

Digite uma instrução SQL SELECT no editor. Para fazer referência à saída de um operador de entrada, use o nome desse operador como o nome da tabela em sua consulta. Por exemplo:

SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1

Clique no ícone código. Botão no editor para abrir o painel de código SQL completo e ver como sua instrução se encaixa no fluxo de trabalho completo.

Transformar

Seleciona, cria ou transforma colunas dos dados de entrada.

No painel de configuração Transformar:

  • Incluir ou excluir colunas: use as caixas de seleção para escolher quais colunas passam para a saída. Clique na caixa de seleção do cabeçalho para selecionar todas as colunas ou desmarque a seleção.
  • Renomear uma coluna: digite um novo nome no campo Renomear ao lado de qualquer coluna.
  • Reordenar colunas: arraste o identificador no lado esquerdo de uma linha para alterar a ordem da coluna.
  • Adicione uma coluna personalizada: clique em + Adicionar uma coluna personalizada para abrir o editor de expressões. Consulte abaixo.

Colunas personalizadas

O editor de expressões permite que você defina novas colunas usando linguagem natural ou código. O editor tem duas caixas de entrada e é bidirecional:

  • Descrição: digite uma descrição de linguagem natural do que você deseja que a coluna faça. O Designer usa o Genie para gerar a expressão de código correspondente abaixo.
  • Expressão: se você preferir escrever ou editar código diretamente, clique no botão editar expressão. Editar a expressão gera automaticamente uma descrição de linguagem natural.

Para remover uma coluna personalizada, segure o ponteiro sobre sua linha e clique no ícone Dash..

Python

Executa Python personalizados (PySpark) nos dados de entrada. Seu código recebe conjuntos de dados upstream como DataFrames do Spark e deve atribuir um único DataFrame, resultque se torna a saída desse operador. Use o painel de configuração para conectar entradas e examinar todas as opções fornecidas pelo editor.

inputs["data"] é uma lista de DataFrames de entrada, em ordem upstream. O painel de detalhes do operador mostra os nomes de cada entrada, em ordem. Por exemplo, Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).

Um padrão mínimo é usar a primeira entrada quando presente ou um DataFrame vazio, caso contrário:

# inputs["data"] is a list of input DataFrames

result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")

A partir daí, você pode encadear operações dataframe (por exemplo, , , ou junções) result antes do término da atribuição ou substituir result por um novo DataFrame criado a partir de inputs["data"]. withColumnfilterselect

Organização

Note

Adiciona uma anotação na tela para que você possa documentar o próprio fluxo de trabalho: sua finalidade, suposições, ressalvas ou contexto de entrega para qualquer pessoa que abra a preparação de dados do Visual mais tarde. Observe que o conteúdo dá suporte ao Markdown, para que você possa usar títulos, listas, links e ênfase em que o texto sem formatação não é suficiente. As anotações não afetam como os dados fluem por meio de operadores.

Group

Agrupa visualmente operadores na tela sem alterar como os dados fluem entre eles — útil quando uma preparação de dados visuais aumenta ou você deseja refletir estágios lógicos.

Para criar um grupo:

  • Arraste operadores para um grupo: arraste um ou mais operadores para um grupo para adicioná-los a ele.
  • Crie um grupo a partir de uma seleção: selecione um ou vários operadores, abra o menu de contexto (clique com o botão direito do mouse) e escolha Criar novo grupo para encapsular a seleção em um novo grupo.

Depois que os operadores estiverem em um grupo, você poderá dar ao grupo um nome descritivo e minimizá-lo ou expandi-lo para mostrar ou ocultar seu conteúdo na tela.

Próximas Etapas