Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Important
Esse recurso está em Visualização Pública.
O Lakeflow Designer inclui operadores internos para tarefas comuns de preparação e transformação de dados. Abra o menu do operador no painel lateral à esquerda para procurar operadores por categoria ou use Pesquisar um operador... na parte superior do painel. Para abrir o painel de configuração de um operador depois de adicioná-lo à tela, clique duas vezes nele ou segure o ponteiro sobre ele e clique no (Operador Editar).
Origem e saída
Fonte
Importa dados para o Designer. O operador de origem lê de uma tabela do Catálogo do Unity ou de outras fontes com suporte. Ele tem dois estágios:
- Selecionando uma tabela ou arquivo: pesquise uma tabela ou arquivo por nome ou navegue por catálogo e esquema. Você também pode criar uma nova tabela a partir deste painel.
- Resumo da tabela: depois de selecionar uma tabela, o painel de configuração mostra o nome, o proprietário e a hora da última atualização da tabela. Clique em Selecionar uma nova fonte de dados para alterar a origem. Alterar a origem invalida o cache de saída para todos os operadores downstream.
Para obter toda a gama de opções de ingestão de dados, consulte Ingestão de dados no Lakeflow Designer.
Saída
Exporta dados do Designer escrevendo resultados para uma tabela no Catálogo do Unity.
No painel Configuração de saída, especifique:
- Nome da tabela: o nome da tabela a ser criada.
- Local de saída: o catálogo e o esquema em que a tabela é criada.
Clique em Executar para executar a preparação de dados visuais e gravar resultados.
Função de IA
Executa uma operação interna de IA em seus dados. No painel de configuração, abra Selecionar uma função e escolha uma das funções abaixo. Cada função expõe opções no painel para entradas (por exemplo, colunas, prompts, rótulos ou idiomas) e saídas.
| Função | Descrição |
|---|---|
ai_analyze_sentiment |
Executa a análise de sentimento no texto de entrada. |
ai_classify |
Classifica texto ou documentos analisados usando rótulos fornecidos. |
ai_extract |
Extrai dados estruturados de texto ou documentos analisados usando campos definidos. |
ai_fix_grammar |
Corrige erros gramaticais no texto. |
ai_gen |
Responde a um prompt fornecido pelo usuário em relação à entrada. |
ai_mask |
Mascara as entidades especificadas no texto (por exemplo, para desentupimento). |
ai_similarity |
Compara duas cadeias de caracteres e retorna uma pontuação de similaridade semântica. |
ai_summarize |
Gera um resumo do texto. |
ai_translate |
Converte o texto em um idioma de destino especificado. |
Transformations
Os operadores a seguir executam transformações em seus dados.
Aggregate
Resume as linhas agrupando dados e calculando valores agregados.
- Agregar por: selecione uma coluna, escolha uma função de agregação e forneça um nome para a coluna de saída. Clique em + Adicionar agregação para adicionar mais.
- Agrupar por: Selecione as colunas pelas quais agrupar. Clique em + Adicionar agrupamento para adicionar mais.
Funções de agregação com suporte: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.
Note
As colunas usadas em Grupo são incluídas automaticamente na saída.
Combinar
Mescla dados de duas tabelas com esquemas correspondentes em uma única saída.
- Definir operação: Escolha União, Intersect ou Exceto.
- Estratégia de mesclagem: escolha Distinct para excluir linhas duplicadas da saída ou Todas para manter todas as linhas, incluindo duplicatas.
Filter
Seleciona as linhas correspondentes mantendo apenas as linhas que atendem a uma ou mais condições, usando um construtor de condições gráficas. Para cada condição, selecione uma coluna, um tipo de condição e um valor para corresponder condicionalmente.
Tipos de condição com suporte:
- É igual a / Não é igual a
- É um de / Não é um dos
- Contém/Não contém
- Começa com /Não começa com
- Termina com /Não termina com
- Maior que /Menor que
- É nulo/ Não é nulo
Join
Vincula duas tabelas em uma chave combinando dois conjuntos de dados de entrada com base em valores de coluna correspondentes.
Para configurar uma junção:
- Selecione as duas tabelas de entrada a serem unidas.
- Especifique pelo menos uma condição de junção selecionando colunas correspondentes das duas tabelas. Clique + Adicionar expressão de junção para adicionar mais condições.
- Selecione o tipo de junção: Junção completa, junção interna, junção à esquerda ou junção à direita.
- Opcional: escolha quais colunas incluir na saída. Por padrão, todas as colunas de ambas as tabelas são incluídas. Nomes de coluna duplicados recebem um prefixo de nome de tabela.
- Opcional: adicione colunas de expressão personalizadas com base no resultado associado.
Limit
Restringe a contagem de linhas passando apenas até o número máximo de linhas especificadas.
Dinâmico
Remodela dados tabulares em duas direções. Use as guias na parte superior do painel de configuração para escolher o modo:
- Linhas → Colunas (pivô): transforme valores distintos em uma coluna em novos cabeçalhos de coluna e preencha essas colunas com valores agregados de outra coluna.
- Colunas → Linhas (unpivot): Dobre uma ou mais colunas em linhas; definir nomes para a chave de saída e as colunas de valor.
No modo Linhas → Colunas :
- Coluna dinâmica: escolha a coluna cujos valores distintos se tornam os novos cabeçalhos.
- Valor &agregação: escolha a coluna cujos valores preencham as células dinâmicas e selecione uma função de agregação (por exemplo, SOMA, AVG, COUNT, MIN ou MAX). Configure como os valores ausentes são tratados (por exemplo, nulo ou zero), se disponíveis no painel.
No modo Colunas → Linhas , selecione as colunas para despivotar e configurar os nomes da chave de saída e da coluna de valor.
Incluir colunas: use a tabela para escolher quais colunas permanecem na saída ao lado dos valores dinâmicos ou não dinâmicos (e para remover colunas que você não precisa antes da transformação). O designer infere colunas fixas (agrupamento) das colunas que você não atribui a funções dinâmicas, de valor ou não dinâmicas.
Classificar
Ordena linhas em uma ou mais colunas. Para cada coluna, escolha ASC (crescente) ou DESC (decrescente ). Clique + Adicionar expressão de classificação para classificar por colunas adicionais. A classificação segue a ordem léxica padrão.
SQL
Grava código SQL personalizado para qualquer transformação não coberta pelos outros operadores.
Digite uma instrução SQL SELECT no editor. Para fazer referência à saída de um operador de entrada, use o nome desse operador como o nome da tabela em sua consulta. Por exemplo:
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1
Clique no Botão no editor para abrir o painel de código SQL completo e ver como sua instrução se encaixa no fluxo de trabalho completo.
Transformar
Seleciona, cria ou transforma colunas dos dados de entrada.
No painel de configuração Transformar:
- Incluir ou excluir colunas: use as caixas de seleção para escolher quais colunas passam para a saída. Clique na caixa de seleção do cabeçalho para selecionar todas as colunas ou desmarque a seleção.
- Renomear uma coluna: digite um novo nome no campo Renomear ao lado de qualquer coluna.
- Reordenar colunas: arraste o identificador no lado esquerdo de uma linha para alterar a ordem da coluna.
- Adicione uma coluna personalizada: clique em + Adicionar uma coluna personalizada para abrir o editor de expressões. Consulte abaixo.
Colunas personalizadas
O editor de expressões permite que você defina novas colunas usando linguagem natural ou código. O editor tem duas caixas de entrada e é bidirecional:
- Descrição: digite uma descrição de linguagem natural do que você deseja que a coluna faça. O Designer usa o Genie para gerar a expressão de código correspondente abaixo.
- Expressão: se você preferir escrever ou editar código diretamente, clique no botão editar expressão. Editar a expressão gera automaticamente uma descrição de linguagem natural.
Para remover uma coluna personalizada, segure o ponteiro sobre sua linha e clique no .
Python
Executa Python personalizados (PySpark) nos dados de entrada. Seu código recebe conjuntos de dados upstream como DataFrames do Spark e deve atribuir um único DataFrame, resultque se torna a saída desse operador. Use o painel de configuração para conectar entradas e examinar todas as opções fornecidas pelo editor.
inputs["data"] é uma lista de DataFrames de entrada, em ordem upstream. O painel de detalhes do operador mostra os nomes de cada entrada, em ordem. Por exemplo, Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).
Um padrão mínimo é usar a primeira entrada quando presente ou um DataFrame vazio, caso contrário:
# inputs["data"] is a list of input DataFrames
result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")
A partir daí, você pode encadear operações dataframe (por exemplo, , , ou junções) result antes do término da atribuição ou substituir result por um novo DataFrame criado a partir de inputs["data"]. withColumnfilterselect
Organização
Note
Adiciona uma anotação na tela para que você possa documentar o próprio fluxo de trabalho: sua finalidade, suposições, ressalvas ou contexto de entrega para qualquer pessoa que abra a preparação de dados do Visual mais tarde. Observe que o conteúdo dá suporte ao Markdown, para que você possa usar títulos, listas, links e ênfase em que o texto sem formatação não é suficiente. As anotações não afetam como os dados fluem por meio de operadores.
Group
Agrupa visualmente operadores na tela sem alterar como os dados fluem entre eles — útil quando uma preparação de dados visuais aumenta ou você deseja refletir estágios lógicos.
Para criar um grupo:
- Arraste operadores para um grupo: arraste um ou mais operadores para um grupo para adicioná-los a ele.
- Crie um grupo a partir de uma seleção: selecione um ou vários operadores, abra o menu de contexto (clique com o botão direito do mouse) e escolha Criar novo grupo para encapsular a seleção em um novo grupo.
Depois que os operadores estiverem em um grupo, você poderá dar ao grupo um nome descritivo e minimizá-lo ou expandi-lo para mostrar ou ocultar seu conteúdo na tela.