Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Lakeflow Designer inclui operadores incorporados para tarefas comuns de preparação e transformação de dados. Abra o menu do operador no painel lateral à esquerda para navegar pelos operadores por categoria, ou use Procurar um operador... no topo do painel. Para abrir o painel de configuração de um operador depois de o adicionar à tela, clique duas vezes ou mantenha o ponteiro sobre ele e clique (Editar operador).
Fonte e saída
Source
Importa dados para o Designer. O operador Source lê a partir de uma tabela do Unity Catalog ou de outras fontes suportadas. Tem duas fases:
- Selecionar uma tabela ou ficheiro: Procure uma tabela ou ficheiro por nome, ou navegue por catálogo e esquema. Também pode criar uma nova tabela a partir deste painel.
- Resumo da tabela: Após selecionar uma tabela, o painel de configuração mostra o nome da tabela, o proprietário e a última hora de atualização. Clique em Selecionar uma nova fonte de dados para alterar a fonte. Alterar a fonte invalida a cache de saída para todos os operadores a jusante.
Para a gama completa de opções de ingestão de dados, consulte Ingest data into Lakeflow Designer.
Output
Exporta dados do Designer escrevendo resultados para uma tabela no Unity Catalog.
No painel de configuração de Saída, especifique:
- Nome da mesa: O nome da tabela a criar.
- Localização de saída: O catálogo e o esquema onde a tabela é criada.
Clica em Executar para executar a preparação de dados visuais e escrever resultados.
Função de IA
Executa uma operação de IA integrada nos seus dados. No painel de configuração, abra Selecionar uma função e escolher uma das funções abaixo. Cada função expõe opções no painel para entradas (por exemplo, colunas, prompts, rótulos ou línguas) e saídas.
| Function | Description |
|---|---|
ai_analyze_sentiment |
Realiza análise de sentimento no texto de entrada. |
ai_classify |
Classifica texto ou documentos analisados usando as etiquetas que fornecer. |
ai_extract |
Extrai dados estruturados de texto ou documentos analisados usando campos que definiste. |
ai_fix_grammar |
Corrige erros gramaticais no texto. |
ai_gen |
Responde a um prompt fornecido pelo utilizador contra a entrada. |
ai_mask |
As máscaras especificavam entidades no texto (por exemplo, para desidentificação). |
ai_similarity |
Compara duas cadeias e devolve uma pontuação de similaridade semântica. |
ai_summarize |
Gera um resumo do texto. |
ai_translate |
Traduz o texto para a língua-alvo que especificar. |
Transformations
Os seguintes operadores realizam transformações nos seus dados.
Aggregate
Resume as linhas agrupando dados e calculando valores agregados.
- Agregar por: Selecionar uma coluna, escolher uma função de agregação e fornecer um nome para a coluna de saída. Clique + Adicionar agregação para adicionar mais.
- Agrupar por: Selecione as colunas a agrupar. Clique + Adicionar agrupamento para adicionar mais.
Funções de agregação suportadas: MÉDIA, CONTAGEM, MÁXIMO, MÉDIA, MEDIANA, MIN, PERCENTIL, STDDEV, SUMA, VARIÂNCIA.
Note
As colunas usadas em Agrupar por são automaticamente incluídas na saída.
Combine
Funde dados de duas tabelas com esquemas correspondentes numa única saída.
- Definir operação: Escolha Union, Intersect ou Except.
- Estratégia de fusão: Escolha Distinto para excluir linhas duplicadas da saída, ou Todos para manter todas as linhas, incluindo as duplicadas.
Filter
Seleciona linhas correspondentes mantendo apenas as linhas que cumprem uma ou mais condições, usando um construtor gráfico de condições. Para cada condição, selecione uma coluna, um tipo de condição e um valor a corresponder condicionalmente.
Tipos de condições suportadas:
- É igual a / Não é igual a
- É um dos / Não é um dos
- Contém / Não contém
- Começa com / Não começa com
- Termina com / Não termina com
- Maior que / Menor que
- É nulo / Não é nulo
Join
Liga duas tabelas numa chave combinando dois conjuntos de dados de entrada com base na correspondência dos valores das colunas.
Para configurar um Join:
- Selecione as duas tabelas de entrada para se juntar.
- Especifique pelo menos uma condição de junção selecionando colunas correspondentes das duas tabelas. Clique + Adicionar expressão de junção para adicionar mais condições.
- Selecione o tipo de junção: junção completa, junção interna, junção à esquerda ou junção à direita.
- Opcional: Escolha quais as colunas a incluir na saída. Por defeito, todas as colunas de ambas as tabelas estão incluídas. Nomes de colunas duplicados recebem um prefixo de nome de tabela.
- Opcional: Adicionar colunas de expressão personalizadas com base no resultado junto.
Limite
Restringe a contagem de linhas passando apenas até ao número máximo de linhas que especificas.
Pivot
Remodela os dados tabulares em duas direções. Use as abas no topo do painel de configuração para escolher o modo:
- Linhas → Colunas (pivot): Transforme valores distintos numa coluna em novos cabeçalhos de coluna e preencha essas colunas com valores agregados de outra coluna.
- Colunas → Linhas (sem pivot): Dobre uma ou mais colunas em linhas; definir nomes para a chave de saída e as colunas de valor.
No modo Linhas → Colunas :
- Coluna pivot: Escolha a coluna cujos valores distintos se tornam os novos cabeçalhos.
- Valor & agregação: Escolha a coluna cujos valores preenchem as células pivotadas e selecione uma função de agregação (por exemplo, SUM, AVG, COUNT, MIN ou MAX). Configure como os valores em falta são tratados (por exemplo, nulo ou zero), se disponíveis no painel.
No modo Colunas → Linhas, selecione as colunas a desfazer e configure a chave de saída e os nomes das colunas de valor.
Inclua colunas: Use a tabela para escolher quais colunas permanecem na saída juntamente com os valores pivotados ou não pivotados (e para eliminar colunas que não precisa antes da transformação). O designer infere colunas fixas (agrupando) a partir das colunas que não atribui a papéis de pivot, valor ou despivot.
Ordenar
Ordena linhas numa ou mais colunas. Para cada coluna, escolha ASC (ascendente) ou DESC (descendente). Clique + Adicionar expressão de ordenação para ordenar por colunas adicionais. A ordenação segue a ordem lexical padrão.
SQL
Escreve código SQL personalizado para qualquer transformação não coberta pelos outros operadores.
Escreve uma instrução SQL SELECT no editor. Para referenciar a saída de um operador de entrada, use o nome desse operador como nome da tabela na sua consulta. Por exemplo:
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1
Clique no no editor para abrir o painel completo de código SQL e ver como a sua declaração se encaixa no fluxo de trabalho completo.
Transformar
Seleciona, cria ou transforma colunas a partir dos dados de entrada.
No painel de configuração de Transformar:
- Incluir ou excluir colunas: Use as caixas de seleção para escolher quais as colunas que passam para a saída. Clique na caixa de seleção do cabeçalho para selecionar todas as colunas ou apagar a seleção.
- Renomeie uma coluna: Escreva um novo nome no campo Renomear ao lado de qualquer coluna.
- Reordenar colunas: Arraste a maçaneta do lado esquerdo de uma linha para alterar a ordem das colunas.
- Adicionar uma coluna personalizada: Clique + Adicionar uma coluna personalizada para abrir o editor de expressões. Ver abaixo.
Colunas personalizadas
O editor de expressões permite-lhe definir novas colunas usando linguagem natural ou código. O editor tem duas caixas de entrada e é bidirecional:
- Descrição: Escreve uma descrição em linguagem natural do que queres que a coluna faça. O designer usa o Genie para gerar a expressão de código correspondente abaixo.
- Expressão: Se preferir escrever ou editar código diretamente, clique no botão de editar expressão. Editar a expressão gera automaticamente uma descrição em linguagem natural.
Para remover uma coluna personalizada, mantenha o ponteiro sobre a sua linha e clique .
Python
Executa Python personalizado (PySpark) nos dados de entrada. O seu código recebe conjuntos de dados a montante como Spark DataFrames e deve atribuir um único DataFrame a result, que se torna a saída deste operador. Usa o painel de configuração para ligar as entradas e rever todas as opções que o editor fornecer.
inputs["data"] é uma lista de DataFrames de entrada, por ordem a montante. O painel de detalhes do operador mostra os nomes de cada entrada, por ordem. Por exemplo, Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).
Um padrão mínimo é usar a primeira entrada quando presente, ou um DataFrame vazio caso contrário:
# inputs["data"] is a list of input DataFrames
result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")
A partir daí, pode encadear operações DataFrame (por exemplo, select, filter, withColumn, ou joins) antes result da atribuição terminar, ou substituir result por um novo DataFrame construído a partir de inputs["data"].
Organização
Note
Adiciona uma nota na tela para que possas documentar o fluxo de trabalho em si: o seu propósito, suposições, ressalvas ou contexto de transferência para quem abrir a preparação de dados visuais mais tarde. Note O conteúdo suporta o Markdown, por isso pode usar títulos, listas, links e ênfase onde o texto simples não é suficiente. As notas não afetam a forma como os dados fluem através dos operadores.
Group
Agrupa visualmente os operadores na tela sem alterar a forma como os dados fluem entre eles — útil quando uma preparação de dados visuais cresce ou se quer refletir etapas lógicas.
Para construir um grupo:
- Arrastar operadores para um grupo: Arrastar um ou mais operadores para um grupo para os adicionar.
- Crie um grupo a partir de uma seleção: Selecione um ou vários operadores, abra o menu de contexto (clique com o botão direito) e escolha Criar novo grupo para envolver a seleção num novo grupo.
Depois de os operadores estarem num grupo, pode dar ao grupo um nome descritivo e minimizá-lo ou expandi-lo para mostrar ou esconder o seu conteúdo na tela.