Operadores integrados en Lakeflow Designer

Important

Esta característica está en versión preliminar pública.

Lakeflow Designer incluye operadores integrados para tareas comunes de preparación y transformación de datos. Abra el menú del operador en el panel lateral de la izquierda para examinar operadores por categoría o use Buscar un operador... en la parte superior del panel. Para abrir el panel de configuración de un operador después de agregarlo al lienzo, haga doble clic en él o mantenga presionado el puntero sobre él y haga clic en Icono de lápiz. (Operador Editar).

Origen y salida

Source

Importa datos en el Diseñador. El operador Source lee de una tabla de Catálogo de Unity u otros orígenes admitidos. Tiene dos fases:

  1. Seleccionar una tabla o un archivo: busque una tabla o un archivo por nombre, o busque por catálogo y esquema. También puede crear una nueva tabla desde este panel.
  2. Resumen de tabla: después de seleccionar una tabla, el panel de configuración muestra el nombre, el propietario y la hora de la última actualización de la tabla. Haga clic en Seleccionar un nuevo origen de datos para cambiar el origen. Al cambiar el origen, se invalida la memoria caché de salida para todos los operadores de bajada.

Para obtener toda la gama de opciones de ingesta de datos, consulte Ingesta de datos en Lakeflow Designer.

Salida

Exporta datos fuera del Diseñador escribiendo resultados en una tabla en el catálogo de Unity.

En el panel Configuración de salida, especifique:

  • Nombre de tabla: nombre de la tabla que se va a crear.
  • Ubicación de salida: catálogo y esquema donde se crea la tabla.

Haga clic en Ejecutar para ejecutar la preparación y escritura de los datos visuales.

Función ai

Ejecuta una operación de inteligencia artificial integrada en los datos. En el panel de configuración, abra Seleccionar una función y elija una de las funciones siguientes. Cada función expone opciones en el panel para las entradas (por ejemplo, columnas, avisos, etiquetas o idiomas) y salidas.

Function Description
ai_analyze_sentiment Realiza análisis de sentimiento en el texto de entrada.
ai_classify Clasifica el texto o los documentos analizados mediante etiquetas que proporcione.
ai_extract Extrae datos estructurados de texto o documentos analizados mediante campos definidos.
ai_fix_grammar Corrige errores gramaticales en el texto.
ai_gen Responde a un mensaje proporcionado por el usuario en la entrada.
ai_mask Enmascara las entidades especificadas en el texto (por ejemplo, para la desidentificación).
ai_similarity Compara dos cadenas y devuelve una puntuación de similitud semántica.
ai_summarize Genera un resumen del texto.
ai_translate Traduce el texto en un idioma de destino que especifique.

Transformations

Los operadores siguientes realizan transformaciones en los datos.

Aggregate

Resume las filas mediante la agrupación de datos y los valores agregados informáticos.

  • Agregado por: seleccione una columna, elija una función de agregación y proporcione un nombre para la columna de salida. Haga clic en + Agregar agregación para agregar más.
  • Agrupar por: seleccione las columnas por las que agrupar. Haga clic en + Agregar agrupación para agregar más.

Funciones de agregación admitidas: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.

Note

Las columnas usadas en Group by se incluyen automáticamente en la salida.

Combine

Combina datos de dos tablas con esquemas coincidentes en una única salida.

  • Establecer operación: elija Unión, Intersección o Excepto.
  • Estrategia de combinación: elija Distinct para excluir filas duplicadas de la salida o Todo para mantener todas las filas, incluidos los duplicados.

Filter

Selecciona las filas coincidentes manteniendo solo las filas que cumplen una o varias condiciones mediante un generador gráfico de condiciones. Para cada condición, seleccione una columna, un tipo de condición y un valor para que coincida condicionalmente.

Tipos de condición admitidos:

  • Es igual a / No es igual a
  • Es una de / no es una de
  • Contains /Does not contains
  • Comienza con / No comienza con
  • Termina con / No termina con
  • Mayor que /Menor que
  • Es null / No es null

Join

Vincula dos tablas en una clave mediante la combinación de dos conjuntos de datos de entrada basados en valores de columna coincidentes.

Para configurar una combinación:

  1. Seleccione las dos tablas de entrada que se van a combinar.
  2. Especifique al menos una condición de combinación seleccionando las columnas coincidentes de las dos tablas. Haga clic en + Agregar expresión de combinación para agregar más condiciones.
  3. Seleccione el tipo de combinación: Combinación completa, Combinación interna, Unión izquierda o Combinación derecha.
  4. Opcional: elija las columnas que se van a incluir en la salida. De forma predeterminada, se incluyen todas las columnas de ambas tablas. Los nombres de columna duplicados reciben un prefijo de nombre de tabla.
  5. Opcional: agregue columnas de expresión personalizadas basadas en el resultado combinado.

Limit

Restringe el recuento de filas pasando solo hasta el número máximo de filas que especifique.

Dinamización

Vuelve a dar forma a los datos tabulares en dos direcciones. Use las pestañas de la parte superior del panel de configuración para elegir el modo:

  • Filas → columnas (dinamización): convierta valores distintos en una columna en nuevos encabezados de columna y rellene esas columnas con valores agregados de otra columna.
  • Columnas → filas (despivotar ): dobla una o varias columnas en filas; establecer nombres para las columnas de clave de salida y valor.

En el modo Filas → Columnas :

  • Columna dinámica: elija la columna cuyos valores distintos se convierten en los nuevos encabezados.
  • Valor y agregación: elija la columna cuyos valores rellenen las celdas dinamizadas y seleccione una función de agregación (por ejemplo, SUM, AVG, COUNT, MIN o MAX). Configure cómo se controlan los valores que faltan (por ejemplo, null o cero), si están disponibles en el panel.

En Columnas → modo Filas , seleccione las columnas para anular la dinamización y configurar los nombres de columna de clave de salida y valor.

Incluir columnas: use la tabla para elegir qué columnas permanecen en la salida junto con los valores dinamizados o sin dinamizar (y para quitar columnas que no necesita antes de la transformación). El diseñador deduce columnas fijas (agrupación) de las columnas que no se asignan a roles dinámicos, de valor o despivote.

Sort

Ordena filas en una o varias columnas. Para cada columna, elija ASC (ascendente) o DESC (descendente). Haga clic en + Agregar expresión de ordenación para ordenar por columnas adicionales. La ordenación sigue el orden léxico estándar.

SQL

Escribe código SQL personalizado para cualquier transformación no cubierta por los demás operadores.

Escriba una instrucción SQL SELECT en el editor. Para hacer referencia a la salida de un operador de entrada, use el nombre de ese operador como nombre de tabla en la consulta. Por ejemplo:

SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1

Haga clic en el icono Código. en el editor para abrir el panel de código SQL completo y ver cómo encaja la instrucción en el flujo de trabajo completo.

Transformación

Selecciona, crea o transforma columnas a partir de los datos de entrada.

En el panel Transformar configuración:

  • Incluir o excluir columnas: use las casillas para elegir qué columnas pasan a la salida. Haga clic en la casilla de encabezado para seleccionar todas las columnas o desactivar la selección.
  • Cambiar el nombre de una columna: escriba un nuevo nombre en el campo Cambiar nombre junto a cualquier columna.
  • Reordenar columnas: arrastre el identificador en el lado izquierdo de una fila para cambiar el orden de las columnas.
  • Agregar una columna personalizada: haga clic en + Agregar una columna personalizada para abrir el editor de expresiones. Consulte a continuación.

Columnas personalizadas

El editor de expresiones le permite definir nuevas columnas mediante lenguaje natural o código. El editor tiene dos cuadros de entrada y es bidireccional:

  • Descripción: escriba una descripción del lenguaje natural de lo que desea que haga la columna. El diseñador usa Genie para generar la expresión de código correspondiente a continuación.
  • Expresión: si prefiere escribir o editar código directamente, haga clic en el botón Editar expresión. La edición de la expresión genera automáticamente una descripción del lenguaje natural.

Para quitar una columna personalizada, mantenga presionado el puntero sobre su fila y haga clic en Icono guión.

Python

Ejecuta Python personalizados (PySpark) en los datos de entrada. El código recibe conjuntos de datos ascendentes como DataFrames de Spark y debe asignar un único DataFrame a result, que se convierte en la salida de este operador. Use el panel de configuración para conectar las entradas y revisar las opciones que proporciona el editor.

inputs["data"] es una lista de dataframes de entrada, en orden ascendente. El panel de detalles del operador muestra los nombres de cada entrada, en orden. Por ejemplo: Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).

Un patrón mínimo es usar la primera entrada cuando está presente o un DataFrame vacío de lo contrario:

# inputs["data"] is a list of input DataFrames

result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")

Desde allí, puede encadenar operaciones dataframe (por ejemplo, , , o combinaciones) en result antes de que finalice la asignación o reemplazar por result un nuevo DataFrame compilado a partir de inputs["data"]. withColumnfilterselect

Organización

Note

Agrega una nota en el lienzo para que pueda documentar el propio flujo de trabajo: su finalidad, suposiciones, advertencias o contexto de entrega para cualquier persona que abra la preparación de datos visuales más adelante. El contenido de nota admite Markdown, por lo que puede usar encabezados, listas, vínculos y énfasis donde el texto sin formato no es suficiente. Las notas no afectan a cómo fluyen los datos a través de operadores.

Group

Agrupa visualmente los operadores en el lienzo sin cambiar el modo en que fluyen los datos entre ellos, lo que resulta útil cuando una preparación de datos visual crece de gran tamaño o desea reflejar las fases lógicas.

Para compilar un grupo:

  • Arrastre operadores a un grupo: arrastre uno o varios operadores a un grupo para agregarlos a él.
  • Crear un grupo a partir de una selección: seleccione uno o varios operadores, abra el menú contextual (haga clic con el botón derecho) y elija Crear nuevo grupo para ajustar la selección en un nuevo grupo.

Después de que los operadores estén en un grupo, puede asignarle un nombre descriptivo y minimizarlo o expandirlo para mostrar u ocultar su contenido en el lienzo.

Pasos siguientes