Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Esta característica está en versión preliminar pública.
Los conectores basados en consultas de Lakeflow Connect ingieren datos de bases de datos consultando el origen directamente, sin necesidad de una configuración de captura de datos modificados (CDC). En lugar de confiar en los binlogs o en la infraestructura CDC, usan una columna cursor: una columna de marca temporal o un entero que aumenta de manera monótona para rastrear qué filas son nuevas o han sido actualizadas desde la última ejecución de la canalización.
Los conectores basados en consultas utilizan conexiones del Catálogo de Unity y la Federación Lakehouse para conectarse a bases de datos de origen y escriben resultados en tablas de transmisión.
Cómo funciona
En cada ejecución de canalización, un conector basado en consultas consulta la base de datos de origen y recupera todas las filas con un valor de columna de cursor mayor que el valor registrado en la ejecución anterior. El conector almacena el punto máximo de la columna del cursor después de cada ejecución exitosa y lo utiliza como límite inferior en la siguiente ejecución.
Dado que el conector consulta el origen directamente, no requiere una puerta de enlace de ingesta ni un volumen de almacenamiento provisional. La canalización se ejecuta según un horario que usted defina, no continuamente.
Conectores basados en consultas en comparación con los conectores de base de datos CDC
Los conectores basados en consultas difieren de los conectores de base de datos CDC de las maneras siguientes:
- Sin pasarela de ingesta: los conectores CDC requieren una pasarela para capturar eventos de binlog. Los conectores basados en consultas no usan una puerta de enlace.
- Sin volumen de almacenamiento provisional: los conectores CDC extraen los datos extraídos en un volumen de almacenamiento provisional. Los conectores basados en consultas escriben directamente desde la consulta de origen en la tabla de destino.
- Programado en lugar de continuo: los conectores basados en consultas se ejecutan según una programación. No capturan todos los estados de fila intermedios entre ejecuciones. Captura solo el estado más reciente de las filas que han cambiado.
- Compatibilidad de origen más amplia: cualquier base de datos con una columna de cursor adecuada es un origen válido, aunque no admita el acceso CDC o binlog.
La desventaja es que el rendimiento de las consultas puede ser más lento y las consultas se ejecutan directamente en las tablas de origen, lo que puede imponer más carga en la base de datos de origen en comparación con los conectores CDC que interactúan con el binlog. El seguimiento de eliminación reversible se admite mediante deletion_condition. El seguimiento de la eliminación dura también está disponible en Beta. Ambos requieren configuración de API.
Enfoques de ingesta admitidos
Los conectores basados en consultas admiten varios métodos de ingesta. El enfoque que usa determina qué parámetros de configuración son necesarios.
| Enfoque | Cómo se conecta | Parámetros necesarios |
|---|---|---|
| Ingesta de conexión extranjera | Usa una conexión que almacena las credenciales de autenticación para la base de datos de origen. El conector usa la conexión para consultar directamente la base de datos de origen. |
connection_name, source_catalog, source_schema, , source_table, cursor_column |
| Ingestión de catálogos externos | Usa un catálogo externo respaldado por un origen de datos de Lakehouse Federation. El conector usa el catálogo externo para leer datos de origen en lugar de conectarse directamente a la base de datos de origen. |
Fuentes admitidas
Se admiten los siguientes orígenes de base de datos.
Orígenes de entrada de conexiones externas:
- Oracle
- Teradata
- SQL Server
- MySQL
- MariaDB
- PostgreSQL
Fuentes de ingestión de catálogos externos:
Todos los orígenes de datos de la "Federación de Lakehouse" se soportan mediante la integración de catálogos externos. Para obtener la lista completa, consulte Federación de Lakehouse.
Interfaces admitidas
Puede usar la interfaz de usuario de Azure Databricks o agrupaciones de automatización declarativa para crear canalizaciones basadas en consultas.
Requisitos de cómputo
Las canalizaciones de ingesta basadas en consultas se ejecutan en cómputo sin servidor por defecto. El Compute clásico se admite en Beta, pero solo a través de APIs. Databricks recomienda usar cómputo sin servidor.
Para usar conectores basados en consultas con proceso sin servidor, el entorno de proceso debe permitir la conectividad de red a la base de datos de origen. Consulte Redes y Recomendaciones de redes para la federación de Lakehouse.
Modos de seguimiento del historial (SCD)
Los conectores basados en consultas admiten los siguientes modos de seguimiento del historial, también conocidos como modos de dimensión de cambio lento (SCD), para las tablas de destino.
- SCD_TYPE_1: sobrescribe la fila existente en la tabla de destino con la fila de origen más reciente. No se conserva ningún historial.
- SCD_TYPE_2: conserva el historial completo de cambios de fila agregando nuevas filas con metadatos de versión. Consulte Habilitación del seguimiento del historial (tipo 2 de SCD).
- APPEND_ONLY: anexa todas las filas ingeridas a la tabla de destino sin combinar ni sobrescribir.
Evolución del esquema
Los conectores basados en consultas controlan la evolución del esquema de la misma manera que otros conectores administrados en Lakeflow Connect. Consulte ¿Cómo controlan los conectores administrados la evolución del esquema?.