Conectores basados en consultas

Importante

Esta característica está en versión preliminar pública.

Los conectores basados en consultas de Lakeflow Connect ingieren datos de bases de datos consultando el origen directamente, sin necesidad de una configuración de captura de datos modificados (CDC). En lugar de confiar en los binlogs o en la infraestructura CDC, usan una columna cursor: una columna de marca temporal o un entero que aumenta de manera monótona para rastrear qué filas son nuevas o han sido actualizadas desde la última ejecución de la canalización.

Los conectores basados en consultas utilizan conexiones del Catálogo de Unity y la Federación Lakehouse para conectarse a bases de datos de origen y escriben resultados en tablas de transmisión.

Cómo funciona

En cada ejecución de canalización, un conector basado en consultas consulta la base de datos de origen y recupera todas las filas con un valor de columna de cursor mayor que el valor registrado en la ejecución anterior. El conector almacena el punto máximo de la columna del cursor después de cada ejecución exitosa y lo utiliza como límite inferior en la siguiente ejecución.

Dado que el conector consulta el origen directamente, no requiere una puerta de enlace de ingesta ni un volumen de almacenamiento provisional. La canalización se ejecuta según un horario que usted defina, no continuamente.

Conectores basados en consultas en comparación con los conectores de base de datos CDC

Los conectores basados en consultas difieren de los conectores de base de datos CDC de las maneras siguientes:

Sin pasarela de ingesta: los conectores CDC requieren una pasarela para capturar eventos de binlog. Los conectores basados en consultas no usan una puerta de enlace.
Sin volumen de almacenamiento provisional: los conectores CDC extraen los datos extraídos en un volumen de almacenamiento provisional. Los conectores basados en consultas escriben directamente desde la consulta de origen en la tabla de destino.
Programado en lugar de continuo: los conectores basados en consultas se ejecutan según una programación. No capturan todos los estados de fila intermedios entre ejecuciones. Captura solo el estado más reciente de las filas que han cambiado.
Compatibilidad de origen más amplia: cualquier base de datos con una columna de cursor adecuada es un origen válido, aunque no admita el acceso CDC o binlog.

La desventaja es que el rendimiento de las consultas puede ser más lento y las consultas se ejecutan directamente en las tablas de origen, lo que puede imponer más carga en la base de datos de origen en comparación con los conectores CDC que interactúan con el binlog. El seguimiento de eliminación reversible se admite mediante deletion_condition. El seguimiento de la eliminación dura también está disponible en Beta. Ambos requieren configuración de API.

Enfoques de ingesta admitidos

Los conectores basados en consultas admiten varios métodos de ingesta. El enfoque que usa determina qué parámetros de configuración son necesarios.

Enfoque	Cómo se conecta	Parámetros necesarios
Ingesta de conexión extranjera	Usa una conexión que almacena las credenciales de autenticación para la base de datos de origen. El conector usa la conexión para consultar directamente la base de datos de origen.	`connection_name`, `source_catalog`, `source_schema`, , `source_table`, `cursor_column`
Ingestión de catálogos externos	Usa un catálogo externo respaldado por un origen de datos de Lakehouse Federation. El conector usa el catálogo externo para leer datos de origen en lugar de conectarse directamente a la base de datos de origen.	, , (obligatorio a menos que use el modo )

Fuentes admitidas

Se admiten los siguientes orígenes de base de datos.

Orígenes de entrada de conexiones externas:

Oracle
Teradata
SQL Server
MySQL
MariaDB
PostgreSQL

Fuentes de ingestión de catálogos externos:

Todos los orígenes de datos de la "Federación de Lakehouse" se soportan mediante la integración de catálogos externos. Para obtener la lista completa, consulte Federación de Lakehouse.

Interfaces admitidas

Puede usar la interfaz de usuario de Azure Databricks o agrupaciones de automatización declarativa para crear canalizaciones basadas en consultas.

Requisitos de cómputo

Las canalizaciones de ingesta basadas en consultas se ejecutan en cómputo sin servidor por defecto. El Compute clásico se admite en Beta, pero solo a través de APIs. Databricks recomienda usar cómputo sin servidor.

Para usar conectores basados en consultas con proceso sin servidor, el entorno de proceso debe permitir la conectividad de red a la base de datos de origen. Consulte Redes y Recomendaciones de redes para la federación de Lakehouse.

Modos de seguimiento del historial (SCD)

Los conectores basados en consultas admiten los siguientes modos de seguimiento del historial, también conocidos como modos de dimensión de cambio lento (SCD), para las tablas de destino.

SCD_TYPE_1: sobrescribe la fila existente en la tabla de destino con la fila de origen más reciente. No se conserva ningún historial.
SCD_TYPE_2: conserva el historial completo de cambios de fila agregando nuevas filas con metadatos de versión. Consulte Habilitación del seguimiento del historial (tipo 2 de SCD).
APPEND_ONLY: anexa todas las filas ingeridas a la tabla de destino sin combinar ni sobrescribir.

Evolución del esquema

Los conectores basados en consultas controlan la evolución del esquema de la misma manera que otros conectores administrados en Lakeflow Connect. Consulte ¿Cómo controlan los conectores administrados la evolución del esquema?.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19