Frågebaserade kontakter

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Frågebaserade anslutningsappar i Lakeflow Connect matar in data från databaser genom att fråga källan direkt, utan att kräva konfiguration av ändringsdatainsamling (CDC). I stället för att förlita sig på binlogs eller CDC-infrastruktur använder de en markörkolumn – en monotont ökande tidsstämpel eller heltalskolumn – för att spåra vilka rader som är nya eller uppdaterade sedan den senaste pipelinekörningen.

Frågebaserade anslutningsappar använder Unity Catalog-anslutningar och Lakehouse Federation för att ansluta till källdatabaser, och de skriver resultat till strömmande tabeller.

Så här fungerar det

Vid varje pipelinekörning förfrågar en frågebaserad anslutning källdatabasen och hämtar alla rader med ett markörkolumnvärde som är större än det värde som registrerades från föregående körning. Anslutaren lagrar högvattenmärket för markörkolumnen efter varje lyckad körning och använder det som den nedre gränsen vid nästa körning.

Eftersom anslutningsappen frågar källan direkt krävs ingen inmatningsgateway eller mellanlagringsvolym. Pipelinen körs enligt ett schema som du definierar, inte kontinuerligt.

Frågebaserade anslutningar jämfört med CDC-databasanslutningar

Frågebaserade anslutningar skiljer sig från CDC-databasanslutningar på följande sätt:

  • Ingen inkopplingsgateway: CDC-kontakter kräver en gateway för att samla in binlogghändelser. Frågebaserade anslutningsappar använder inte en gateway.
  • Ingen mellanlagringsvolym: CDC-kontakter buffrar extraherade data i en mellanlagringsvolym. Frågebaserade anslutningsappar skriver direkt från källfrågan till måltabellen.
  • Schemalagd i stället för kontinuerlig: Frågebaserade anslutningsappar körs efter ett schema. De avbildar inte varje mellanliggande radtillstånd mellan körningar. De avbildar bara det senaste tillståndet för de rader som har ändrats.
  • Bredare källkompatibilitet: Alla databaser med en lämplig markörkolumn är en giltig källa, även om den inte stöder CDC- eller binlogåtkomst.

Kompromissen är att frågeprestanda kan vara långsammare och att frågor körs direkt i källtabeller, vilket kan öka belastningen på källdatabasen jämfört med CDC-anslutningsappar som frågar efter binlog. Spårning av mjuk borttagning stöds med .deletion_condition Spårning av fullständig borttagning stöds också i Beta. Båda kräver API-konfiguration.

Inmatningsmetoder som stöds

Frågebaserade anslutningsappar stöder flera inmatningsmetoder. Den metod som du använder avgör vilka konfigurationsparametrar som krävs.

Tillvägagångssätt Så här ansluter den Obligatoriska parametrar
Inmatning av utländska anslutningar Använder en anslutning som lagrar autentiseringsuppgifter för källdatabasen. Anslutaren använder anslutningen för att fråga källdatabasen direkt. connection_name, source_catalog, source_schema, source_table, cursor_column
Inmatning av utländsk katalog Använder en utländsk katalog som backas upp av en Lakehouse Federation-datakälla . Anslutningsappen använder den externa katalogen för att läsa källdata i stället för att ansluta direkt till källdatabasen. ingest_from_uc_foreign_catalog: true, cursor_columns, primary_keys (krävs om du inte använder APPEND_ONLY läge)

Källor som stöds

Följande databaskällor stöds.

Externa anslutningsinmatningskällor:

  • Oracle
  • Teradata
  • SQL Server
  • MySQL
  • MariaDB
  • PostgreSQL

Källor för inmatning av utländsk katalog:

Alla Lakehouse Federation-datakällor stöds med hjälp av inmatning av utländsk katalog. Den fullständiga listan finns i Lakehouse Federation.

Gränssnitt som stöds

Du kan använda Azure Databricks användargränssnitt eller deklarativa Automation-paket för att skapa frågebaserade pipelines.

Beräkningskrav

Frågebaserade inmatningspipelines körs som standard på serverlös beräkning. Klassisk beräkning stöds i Beta, men endast med API:er. Databricks rekommenderar att du använder serverlös beräkning.

Om du vill använda frågebaserade anslutningsappar med serverlös beräkning måste beräkningsmiljön tillåta nätverksanslutning till källdatabasen. Se Nätverks- och nätverksrekommendationer för Lakehouse Federation.

Lägen för historikspårning (SCD)

Frågebaserade anslutningar stöder följande historikspårningslägen, även kallade långsamt föränderliga dimensionslägen (SCD) för måltabeller.

  • SCD_TYPE_1: Skriver över den befintliga raden i måltabellen med den senaste källraden. Ingen historik bevaras.
  • SCD_TYPE_2: Bevarar den fullständiga historiken för radändringar genom att lägga till nya rader med versionsmetadata. Se Aktivera historikspårning (SCD-typ 2).
  • APPEND_ONLY: Lägger till varje inmatad rad i måltabellen utan att slå samman eller skriva över.

Schemats utveckling

Frågebaserade anslutningsappar hanterar schemautvecklingen på samma sätt som andra hanterade anslutningsappar i Lakeflow Connect. Se Hur hanterar hanterade anslutningsappar schemautveckling?.