Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Frågebaserade anslutningsappar i Lakeflow Connect matar in data från databaser genom att fråga källan direkt, utan att kräva konfiguration av ändringsdatainsamling (CDC). I stället för att förlita sig på binlogs eller CDC-infrastruktur använder de en markörkolumn – en monotont ökande tidsstämpel eller heltalskolumn – för att spåra vilka rader som är nya eller uppdaterade sedan den senaste pipelinekörningen.
Frågebaserade anslutningsappar använder Unity Catalog-anslutningar och Lakehouse Federation för att ansluta till källdatabaser, och de skriver resultat till strömmande tabeller.
Så här fungerar det
Vid varje pipelinekörning förfrågar en frågebaserad anslutning källdatabasen och hämtar alla rader med ett markörkolumnvärde som är större än det värde som registrerades från föregående körning. Anslutaren lagrar högvattenmärket för markörkolumnen efter varje lyckad körning och använder det som den nedre gränsen vid nästa körning.
Eftersom anslutningsappen frågar källan direkt krävs ingen inmatningsgateway eller mellanlagringsvolym. Pipelinen körs enligt ett schema som du definierar, inte kontinuerligt.
Frågebaserade anslutningar jämfört med CDC-databasanslutningar
Frågebaserade anslutningar skiljer sig från CDC-databasanslutningar på följande sätt:
- Ingen inkopplingsgateway: CDC-kontakter kräver en gateway för att samla in binlogghändelser. Frågebaserade anslutningsappar använder inte en gateway.
- Ingen mellanlagringsvolym: CDC-kontakter buffrar extraherade data i en mellanlagringsvolym. Frågebaserade anslutningsappar skriver direkt från källfrågan till måltabellen.
- Schemalagd i stället för kontinuerlig: Frågebaserade anslutningsappar körs efter ett schema. De avbildar inte varje mellanliggande radtillstånd mellan körningar. De avbildar bara det senaste tillståndet för de rader som har ändrats.
- Bredare källkompatibilitet: Alla databaser med en lämplig markörkolumn är en giltig källa, även om den inte stöder CDC- eller binlogåtkomst.
Kompromissen är att frågeprestanda kan vara långsammare och att frågor körs direkt i källtabeller, vilket kan öka belastningen på källdatabasen jämfört med CDC-anslutningsappar som frågar efter binlog. Spårning av mjuk borttagning stöds med .deletion_condition Spårning av fullständig borttagning stöds också i Beta. Båda kräver API-konfiguration.
Inmatningsmetoder som stöds
Frågebaserade anslutningsappar stöder flera inmatningsmetoder. Den metod som du använder avgör vilka konfigurationsparametrar som krävs.
| Tillvägagångssätt | Så här ansluter den | Obligatoriska parametrar |
|---|---|---|
| Inmatning av utländska anslutningar | Använder en anslutning som lagrar autentiseringsuppgifter för källdatabasen. Anslutaren använder anslutningen för att fråga källdatabasen direkt. |
connection_name, source_catalog, source_schema, source_table, cursor_column |
| Inmatning av utländsk katalog | Använder en utländsk katalog som backas upp av en Lakehouse Federation-datakälla . Anslutningsappen använder den externa katalogen för att läsa källdata i stället för att ansluta direkt till källdatabasen. |
ingest_from_uc_foreign_catalog: true, cursor_columns, primary_keys (krävs om du inte använder APPEND_ONLY läge) |
Källor som stöds
Följande databaskällor stöds.
Externa anslutningsinmatningskällor:
- Oracle
- Teradata
- SQL Server
- MySQL
- MariaDB
- PostgreSQL
Källor för inmatning av utländsk katalog:
Alla Lakehouse Federation-datakällor stöds med hjälp av inmatning av utländsk katalog. Den fullständiga listan finns i Lakehouse Federation.
Gränssnitt som stöds
Du kan använda Azure Databricks användargränssnitt eller deklarativa Automation-paket för att skapa frågebaserade pipelines.
Beräkningskrav
Frågebaserade inmatningspipelines körs som standard på serverlös beräkning. Klassisk beräkning stöds i Beta, men endast med API:er. Databricks rekommenderar att du använder serverlös beräkning.
Om du vill använda frågebaserade anslutningsappar med serverlös beräkning måste beräkningsmiljön tillåta nätverksanslutning till källdatabasen. Se Nätverks- och nätverksrekommendationer för Lakehouse Federation.
Lägen för historikspårning (SCD)
Frågebaserade anslutningar stöder följande historikspårningslägen, även kallade långsamt föränderliga dimensionslägen (SCD) för måltabeller.
- SCD_TYPE_1: Skriver över den befintliga raden i måltabellen med den senaste källraden. Ingen historik bevaras.
- SCD_TYPE_2: Bevarar den fullständiga historiken för radändringar genom att lägga till nya rader med versionsmetadata. Se Aktivera historikspårning (SCD-typ 2).
- APPEND_ONLY: Lägger till varje inmatad rad i måltabellen utan att slå samman eller skriva över.
Schemats utveckling
Frågebaserade anslutningsappar hanterar schemautvecklingen på samma sätt som andra hanterade anslutningsappar i Lakeflow Connect. Se Hur hanterar hanterade anslutningsappar schemautveckling?.