Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Deze functie bevindt zich in openbare preview-versie.
Op query's gebaseerde connectors in Lakeflow Connect nemen gegevens op uit databases door rechtstreeks een query uit te voeren op de bron, zonder dat de CDC-configuratie (Data Capture) hoeft te worden gewijzigd. In plaats van te vertrouwen op binlogs of CDC-infrastructuur, gebruiken ze een cursorkolom—een monotonisch toenemende tijdstempel of gehele getalkolom—om bij te houden welke rijen nieuw of bijgewerkt zijn sinds de laatste pijplijnrun.
Query-gebaseerde connectors maken gebruik van Unity Catalog-verbindingen en Lakehouse Federation om verbinding te maken met brondatabases, en ze schrijven de resultaten naar streaming tables.
Hoe werkt het?
Bij elke pijplijnuitvoering voert een connector op basis van query's een query uit op de brondatabase en haalt het alle rijen op met een cursorkolomwaarde die groter is dan de waarde die is geregistreerd uit de vorige uitvoering. De verbindingslijn slaat de bovengrens van de cursorkolom op na elke geslaagde uitvoering en gebruikt deze als ondergrens voor de volgende uitvoering.
Omdat de connector de bron rechtstreeks opvraagt, is er geen invoergateway of een tussenopslag vereist. De pijplijn wordt uitgevoerd volgens een schema dat u definieert, niet continu.
Query-gebaseerde connectors vergeleken met CDC-databaseconnectors
Query-gebaseerde connectors zijn op de volgende manieren verschillend van CDC-databaseconnectors:
- Geen opnamegateway: CDC-connectors hebben een gateway nodig om binlog-gebeurtenissen vast te leggen. Op query's gebaseerde connectors maken geen gebruik van een gateway.
- Geen voorbereidingsvolume: CDC connectors bufferen de geëxtraheerde gegevens in een voorbereidingsvolume. Query-connectoren schrijven rechtstreeks vanuit de bronquery naar de doeltabel.
- Gepland in plaats van doorlopend: op query's gebaseerde connectors worden volgens een schema uitgevoerd. Ze leggen niet elke tussenliggende rijstatus vast tussen uitvoeringen. Ze leggen alleen de meest recente status vast van de rijen die zijn gewijzigd.
- Bredere broncompatibiliteit: elke database met een geschikte cursorkolom is een geldige bron, zelfs als deze geen ondersteuning biedt voor CDC- of binlog-toegang.
De afweging is dat de prestaties van queries langzamer kunnen zijn en dat query's rechtstreeks op brontabellen worden uitgevoerd, waardoor de brondatabase meer belasting kan veroorzaken in vergelijking met CDC-connectors die query's uitvoeren op de binlog. Het bijhouden van soft-delete wordt ondersteund met behulp van deletion_condition. Het bijhouden van hardverwijdering wordt ook ondersteund in Beta. Beide vereisen API-configuratie.
Ondersteunde gegevensopnamemethoden
Connectors op basis van query's ondersteunen meerdere ingestie-methoden. De methode die u gebruikt, bepaalt welke configuratieparameters vereist zijn.
| Methode | Hoe het verbinding maakt | Vereiste parameters |
|---|---|---|
| Invoer van externe verbindingen | Maakt gebruik van een verbinding waarmee verificatiereferenties voor de brondatabase worden opgeslagen. De connector gebruikt de verbinding om rechtstreeks een query uit te voeren op de brondatabase. |
connection_name
source_catalog, source_schema, source_tablecursor_column |
| Importeren van buitenlandse catalogus | Maakt gebruik van een externe catalogus die wordt ondersteund door een Lakehouse Federation-gegevensbron. De connector gebruikt de buitenlandse catalogus om brongegevens te lezen in plaats van rechtstreeks verbinding te maken met de brondatabase. |
ingest_from_uc_foreign_catalog: true, cursor_columns, primary_keys (vereist tenzij u de modus APPEND_ONLY gebruikt) |
Ondersteunde bronnen
De volgende databasebronnen worden ondersteund.
Opnamebronnen voor buitenlandse verbindingen:
- Oracle
- Teradata
- SQL Server
- MySQL
- MariaDB
- PostgreSQL
Externe catalogusopnamebronnen:
Alle Lakehouse Federation-gegevensbronnen worden ondersteund met behulp van externe catalogusopname. Zie Lakehouse Federation voor de volledige lijst.
Ondersteunde interfaces
U kunt de Azure Databricks UI of Declarative Automation Bundles gebruiken om pijplijnen op basis van query's te maken.
Berekeningsvereisten
Op query's gebaseerde opnamepijplijnen worden standaard uitgevoerd op serverloze berekeningen. Klassieke berekening wordt ondersteund in de bètaversie, maar alleen met behulp van API's. Databricks raadt aan om serverloze berekeningen te gebruiken.
Als u op query's gebaseerde connectors met serverloze berekeningen wilt gebruiken, moet uw rekenomgeving netwerkconnectiviteit met de brondatabase toestaan. Zie netwerken en aanbevelingen voor netwerken voor Lakehouse Federation.
SCD-modi (Geschiedenis bijhouden)
Op query's gebaseerde connectors ondersteunen de volgende modi voor het bijhouden van geschiedenis, ook wel bekend als langzaam veranderende dimensiemodi (SCD) voor doeltabellen:
- SCD_TYPE_1: overschrijft de bestaande rij in de doeltabel met de meest recente bronrij. Er blijft geen geschiedenis behouden.
- SCD_TYPE_2: behoudt de volledige geschiedenis van rijwijzigingen door nieuwe rijen met versiemetagegevens toe te voegen. Zie Geschiedenis bijhouden inschakelen (SCD-type 2).
- APPEND_ONLY: voegt elke opgenomen rij toe aan de doeltabel zonder samenvoegen of overschrijven.
Ontwikkeling van schema's
Query-gebaseerde connectors verwerken schema-evolutie op dezelfde manier als andere beheerde connectors in Lakeflow Connect. Zie Hoe verwerken beheerde connectors de evolutie van schema's?