Vad är Lakeflow Connect?

Lakeflow Connect erbjuder enkla och effektiva anslutningsappar för att mata in data från lokala filer, populära företagsprogram, databaser, molnlagring, meddelandebussar med mera. Den här sidan beskriver några av de sätt som Lakeflow Connect kan förbättra ETL-prestanda. Den omfattar även vanliga användningsfall och de olika inmatningsverktyg som stöds, från fullständigt hanterade anslutningsappar till helt anpassningsbara ramverk.

Flexibla tjänstmodeller

Lakeflow Connect erbjuder ett brett utbud av anslutningsappar för företagsprogram, molnlagring, databaser, meddelandebussar med mera. Det ger dig också flexibiliteten att välja mellan följande:

Alternativ Beskrivning
En fullständigt hanterad tjänst Färdiga anslutningar som demokratiserar dataåtkomst med enkla gränssnitt och kraftfulla API:er. På så sätt kan du snabbt skapa robusta inmatningspipelines samtidigt som du minimerar de långsiktiga underhållskostnaderna.
En anpassad pipeline Om du behöver mer anpassning kan du använda Lakeflow Spark Deklarativa Pipelines eller Strukturerad strömning. I slutändan gör den här mångsidigheten att Lakeflow Connect kan uppfylla organisationens specifika behov.

Sammanslagning med viktiga Databricks-verktyg

Lakeflow Connect använder grundläggande Databricks-funktioner för att tillhandahålla omfattande datahantering. Den erbjuder till exempel styrning med Unity Catalog, orkestrering med Lakeflow-jobb och holistisk övervakning över dina pipelines. Detta hjälper din organisation att hantera datasäkerhet, kvalitet och kostnader samtidigt som du förenar dina inmatningsprocesser med dina andra datateknikverktyg. Lakeflow Connect bygger på en öppen Data Intelligence Platform med fullständig flexibilitet för att införliva dina önskade verktyg från tredje part. Detta säkerställer en skräddarsydd lösning som överensstämmer med din befintliga infrastruktur och framtida datastrategier.

Snabb, skalbar inmatning

Lakeflow Connect använder inkrementella läsningar och skrivningar för att möjliggöra effektiv inmatning. I kombination med inkrementella transformeringar nedströms kan detta avsevärt förbättra ETL-prestanda.

Vanliga användningsfall

Kunder matar in data för att lösa sina organisationers mest utmanande problem. Exempel på användningsfall är följande:

Användningsfall Beskrivning
Kund 360 Mäta kampanjprestanda och kundledningsbedömning
Portföljförvaltning Maximera ROI med historiska modeller och prognosmodeller
Konsumentanalys Anpassa dina kunders köpupplevelser
Centraliserade personalresurser Stöd för organisationens personal
Digitala tvillingar Öka tillverkningseffektiviteten
RAG-chattrobotar Skapa chattrobotar för att hjälpa användare att förstå principer, produkter med mera

Lager i ETL-stacken

Vissa kontakter fungerar på en nivå av ETL-stacken. Databricks erbjuder till exempel fullständigt hanterade anslutningsappar för företagsprogram som Salesforce och databaser som SQL Server. Andra anslutningar verkar på ett annat lager i ETL-stacken. Du kan till exempel använda standardanslutningar i Lakeflow Spark deklarativa pipelines för fler anpassningsalternativ. På samma sätt kan du välja din anpassningsnivå för strömmande data från Apache Kafka, Amazon Kinesis, Google Pub/Sub och Apache Pulsar.

Databricks rekommenderar att du börjar med det mest hanterade lagret. Om den inte uppfyller dina krav (till exempel om den inte stöder din datakälla) går du ned till nästa lager.

I följande tabell beskrivs lager av inmatningsprodukter:

Skikt Beskrivning
Deklarativa pipelines för Lakeflow Spark Lakeflow Spark Deklarativa Pipelines erbjuder en deklarativ struktur för att skapa datapipelines. Definiera dina omvandlingar och Lakeflow Spark deklarativa pipelines hanterar orkestrering, övervakning, datakvalitet, fel med mera. Den bygger på Structured Streaming för strömning och har stöd för de flesta funktioner för strukturerad direktuppspelning. För strukturerade direktuppspelningsfunktioner som ännu inte är tillgängliga i Lakeflow Spark Deklarativa Pipelines kan du använda api:er för strukturerad direktuppspelning direkt.
Fullständigt hanterade anslutningar Helt hanterade anslutningar bygger på Lakeflow Spark-deklarativa pipelines, vilket ger ännu mer automatisering för de mest populära datakällorna. De utökar funktionerna i Lakeflow Spark Deklarativa Pipelines till att även omfatta autentisering specifik för källan, CDC, hantering av gränsfall, långsiktigt API-underhåll, automatiserade återförsök, automatiserad schemautveckling och så vidare. Därför erbjuder de ännu mer automatisering för alla datakällor som stöds.

Hanterade anslutningar

Du kan använda fullständigt hanterade kontakter för att integrera med företagsprogram och databaser. En fullständig lista över anslutningsappar som stöds finns i Hanterade anslutningsappar i Lakeflow Connect .

Gränssnitt som stöds är:

  • Databricks-användargränssnitt
  • Deklarativa automationspaket
  • Databricks-API:er
  • Databricks SDK:er
  • Databricks kommandoradsgränssnitt (CLI)

Community-anslutningsappar

Gemenskapskontakter utökar Lakeflow Connect till källor utan stöd för hanterade kontakter. De skapas och underhålls av communityn och stöds inte av Databricks serviceavtal. Du kan använda en befintlig anslutning eller skapa en egen. Se Community-anslutningsappar i Lakeflow Connect.

Standardanslutningar

Förutom de hanterade anslutningsapparna erbjuder Databricks anpassningsbara anslutningsappar för lagring av molnobjekt och meddelandebussar. Se Standardanslutningar i Lakeflow Connect.

Skapa eller ändra en tabell från filuppladdning (Lägg till datagränssnitt)

Du kan mata in filer som finns i ditt lokala nätverk, filer som laddats upp till en volym eller filer som laddats ned från en Internetplats. Se Skapa eller ändra en tabell med filuppladdning.

inmatningspartner

Många verktyg från tredje part stöder batch- eller strömningsinmatning till Databricks. Databricks validerar olika integreringar från tredje part, men stegen för att konfigurera åtkomst till källsystem och mata in data varierar beroende på verktyg. Besök Ingestionspartners för en lista över validerade verktyg. Vissa teknikpartners finns också i Databricks Partner Connect, som har ett användargränssnitt som förenklar anslutning av verktyg från tredje part till Lakehouse-data.

DIY-datainsamling

Databricks tillhandahåller en allmän beräkningsplattform. Därför kan du skapa egna anslutningsappar för inmatning med valfritt programmeringsspråk som stöds av Databricks, till exempel Python eller Java. Du kan också importera och använda populära bibliotek för anslutningsprogram med öppen källkod, till exempel datainläsningsverktyg, Airbyte och Debezium.

inmatningsalternativ

Databricks rekommenderar inmatning för de flesta användningsfall eftersom det skalar för att hantera stora datavolymer, frågor med låg svarstid och API-gränser från tredje part. Inmatning kopierar data från dina källsystem till Azure Databricks, vilket resulterar i dubbletter av data som kan bli inaktuella över tid. Om du inte vill kopiera data kan du använda följande verktyg:

Verktyg Beskrivning
Lakehouse Federation Gör att du kan fråga externa datakällor utan att flytta dina data.
Deltadelning Gör att du på ett säkert sätt kan dela data mellan plattformar, moln och regioner.