Översikt över Zerobus Ingest Connector

Zerobus Ingest är ett push-baserat inmatnings-API som skriver data direkt till Delta-tabeller i Unity Catalog. Det är en serverlös anslutningskomponent som automatiskt skalar för att hantera inkommande anslutningar. Det kräver inte att du konfigurerar partitioner eller hanterar koordinatorer.

Med Zerobus Ingest är din "skalningsstrategi" att öppna fler anslutningar. Detta effektiviserar inmatningsarbetsflöden genom att eliminera behovet av meddelandebussinfrastruktur.

Alla program som kan integreras med Zerobus Ingest SDK:er eller kommunicera via API:er som stöds (gRPC, REST och OpenTelemetry) kan använda Zerobus Ingest för att skicka data effektivt till Delta-tabeller.

Zerobus-inmatningsbuffertar överför data innan de läggs till i en Delta-tabell. Den här buffringsfunktionen skapar en effektiv och hållbar inmatningsmekanism som stöder en stor mängd klienter med variabelt dataflöde.

När de har materialiserats i Delta-format blir data helt kompatibla med den omfattande Databricks Data Intelligence Platform, vilket gör det möjligt för användare att utnyttja välbekanta verktyg och funktioner för ytterligare dataanalys och bearbetning.

Begrepp

En dataproducent öppnar först en dataström till Zerobus Ingest-API:et och anger en Delta-måltabell, skapar ett meddelande som matchar schemat och skickar sedan meddelandet via den öppnade dataströmmen. Tjänsten gör data hållbara, bekräftar klientens meddelande och materialiserar data i Delta-tabellen på ett optimerat sätt.

Så här fungerar Zerobus Ingest

Strömmar

En dataström är en direktanslutning mellan klienten och Zerobus Ingest-servern. SDK:erna använder strömmar för att underlätta långvariga anslutningar med högt dataflöde.

  • Strömmar används endast i gRPC-API:et med SDK:erna.
  • En ström matar in data till en enda måltabell.
  • Beställning av händelseleverans garanteras på nivån per dataström.
  • Ytterligare strömmar kan öppnas för att skriva data till olika tabeller.
  • Ytterligare strömmar kan öppnas för att öka klientens dataflöde.
    • Observera: Om klienten roterar meddelanden mellan olika strömmar, garanteras inte längre ordningen.

Server

Zerobus Ingest-tjänsten skapar eller manipulerar inte tabeller automatiskt. Användarna måste själva skapa tabellen. Tabeller och deras scheman är auktoritativa källor för förväntningarna på inkommande data.

Zerobus Ingest-servern accepterar data som skickas till den av klienter, verifierar att de passar måltabellschemat och skriver dem sedan till tabellen. Om data får plats i tabellen blir de varaktiga. En bekräftelse skickas sedan tillbaka till klienten.

Tjänstansvaret omfattar:

  • Schemavalidering av meddelandet till tabellen.
  • Materialisera data i rätt tid i måltabellen.
  • Skickar en bekräftelse till klienten om att data är varaktiga.

Klient

Klientintegrering omfattar:

  • Välj en måltabell.
  • Upprätta en dataström med Zerobus Ingest-tjänsten.
  • Skapa ett schemakompatibelt meddelande.
  • Skickar meddelandet.
  • Hantera meddelandekvittenser.
  • Implementera återställningsmekanismer vid fel på klient-, ström- eller serversidan (t.ex. anslutningsproblem, schemamatchningar)

Zerobus Ingest SDK:er tillhandahåller användarvänliga metoder för att utföra klientintegrering, och dokumentationen innehåller exempel på olika utvecklingsmönster. För anpassade integreringar kan SDK:erna fungera som referens för integreringsstruktur och återställningshantering.

Kom igång med Zerobus Ingest

  1. Hämta en Zerobus-inmatnings-URL.
  2. Skapa eller identifiera den tabell som du vill mata in data i.
  3. Skapa ett huvudnamn för tjänsten och bevilja behörigheter till tabellen.
  4. Anslut en klient eller exportör för att börja skicka data.

Välj guiden för ditt användningsfall:

Hållbar återfallsplats

Om en icke-bakåtkompatibel ändring görs i måltabellen efter att Zerobus Ingest gör dina data varaktiga men innan Zerobus Ingest har en chans att överföra filen till lagring, kommer anslutningen att göra data tillgängliga i en separat mapp inom tabellens lagringsplats.

Data sparas som Parquet-filer under följande sökväg i förhållande till tabellens rotkatalog: _zerobus/table_rejected_parquets/

Den här katalogen skapas direkt under tabellens fysiska rotlagringsplats och alla Parquet-filer som genereras av tjänsten skrivs där. Detta säkerställer att alla bevarade data förblir inom tabellens lagringsgräns och följer samma åtkomstkontroller och livscykelprinciper som själva tabellen.

Kostnad

Avgifter för Zerobus-inmatning debiteras mot SKU:n "Automated Serverless". Prissättningen är tillgänglig på sidan för Lakeflow Connect-priser.

Övervaka din användning

Det finns två metoder för att övervaka användningen av Zerobus Ingest-anslutningsappen.

Zerobus-inmatningssystemets tabeller

Du kan övervaka din användning via Zerobus Ingest-systemtabeller. Se Tabellreferens för Zerobus-inmatningssystem.

Tabell över faktureringssystem

Du kan övervaka dina utgifter via tabellen för system för fakturerbar användning. Se Referens för tabell över fakturerbar användning. Filtrera användningen av Zerobus Ingest enligt:

  • billing_origin_product = 'LAKEFLOW_CONNECT'
  • product_features.lakeflow_connect.zerobus_request_type = 'GRPC' eller 'HTTP'

Viktigt!

OpenTelemetry-inmatning (OTLP) är i Beta och faktureras inte för tillfället.