Få data inn i Microsoft Fabric

Microsoft Fabric gir flere måter å bringe data inn i analysemiljøet ditt på. Enten du trenger å behandle strømmehendelser i sanntid, replikere operative databaser, orkestrere batch-pipelines eller få tilgang til data uten å kopiere dem, tilbyr Fabric innebygde muligheter for å støtte hvert scenario. Fabric støtter også regulerte datadelingsmønstre gjennom OneLake, noe som muliggjør kryss-leietaker- og arbeidsområde-tilgang til levende datasett uten duplisering.

Denne artikkelen beskriver de primære alternativene for datainntak og dataflyt i Fabric. Den dekker:

  • Sanntidsinntak med Eventstreams og Eventhouse
  • Batch-orkestrering med Data Factory-pipelines og kopieringsjobb
  • Nesten sanntids replikasjon med speiling
  • Datavirtualisering med OneLake-snarveier

Bruk denne oversikten for å forstå hvordan hver tilnærming fungerer og velg strategien som best passer dine arbeidsbelastningsbehov for latenstid, transformasjon og operasjonell kompleksitet.

Datainntak i sanntid

Eventstreams og Eventhouse-elementer i Real-Time Intelligence-arbeidsbelastningen støtter strømmingsdatascenarier. Eventstreams tar inn og behandler sanntidshendelser, og Eventhouses lagrer og spør disse hendelsene i stor skala. Du bruker vanligvis en Eventstream for å samle inn og rute data til et Eventhouse. Du kan også bruke hver funksjon uavhengig basert på dine behov. Følgende diagram viser hvordan sanntidsdatasett flyter til Eventstream og Eventhouse in Fabric:

Diagram over sanntidsdatasett som flyter til Eventstream eller Eventhouse.

Inntak og rute-hendelser med Eventstream

Eventstream gir en no-code-opplevelse for å legge inn hendelser i Fabric, anvende transformasjoner i strømmen og rute data til flere destinasjoner. En hendelsesstrøm fungerer som en sanntids inntakspipeline. Du oppretter en Eventstream og legger til en eller flere kildekoblinger. Fabric støtter mange strømmekilder, inkludert interne Fabric-hendelser som Fabric-arbeidsområder, OneLake-filhendelser og pipeline-jobbhendelser.

Etter at hendelsene begynner å flyte, kan du bruke valgfrie sanntidstransformasjoner via en dra-og-slipp-editor. For eksempel kan du filtrere hendelser, beregne tidsvindu-aggregater, koble sammen flere strømmer eller omforme felt uten å skrive kode.

Du kan sende den behandlede strømmen til en eller flere støttede destinasjoner. Eventstreams kan eksponere Apache Kafka-endepunkter gjennom egendefinerte endepunktskilder og destinasjoner. Denne funksjonaliteten gjør det mulig for Kafka-produsenter å strømme hendelser til Fabric og Kafka-forbrukere å konsumere hendelser fra Fabric.

Eventstreams lagrer ikke data permanent. De strømmer hendelser gjennom minnet og videresender dem til konfigurerte destinasjoner. Dette designet gjør Eventstreams egnet for sanntids uttrekking, transformasjon, lasting (ETL) scenarier og for distribusjon av strømmende data til flere mål. For eksempel kan du ta inn telemetri fra Internet of Things (IoT)-sensorer, filtrere og aggregere data i sanntid, sende den raffinerte strømmen til et Eventhouse for analyse, og rute anomalihendelser til Activator for varsling.

Importer data direkte inn i Eventhouse

Eventhouses kan ta inn data direkte fra flere kilder. Fabric inkluderer en integrert Hent-dataopplevelse i Eventhouse. Veiviseren kobler til kilder som lokale filer, Azure Storage, Amazon S3, Azure Event Hubs og OneLake. Du kan laste data inn i en Kusto Query Language (KQL) databasetabell i sanntid eller batchmodus ved å bruke Eventhouse-brukergrensesnittet.

Du kan også velge en eksisterende Eventstream i Fabric som kilde. For eksempel, hvis du bruker en Eventstream som tar inn data fra IoT Hub eller Kafka, kan du rute utdataene direkte til en KQL-databasetabell uten ekstra konfigurasjon.

Batchdatainntak

Data Factory gir hovedopplevelsen for tradisjonelle extract, transform, load (ETL) og extract, load, transform (ELT) pipelines. Den inkluderer et stort tilkoblingsbibliotek. Fabric Data Factory tilbyr en liste over native koblinger for lokale og skybaserte datalagre, inkludert databaser, programvare som en tjeneste (SaaS)-applikasjoner og filbaserte systemer. Disse kontaktene hjelper deg å koble til nesten hvilket som helst kildesystem.

Orkestrer databevegelse med pipelines

Du kan bygge pipelines som bruker disse koblingene til å kopiere eller flytte data til OneLake eller analytiske lagre. Denne tilnærmingen støtter:

  • Ustrukturerte datasett som bilder, video og lyd
  • Semistrukturerte datasett som JSON, CSV og XML
  • Strukturerte datasett fra støttede relasjonsdatabasesystemer

I en pipeline kombinerer du flere orkestreringskomponenter, inkludert:

Du kan kjøre en pipeline på forespørsel, etter en tidsplan, eller som respons på hendelser. For eksempel kan du planlegge en pipeline til å kjøre hver andre time på ukedager, eller utløse den når en ny fil opprettes i OneLake.

Forenkle databevegelse med kopijobb

Copy job støtter flere dataleveringsmønstre, inkludert bulkkopiering, inkrementell kopiering og endringsdatainnsamling (CDC). Du kan bruke Copy-jobben for å flytte data fra en kilde til OneLake uten å opprette en pipeline, samtidig som du fortsatt har tilgang til avanserte konfigurasjonsinnstillinger. Copy job støtter mange kilder og destinasjoner. Det gir mer kontroll enn speiling og mindre operasjonell kompleksitet enn å administrere pipelines som bruker kopieringsaktiviteten.

Repliker data med speiling

Speiling replikerer data fra eksterne systemer inn i Fabric i nesten sanntid med automatisert oppsett. Du kobler til et eksternt system, som Azure SQL Database, SQL Server, Oracle, SAP eller Snowflake. Fabric replikerer kontinuerlig data eller metadata inn i OneLake. Speiling støtter tre typer:

  • Databasespeiling replikerer hele databaser og tabeller.
  • Metadataspeiling synkroniserer metadata som katalognavn, skjemaer og tabeller i stedet for fysisk å flytte data. Denne tilnærmingen bruker snarveier slik at data forblir i kildesystemet samtidig som det fortsatt er tilgjengelig i Fabric.
  • Åpen speiling bruker det åpne Delta Lake-tabellformatet. Utviklere kan skrive applikasjonsendringer direkte til et speilet databaseelement i OneLake ved å bruke offentlige API-er.

Fabric lytter etter endringer i kildesystemet (gjennom innsamling av endringsdata eller lignende metoder) og anvender disse endringene nær i sanntid på den speilede kopien. Resultatet er et levende, spørrbart datasett som holder seg synkronisert med lav forsinkelse, uten komplekse ETL-pipelines.

Speiling støtter for øyeblikket ulike kilder, inkludert Azure SQL Database, SQL Managed Instance, Azure Cosmos DB, Azure Database for PostgreSQL, Google BigQuery, Oracle, SAP, Snowflake og SQL Server. Den støtter også datakilder fra partnerløsninger som har implementert Open Mirroring API. Speilede data lagres i OneLake som up-to-dato Delta-tabeller. Fabric vedlikeholder disse tabellene automatisk slik at du kan bruke dem til sanntidsanalyse eller kombinere dem med annen Fabric-data. Denne funksjonaliteten støtter hybride transaksjons- og analytiske prosesseringsscenarier, hvor operasjonelle data kontinuerlig strømmer inn i analyseplattformen din.

Speiling fjerner behovet for å bygge inkrementelle belastningspipelines manuelt. Fra et speilingskostnadsperspektiv bruker ikke beregningsoperasjoner som holder speilede databaser synkronisert Capacity Units (CUs) fra din Fabric-kapasitet. Speilet datalagring i OneLake er også gratis opp til terabytegrensen i din Fabric SKU (for eksempel inkluderer F64 64 TB gratis speilet databaselagring).

Få tilgang til eksterne data med snarveier

Fabric tilbyr snarveier for å muliggjøre datavirtualisering. En snarvei i OneLake refererer til data lagret i et eksternt system, som Azure Data Lake Storage Gen2, Amazon S3 eller SharePoint. Snarveier kan også referere til data innenfor OneLake selv, inkludert data fra andre arbeidsområder og data delt mellom leietakere gjennom OneLake-datadeling. I stedet for å kopiere data, lar snarveier OneLake referere til eksterne og interne filer som en del av den samlede datalakeen. Du kan spørre eller koble eksterne data med lokale data uten å utføre en innledende migrering. Denne tilnærmingen uten kopiering er nyttig når krav til dataresidens eller problemer med duplisering hindrer flytting av data. Følgende diagram viser hvordan snarveier kobler eksterne lagringssystemer til Fabric-elementer uten å kopiere data:

Diagram over arkitekturen for eksterne lagringssnarveier.

OneLake kan oppdage datatypen som refereres til via en snarvei og anvende enten filtransformasjoner eller AI-transformasjoner uten behov for pipeline eller egendefinert kode. Disse transformasjonene fungerer på alle snarveismål, inkludert data delt fra andre leietakere gjennom OneLake-datadeling. OneLake opprettholder automatisk den resulterende Delta-tabellen synkronisert med kilden. For eksempel kan du konvertere .csv filer til Delta-tabeller eller anvende AI-basert sentimentanalyse på .txt filer i en mappe.

Kombinert med speiling gir snarveier deg fleksible datatilgangsmønstre. Du kan holde data på plass ved å bruke snarveier, eller du kan replikere data ved å bruke speiling. I begge tilfeller er dataene klare for Fabric-analyseverktøy uten komplisert ETL.

Beslutningsveiledning: Velg en strategi for dataflytting

Microsoft Fabric tilbyr flere alternativer for å bringe data inn i Fabric, inkludert Eventstreams for sanntidsbehandling, speiling, pipelines med kopieringsaktiviteter, kopijobb og snarveier. Hvert alternativ tilbyr en forskjellig balanse mellom kontroll, automatisering og operasjonell kompleksitet. Når du trenger live, regulert tilgang til data som allerede er i OneLake (enten i samme leietaker eller delt fra en annen organisasjon), vurder å kombinere OneLake-datadeling med snarveier i stedet for å replikere data.

For veiledning om å velge riktig tilnærming for ditt scenario, se Microsoft Fabric-beslutningsguide: Velg en databevegelsesstrategi.