Microsoft Fabric beslutningsvejledning: Vælg en strategi for dataflytning

Microsoft Fabric tilbyder flere måder at bringe data ind i platformen på. Denne guide giver dig en klar anbefaling til de mest almindelige scenarier og giver derefter detaljerede funktionssammenligninger , når du skal dykke dybere.

Hurtig anbefaling: Hvilken dataflytningsmulighed skal jeg bruge?

Brug medaljonarkitekturen som din guide:

  • Gulddata (rapportering og analyse af behandlede data) - Brug spejling. Hvis du allerede har ETL-behandling andre steder og primært har brug for at bringe kuraterede data ind i Fabric til rapportering, er spejling det simpleste og mest omkostningseffektive valg. Det er gratis, kræver minimal opsætning og replikerer løbende dine data i OneLake.

  • Bronze-data (rå indlæsning) - Start med Kopijob. Når du indlæser rådata, får du hurtigt brug for transformationer, skemakortlægning, planlægningskontrol og inkrementel indlæsning. Copy job giver dig disse muligheder direkte uden kompleksiteten ved at bygge pipelines.

  • Real-time streaming data - Brug Eventstreams. For lav-latens, hændelsesdrevet indtastning og behandling tilbyder Eventstreams realtidspipelines med no-code-transformationer og routing til flere destinationer.

  • Kompleks orkestrering – Pipelines giver dig den fleksibilitet til orkestrering, du har brug for, og kopieringsaktiviteter i pipelines tilbyder parameterisering af dataobjekter og metadatadrevet dataindlæsning. Ellers er kopijobaktivitet og kopiaktivitet lige i en pipeline.

For en fuld side-om-side oversigt over kapaciteter og understøttede funktioner, se den detaljerede funktionssammenligning.

Skærmbillede af et beslutningstræ for en dataflytningsstrategi, der sammenligner spejling, eventstream, kopieringsjob og kopieringsaktivitet.

Nøglekoncepter

  • Spejling giver dig en enkel og gratis måde at spejle driftsdata i Fabric til analyse. Den er optimeret til brugervenlighed med minimal opsætning, og den skriver til en enkelt, skrivebeskyttet destination i OneLake.

  • Kopiaktiviteter i Pipelines er bygget til brugere, der har brug for orkestrerede, pipelinebaserede arbejdsprocesser til dataindtagelse. Du kan tilpasse den i vid udstrækning og tilføje transformationslogik, men du skal selv definere og administrere pipelinekomponenter, herunder sporing af tilstanden for den sidste kørsel for trinvis kopiering.

  • Copy Job gør dataindtagelse nemmere med oprindelig understøttelse af flere leveringstypografier, herunder massekopiering, trinvis kopiering og CDC-replikering (Change Data Capture), og du behøver ikke at bygge pipelines, samtidig med at du stadig får adgang til mange avancerede indstillinger. Det understøtter mange kilder og destinationer og fungerer godt, når du vil have mere kontrol end spejling, men mindre kompleksitet end at administrere pipelines med kopiaktivitet.

  • Eventstreams: Designet til indtagelse, transformation og behandling af streamingdata i realtid. Understøtter pipelines med lav ventetid, skemastyring og routing til destinationer som Eventhouse, Lakehouse, Activator og brugerdefinerede slutpunkter, der understøtter (AMQP-, Kafka- og HTTP-slutpunkter).

Detaljeret funktionssammenligning

Følgende tabeller sammenligner de fulde kapaciteter af hver databevægelsesmulighed. Brug dette afsnit, når du skal evaluere specifikke træk til din situation.

Spejling Kopiér job Kopieringsaktivitet (pipeline) Begivenhedsstrømme
Kilder Databaser + tredjepartsintegration i Open Mirroring Alle understøttede datakilder og formater Alle understøttede datakilder og formater 25+ kilder og alle formater
Destinationer Tabelformat i Fabric OneLake (skrivebeskyttet) Alle understøttede destinationer og formater Alle understøttede destinationer og formater 4+ destinationer
Fleksibilitet Enkel opsætning med fast adfærd Let at bruge + Avancerede muligheder Avancerede og fuldt tilpasselige muligheder Enkle og tilpasselige muligheder
Kapacitet Spejling Kopiér job Kopieringsaktivitet (pipeline) Begivenhedsstrømme
Brugerdefineret planlægning Ja Ja Kontinuerlig
Tabel- og kolonnestyring Ja Ja Ja (skema-, hændelses- og feltstyring)
Kopieringsfunktion: Tilføj, upsert, tilsidesætte Ja Ja Tilføj
Avanceret observerbarhed + revision Ja Ja
Kopieringstilstande
CDC-baseret kontinuerlig replikering Ja Ja Ja
Batch- eller massekopi Ja Ja Ja (CDC's indledende snapshot-replikering)
Oprindelig understøttelse af trinvis kopi (vandmærkebaseret) Ja
Kopier ved hjælp af brugerdefineret forespørgsel Ja Ja
Eksempler på brug
Kontinuerlig replikering til analyse og rapportering Ja Ja Ja
Metadatadrevet ELT/ETL til datalagring Ja Ja
Konsolidering af data Ja Ja Ja
Datamigrering / Sikkerhedskopiering af data / Datadeling Ja Ja Ja
Gratis Ja
Forudsigelig ydeevne Ja Ja Ja

Scenarier

Gennemse disse scenarier for at hjælpe dig med at vælge, hvilken dataflytningsstrategi der passer bedst til dine behov.

Scenarie 1

James er økonomichef i et forsikringsselskab. Hans team bruger Azure SQL Database til at spore politikdata, krav og kundeoplysninger på tværs af flere forretningsenheder. Ledelsesteamet ønsker at oprette dashboards i realtid til overvågning af virksomhedens ydeevne, men James kan ikke tillade, at analyseforespørgsler bremser de operationelle systemer, der behandler tusindvis af daglige transaktioner.

James har allerede ETL-behandling på plads, og hans team har brug for de behandlede, guld-niveau data, der er tilgængelige i Fabric til ledelsesrapportering. Han ønsker ikke at styre planlægning, konfigurere trinvise belastninger eller bekymre sig om tabelvalg - han har brug for at alt spejles automatisk. Da dette kun er til rapportering, fungerer det perfekt at have dataene i et skrivebeskyttet format i OneLake. Løsningen skal også være omkostningseffektiv, da den kommer fra hans afdelingsbudget.

James vælger Spejling. Spejling giver den CDC-baserede kontinuerlige replikering, han har brug for, og håndterer automatisk alle tabeller uden nogen konfiguration. Den enkle opsætning betyder, at han ikke har brug for teknisk ekspertise, og den gratis pris passer til hans budget. Det skrivebeskyttede tabelformat i OneLake giver hans team den adgang til analyser, de har brug for, uden at påvirke den operationelle ydeevne.

Scenarie 2

Lisa er forretningsanalytiker i en logistikvirksomhed. Hun skal indsamle rå forsendelsesdata fra flere Snowflake-databaser ind i Fabric Lakehouse-tabeller til analyse af forsyningskæden. Dataene omfatter både historiske registreringer for den første last og nye forsendelser, der ankommer i løbet af dagen. Lisa ønsker at køre denne proces efter en tilpasset tidsplan - hver 4. time i åbningstiden.

Da Lisa bringer bronze-niveau rådata ind, ved hun, at hun hurtigt får brug for transformationer, skema-mapping og planlægningskontrol. Hun skal vælge specifikke tabeller fra hver Snowflake-instans, kortlægge kolonner til standardiserede navne og bruge Upsert Behavior til at håndtere opdateringer af eksisterende forsendelsesposter. Hun ønsker også avanceret overvågning for at spore datakvalitet og behandlingsydelse.

Lisa vælger Kopijob. Copy job leverer den tilpassede planlægning, hun har brug for, understøtter alle datakilder inklusive Snowflake, og tilbyder tabel- og kolonnestyringsfunktioner til hendes multi-region opsætning. Den indbyggede understøttelse af inkrementel kopi med vandmærkebaseret detektion og upsert-adfærd gør det muligt for hende at håndtere disse krav uden at bygge pipelines.

Scenarie 3

David er senior dataingeniør hos et telekommunikationsfirma. Han er ved at opbygge en kompleks arbejdsproces til dataindtagelse, der skal udtrække kundeforbrugsdata fra Oracle ved hjælp af brugerdefinerede SQL-forespørgsler, anvende forretningstransformationer og indlæse dem på flere destinationer, herunder både Fabric Warehouse og eksterne systemer. Arbejdsprocessen skal også koordineres med andre pipelineaktiviteter som datavalidering og meddelelsestrin.

David har brug for fuld kontrol over kopieringsprocessen, herunder muligheden for at bruge brugerdefinerede forespørgsler til at forbinde tabeller og filtrere data ved kilden. Han har brug for avancerede og fuldt tilpasselige konfigurationsmuligheder, forudsigelig ydeevne for store datamængder og evnen til at integrere kopieringsprocessen i bredere pipeline-orkestreringsarbejdsgange med afhængigheder og fejlhåndtering.

David gennemgår de tilgængelige indstillinger og vælger Kopier aktiviteter i pipelines. Denne tilgang giver ham den avancerede og fuldt tilpasselige konfiguration, han har brug for, understøtter brugerdefinerede forespørgsler til kompleks dataudtrækning og giver den pipeline-baserede orkestrering, der kræves til hans arbejdsproces. De avancerede overvågnings- og revisionsfunktioner hjælper ham med at spore den komplekse proces, mens pipelinestrukturen giver ham mulighed for at koordinere kopieringsaktiviteter med andre databehandlingstrin.

Scenarie 4

Ash er produktchef hos en televirksomhed. Hendes team skal overvåge kundesupportmålinger som opkaldsmængder, ventetider og agentpræstationer i realtid for at sikre SLA-overholdelse og forbedre kundetilfredsheden. Dataene kommer fra flere driftssystemer, herunder CRM-platforme, callcenterlogfiler og agenttildelingsdatabaser, og ankommer med høj frekvens i løbet af dagen.

Ash bruger Fabric Eventstreams til at indtage og transformere disse data i bevægelse. Hun konfigurerer streamingconnectorer til at hente data fra forskellige kilder, anvender transformationer ved hjælp af no-code-oplevelsen og distribuerer de behandlede hændelser til Eventhouse for analyse i realtid. Hun integrerer Data Activator for at udløse advarsler og automatiserede arbejdsgange, når SLA-tærskler overskrides, så hun kan sende meddelelser til tilsynsførende eller justere personaleniveauer dynamisk.

Resultatet er et realtidsdashboard, der opdateres inden for sekunder, hvilket giver Ashs team indsigt i live præstationsmålinger og muliggør hurtige, datadrevne beslutninger. Denne streamingarkitektur eliminerer ventetiden for batchpipelines og giver virksomheden mulighed for at reagere øjeblikkeligt på kundernes behov.

Kom i gang

Nu, hvor du har en idé om, hvilken strategi for dataflytning du skal bruge, kan du komme i gang med disse ressourcer: