Fase 1: Migrasjonsstrategi og planlegging

Denne artikkelen er fase 1 av 4 i Azure Synapse Spark til Microsoft Fabric migreringsbeste praksis-serien.

Start her før du migrerer noen notatbøker, Spark-jobbdefinisjoner, pooler eller lake-metadata. Denne artikkelen hjelper deg med å vurdere omfanget av din Synapse Spark-eiendom, velge en migreringsmetode som passer din risikotoleranse og leveringstid, og forstå forskjellene i Fabric som påvirker planleggingen.

Ved slutten av dette steget bør du vite hva som må flyttes, hvilket migrasjonsmønster du skal bruke, hvor de største kompatibilitetsrisikoene ligger, og hvilke rollback- eller parallellkjøringsbegrensninger du må ta hensyn til.

I denne artikkelen lærer du hvordan du:

Vurder ditt Synapse Spark-fotavtrykk.
Velg mellom løft-og-skift, fasebasert modernisering og parallellkjøring.
Ta hensyn til tilbakerullings- og synkroniseringsbegrensninger.
Gå gjennom viktige funksjons- og arkitekturforskjeller mellom Synapse Spark og Fabric Spark.

Vurder ditt Synapse Spark-fotavtrykk

Azure Synapse Analytics omfatter flere workload-typer. Denne guiden fokuserer på å migrere Spark-pooler, notatbøker, Spark-jobbdefinisjoner, lake-databaser og Hive Metastore-metadata til Microsoft Fabric. For dedikert veiledning om SQL-pool, pipeline, Data Explorer og sikkerhetsmigrering, se tilhørende veiledninger.

Synapse-arbeidsbelastning	Fabric Destinasjon	Migreringsverktøy/-sti
Gnistbassenger	Fabric Spark (Lakehouse)	Spark Migration Assistant (forhåndsvisning); manuell pool/env-migrering
Bærbare pc	Bærbare PC-er i stoff	Spark Migration Assistant; koderefaktorering for Synapse-spesifikke API-er
Definisjoner av gnistjobb	Fabric Spark-jobbdefinisjoner	Spark Migration Assistant (anbefalt); manuell rekreasjon om nødvendig
Innsjødatabaser	Fabric Lakehouse-katalog	Spark Migration Assistant (Delta-tabeller via snarveier); HMS-eksport/import for ikke-Delta
Hive Metastore	Fabric Lakehouse-katalog	HMS eksport/import av notatbøker; OneLake-snarveier for data
Sammenkoblede tjenester	Fabric Connections / Key Vault	Opprette Fabric Connections; migrere hemmeligheter til Key Vault; refaktorere notatbokkode

Kjør Fabric Assessment Tool

Før du planlegger migreringen, kjør Fabric Assessment Tool for å generere en omfattende rapport over Synapse-kildearbeidsområdet ditt. Verktøyet skanner arbeidsområdet ditt og samler en oppsummering av alle objekter — Spark-pooler, notatbøker, Spark-jobbdefinisjoner, lake-databaser, tilknyttede tjenester og deres konfigurasjoner — noe som gir deg et klart bilde av migreringsomfanget.

Last ned verktøyet. Fabric Assessment Tool er tilgjengelig i Microsoft fabric-toolbox GitHub-repositoriet på microsoft/fabric-toolbox.
Kjør vurderingen. Pek verktyget mot ditt Azure Synapse workspace. Den skanner alle Spark-relaterte elementer og lager en rapport med antall objekter, konfigurasjoner, avhengigheter og potensielle kompatibilitetsproblemer.
Se gjennom rapporten. Bruk vurderingsresultatet for å forstå omfanget av migreringen din: hvor mange notatbøker, pooler, SJD-er og databaser som må migreres, hvilke koblede tjenester som er i bruk, og hvilke potensielle blokkere som finnes (GPU-pooler, ikke-støttede funksjoner og andre).

Tips

Bruk vurderingsverktøyet tidlig i planleggingsprosessen. Rapporten hjelper deg med å estimere innsatsen, identifisere blokkeringer og prioritere hvilke arbeidsbelastninger som bør migreres først. Den fungerer også som basisinventar for fase 1 av migrasjonssjekklisten.

Migrasjonsmønstre

Velg ditt migrasjonsmønster basert på organisatoriske begrensninger, risikotoleranse og tidslinje.

Løft-og-skift-mønster

Migrer alle Spark-arbeidsbelastninger samtidig ved hjelp av Migration Assistant med minimale endringer. Fokuser på å få notatbøker og jobber til å kjøre i Fabric så raskt som mulig — refaktorere kun det som går i stykker (lenkede tjenester, filstier, ustøttede API-er). Aksepterer den nåværende arkitekturen as-is.

Bruk løft-og-skift når:

Arbeidsområdet ditt i Synapse blir avviklet med en fast tidsfrist, og du må handle raskt.
Dine Spark-arbeidsbelastninger er allerede godt arkitektonert (Delta-først, ren kode, få lenkede tjenesteavhengigheter).
Arbeidsplassen din er håndterbar for en engangsmigrering, og teamet ditt kan håndtere refaktoreringsarbeidet i én sprint.
Nedstrømsbrukere (Power BI, API-er) tåler et kort overgangsvindu.

Fasevis modernisering

Migrer arbeidsbelastninger trinnvis etter prioritet, og omstrukturer underveis. Start med arbeidsbelastningene med høyest verdi eller minst risiko først. Når du migrerer hver batch, konsolider Spark-pooler til færre miljøer, ta i bruk Lakehouse beste praksis (Delta-først, V-Order for BI-forbrukere), aktiver NEE, og redesign for Direct Lake.

Bruk trinnvis modernisering når:

Du har et stort eller komplekst Synapse-miljø med flere team og ulike arbeidsbelastninger som ikke kan migreres på én gang.
Din nåværende arkitektur har teknisk gjeld du vil ta tak i (ikke-Delta-formater, mount-point-avhengigheter, omfattende Spark-pooler).
Du har fleksibilitet i tidsplanen og ønsker å forbedre ytelse og kostnadseffektivitet under migreringen.
Ulike arbeidsbelastninger har forskjellige eiere og krever uavhengige migreringsplaner.

Parallelkjøringsmønster

Kjør begge miljøene samtidig under overgangen. Rute nye Spark-arbeidsbelastninger til Fabric mens eldre arbeidsbelastninger fortsetter på Synapse. Valider migrerte arbeidsbelastninger ved å sammenligne resultater side om side før du kutter over. Gradvis avvikle Synapse etter hvert som selvtilliten vokser.

Bruk en parallellkjøring når:

Arbeidsbelastningene dine har strenge SLA-er eller regulatoriske krav som krever utvidet validering før cutover.
Du må bevise at Fabric-ytelsen oppfyller eller overgår Synapse før interessenter godkjenner avvikling.
Dine nedstrømsforbrukere (dashbord, API-er, ML-modeller) tåler ikke noen avvik under overgangen.
Du migrerer produksjonspipelines hvor feil resultater har stor forretningseffekt (finansiell rapportering, etterlevelse).

Parallellkjøring introduserer et datasynkroniseringsproblem som du må designe for på forhånd. Velg ett av disse mønstrene:

Delt lagringslag: Ha både Synapse og Fabric lese og skrive til samme ADLS Gen2-lagring via OneLake-snarveier. Dette holder begge plattformene på de samme Delta-filene, men du må forhindre skrivekonflikter ved å sørge for at kun én plattform skriver til en gitt tabell om gangen.
Write-once, read-both: Behold Synapse som hovedskriver under overgangen og la Fabric lese de samme dataene via snarveier. Etter at du har validert de migrerte notatbøkene i Fabric, bytt skrive-til-stien til Fabric og gjør Synapse til den skrivebeskyttede forbrukeren til den tas ut av drift. Dette er det tryggeste alternativet for de fleste migrasjoner.
Dobbeltskriving: Unngå å kjøre samme ETL i begge miljøer samtidig med mindre du allerede har automatisert sammenlignings- og avstemmingsverktøy. Dobbeltskriving har en tendens til å skape divergens, duplisering og operasjonell overhead.

Parallellkjøring påvirker også endringshåndtering. Selv om Synapse fortsatt er det aktive utviklingsmiljøet, reflekteres ikke endringer i notatbok, Spark-jobbdefinisjon, Spark-poolkonfigurasjon eller endringer i lake-databaseskjemaer gjort i Synapse automatisk i Fabric. Du må remigrere de berørte ressursene for å holde begge miljøene på linje.

Notebook kodeendringer: Kjør Spark Migration Assistant på nytt eller eksporter og importer de oppdaterte notatbøkene manuelt. Gjenoppfør all Fabric-spesifikk koderefaktorering, inkludert notebookutils, filstioppdateringer og Key Vault hemmeligheter.
Spark-jobbdefinisjonsendringer: Migrer gjennom Migration Assistant på nytt eller gjenopprett de oppdaterte SJD-ene manuelt i Fabric.
Spark-poolkonfigurasjonsendringer: Oppdater det tilsvarende Fabric-miljøet for å matche den reviderte nodestørrelsen, autoskaleringsinnstillingene og bibliotekene.
Lake databaseskjema-endringer: Kjør HMS eksport/import notatbøker på nytt, eller lag eller endre de berørte tabellene manuelt i Fabric lakehouse.

For å redusere remigrasjonskostnader, innfør en endringsfrys på Synapse-siden når migrasjonen begynner. Hvis endringer er uunngåelige, før en endringslogg slik at du kan spille dem om igjen i Fabric før cutover.

Tilbakerullingsvurderinger

Migrasjon fra Synapse til Fabric er en kopieringsoperasjon — den endrer eller sletter ikke kilde-Synapse-arbeidsområdet ditt. Dine opprinnelige Spark-pooler, notatbøker og data forblir intakte gjennom hele prosessen. Dette gjør rollback enkelt:

Hvis migreringsresultatene ikke er tilfredsstillende, fortsett å bruke ditt eksisterende Synapse-arbeidsområde. Ingen endringer trenger å reverseres.
Slett de migrerte Fabric-artefaktene (notatbøker, miljøer, Spark-jobbdefinisjoner) og prøv på nytt etter å ha løst problemene.
OneLake-snarveier peker til din eksisterende ADLS Gen2-lagring — fjerning av snarveier påvirker ikke de underliggende dataene.
Ikke deaktiver Synapse-arbeidsområdet før alle migrerte arbeidsmengder er validert i Fabric og nedstrømsbrukere er omdirigert.

Tips

Start i det små og bevis levedyktighet raskt. Velg en representativ Spark-arbeidsbelastning og migrer den fra ende til ende — fra pooloppsett via notatbok-refaktorering til validering. Velg noe som følger dine vanligste mønstre (datatilgang, tilknyttede tjenester, katalogoperasjoner), men som er lavrisiko nok til å iterere på. Dokumenter stegene, problemene som oppstår, og løsninger for å bygge en repeterbar prosess for påfølgende migreringer.

Funksjonsparitet og viktige forskjeller

Å forstå de arkitektoniske forskjellene mellom Synapse og Fabric er avgjørende for planleggingen. Følgende tabeller fremhever viktige forskjeller i beregningsarkitektur og Spark-kapasiteter.

For full sammenligning, se Sammenlign Fabric og Azure Synapse Spark: Key Differences.

Beregning og arkitektur

Evnen	Azure Synapse	Microsoft Fabric
Utrullingsmodell	PaaS (konfigurer og administrer ressurser)	SaaS (kapasitetsbasert, ingen infrastrukturstyring)
Beregningsmodell	Gnistpooler (nodebaserte); krever minimum 3 noder	Kapasitetsenheter (CU) delt på tvers av alle arbeidsbelastninger; Spark-pooler som konfigurasjonsmaler; enkeltnode-utførelse støttes; Autoscale Billing for Spark (betaling per bruk, lik Synapse-modellen)
Gnistmotor	Synapse gnistbassenger (Gnist 3.4, 3.5); GPU-pooler støttes	Fabric Spark (kjøretid 1.2/1.3/2.0: Spark 3.4–4.0); ingen GPU-støtte; kjører på nyeste generasjons maskinvare for bedre ytelse
skalering	Node autoskalering for Spark (minst 3 noder)	Node autoscale for Spark (enkeltnode minimum); Kapasitetsbasert skalering
Oppstart av sesjon	Bassengbasert; Kaldstart for nye klynger	Startbassenger (oppstart på andre nivå); Skreddersydde live-bassenger; Høy samtidighetsmodus
Kostmodell	Per node-time (Spark); pause/fortsett	To alternativer: (1) Fabric Spark bruker en Capacity Unit (CU)-basert delt forbruksmodell, eller (2) Autoscale Billing for Spark – pay as you go Spark-modus

Spark: Synapse Spark vs. Fabric Spark

Evnen	Synapse Spark	Fabric Spark
Spark-versjoner	Spark 3.4 (EOL), 3.5 (Forhåndsvisning).	Spark 3.4 (RT 1.2 EOL), 3.5 (RT 1.3 GA), 4.0 (RT 2.0 forhåndsvisning)
Spørringsakselerasjon	Ingen innebygd akselerasjonsmotor	Innebygd utførelsesmotor (Velox/Gluten, opptil 4x på TPC-DS)
Bassengmodell	Faste pooler med maks antall noder per pool; Minimum 3 noder	Startbassenger (oppstart på sekundnivå, ingen konfigurasjon nødvendig); Egendefinerte pooler for spesifikke nodestørrelser og tilpassede biblioteker; Enkeltnode-utførelse støttes
Sikkerhet (nettverk)	Administrert virtuelt nettverk; Private endepunkter	Administrerte private endepunkter (MPE); Utgående tilgangspolicyer (OAP); Customer-Managed Keys (CMK)
GPU-støtte	GPU-akselererte pooler tilgjengelig	Støttes ikke
Høy samtidighet	Støttes ikke	Støttet: flere notatbøker deler én Spark-økt
Bibliotekbehandling	Biblioteker på basseng- og arbeidsområdenivå; manuell oplasting av hjul, JAR-er, tar.gz	Miljøbasert biblioteksadministrasjon: offentlige feeds (PyPI/Conda) + egendefinerte opplastinger (hjul, JAR-er). For å replikere biblioteker på arbeidsområdenivå i Synapse, lag et miljø med de nødvendige bibliotekene og sett det som arbeidsområdestandard. Alle notatbøker og SJD-er i arbeidsområdet arver det automatisk.
V-ordre	Ikke tilgjengelig	Skrivetids Parquet-optimalisering; 40–60% forbedring for Power BI Direct Lake og ~10% for SQL-analyseendepunkt; ingen Spark-lesefordel; 15–33% skriveoverhead
Optimaliser Skriv	Deaktivert som standard	Aktivert som standard
Standard tabellformat	Parkett (Delta valgfritt)	Delta Lake (standard og påkrevd for Lakehouse-tabeller)
Hive Metastore	innebygd HMS; ekstern HMS via Azure SQL DB eller MySQL (foreldet etter Spark 3.4)	Fabric Lakehouse-katalog; HMS-migrering via eksport/import-skript
DMTS i notatbøker	Støttes	Støttes i notatbøker; ennå ikke støttet i Spark-jobbdefinisjoner
Administrert identitet for KV	Støttes	Støttet i notatbøker og Spark-jobbdefinisjoner
mssparkutils	Fullt bibliotek (FS, legitimasjon, notatbok, miljø, innsjøhus)	notebookutils (lignende API; noen forskjeller i metodenavn)

Tilbakemeldinger

Var denne siden nyttig?

Last updated on 2026-04-28