Fase 3: Hive Metastore og datamigrering

Denne artikkelen er fase 3 av 4 i Azure Synapse Spark to Microsoft Fabric migrerings-serien for beste praksiser.

Bruk denne artikkelen når du er klar til å migrere din Hive Metastore-katalog og planlegge datatilgang i Fabric. Denne artikkelen fokuserer på to beslutninger: hvordan du migrerer tabellmetadataene dine, og om du skal bruke OneLake-snarveier (zero-copy) eller flytte data til tilgjengelig lagring.

I denne artikkelen lærer du hvordan du:

Vurder administrerte vs. eksterne tabeller for å finne din migreringsmetode.
Eksporter og importer metadata fra Hive Metastore ved hjelp av arbeidsflyter i notatboken.
Lag OneLake-snarveier for null-kopitilgang til eksisterende datakilder.
Velg mellom snarveier, kopieringspipelines og bulkoverføringsverktøy for dataflyt.

Tips

Lag din mål-Lakehouse med skjemaer aktivert. Lakehouse-skjemaer lar deg organisere tabeller i navngitte samlinger (for eksempel salg, markedsføring, HR). Spark Migration Assistant kartlegger standard Synapse-databasen til dbo-skjemaet, og flere databaser til flere skjemaer i samme Lakehouse. Skjemaer er aktivert som standard når man oppretter en ny Lakehouse i Fabric-portalen.

For den fullstendige HMS-migreringsguiden, se Migrate Hive Metastore metadata.

Vurder administrerte vs. eksterne tabeller

Det viktigste første steget er å skille administrerte fra eksterne tabeller i din Synapse Hive Metastore.

Eksterne tabeller: Hvis dataene er i ADLS Gen2 i Delta-format, lag OneLake-snarveier direkte til ADLS Gen2-stiene. Ingen dataflyt nødvendig.
Administrerte tabeller: Data lagres i Synapses interne lagerkatalog. Du må lage OneLake-snarveier til denne stien eller kopiere data til et tilgjengelig ADLS Gen2-sted.

Synapse managed table warehouse directory path:

abfss://<container>@<storage>.dfs.core.windows.net/synapse/workspaces/<workspace>/warehouse

Migreringsarbeidsflyt

Microsoft tilbyr eksport/import av notatbøker for migrering av Hive Metastore. Prosessen har to faser.

For den fullstendige HMS-migreringsguiden, se Migrate Hive Metastore metadata.

Fase 1: Eksporter metadata fra Synapse

Importer HMS-eksportnotatboken til ditt Azure Synapse arbeidsområde. Denne notatboken spør og eksporterer HMS-metadata fra databaser, tabeller og partisjoner til en mellomliggende katalog i OneLake.
Konfigurer parametere. Sett Synapse-arbeidsområdets navn, databasenavn til eksport, og målet for OneLake lakehouse for staging. Spark sitt interne katalog-API brukes til å lese katalogobjekter.
Kjør eksporten. Kjør alle notatblokkceller. Metadata skrives til Filer-seksjonen i din Fabric Lakehouse i et strukturert mappehierarki.

Fase 2: Importer metadata til Fabric Lakehouse

Lag snarveier for datatilgang. Lag en snarvei i Filer-seksjonen i Lakehouse som peker til Synapse Spark-lagerkatalogen. Dette gjør administrerte tabelldata tilgjengelig for Fabric.
Konfigurer lagermappinger. For administrerte tabeller, oppgi WarehouseMappings for å erstatte gamle Synapse-lagerkatalogstier med snarveier i Fabric. Alle administrerte tabeller konverteres til eksterne tabeller under importen.
Kjør import notebook i Fabric for å lage katalogobjekter (databaser, tabeller, partisjoner) i Lakehouse ved å bruke Sparks interne katalog-API.
Verifiser. Sjekk at alle importerte tabeller er synlige i Tabellseksjonen i Lakehouse Explorer-grensesnittet.

Begrensninger og hensyn

Migrasjonsskriptene bruker Sparks interne katalog-API, ikke direkte HMS-databaseforbindelser. Dette kan være vanskelig å skalere for svært store kataloger — for store miljøer bør du vurdere å endre eksportlogikken for å spørre direkte i HMS-databasen.
Det finnes ingen isolasjonsgaranti under eksport. Hvis Synapse Spark-beregningen endrer metastore samtidig, kan inkonsistente data introduseres. Planlegg migrering i et vedlikeholdsvindu.
Funksjoner er ikke inkludert i de nåværende migrasjonsskriptene.
Etter migrasjon gir OneLake-snarveier kontinuerlig tilgang til data. Hvis Synapse fortsetter å skrive til de samme ADLS Gen2-stiene, ser Fabric de oppdaterte dataene via snarveier automatisk (datanivå-synkronisering). Imidlertid vil ikke nye tabeller eller skjemaendringer i Synapse HMS overføres automatisk — du må kjøre migreringsskriptene på nytt eller manuelt opprette nye tabeller i Fabric Lakehouse.
External Hive Metastore (Azure SQL DB / MySQL): Noen Synapse-arbeidsområder bruker et eksternt HMS støttet av Azure SQL Database eller Azure Database for MySQL for å lagre katalogmetadata utenfor arbeidsområdet og dele det med HDInsight eller Databricks. Fabric støtter ikke tilkobling til en ekstern Hive Metastore — den bruker utelukkende Lakehouse-katalogen. Hvis du bruker en ekstern HMS, må du migrere metadataene til Fabric Lakehouse-katalogen. Du kan gjøre dette ved å spørre den eksterne HMS-databasen direkte (via JDBC) for å eksportere tabelldefinisjoner, og deretter gjenskape dem i Fabric med Spark SQL eller HMS-importnotatbøker. Merk at ekstern HMS-støtte i Synapse er utfaset etter Spark 3.4.

Tips

For løpende synkronisering når både Synapse og Fabric er aktive: bruk OneLake-snarveier for datanivå-synkronisering (automatisk), og planlegg periodiske rekjøringer av HMS-eksport/import-notatbøker, eller bygg en avstemmingsnotatbok for å oppdage og synkronisere nye tabeller.

Alternativer for datamigrering

Du har data i ADLS Gen2 koblet til Synapse-arbeidsområdet ditt, som du må gjøre tilgjengelig i Fabric Lakehouse uten unødvendig dataduplisering. Velg blant følgende tilnærminger.

OneLake snarveier (anbefalt, null-kopi): Lag snarveier i Fabric Lakehouse som peker på dine eksisterende ADLS Gen2-stier. Delta-formatdata i tabellseksjonen registreres automatisk i Lakehouse-katalogen. CSV/JSON/Parquet-data havner i Filer-seksjonen. Ingen dataflyt kreves.
mssparkutils fastcp: For å kopiere data fra ADLS Gen2 til OneLake i notatbøker.
AzCopy: Kommandolinjeverktøy for bulk-datakopiering fra ADLS Gen2 til OneLake.
Data Factory Copy Activity: Bruk Data Factory Fabric (eller eksisterende ADF/Synapse-pipelines) for å kopiere data til Lakehouse.
Azure Storage Explorer: Visuelt verktøy for å flytte filer fra ADLS Gen2 til OneLake.

Tips

Foretrekk snarveier fremfor dataflyt når det er mulig. Snarveier unngår dataduplisering og lagringskostnader, og Delta-tabeller i tabellseksjonen er automatisk tilgjengelige i SQL-analyseendepunktet og Power BI.

Tilbakemeldinger

Var denne siden nyttig?

Last updated on 2026-04-28

Fase 3: Hive Metastore og datamigrering

Vurder administrerte vs. eksterne tabeller

Migreringsarbeidsflyt

Fase 1: Eksporter metadata fra Synapse

Fase 2: Importer metadata til Fabric Lakehouse

Begrensninger og hensyn

Alternativer for datamigrering

Relatert innhold

Tilbakemeldinger

Flere ressurser