Merk
Tilgang til denne siden krever autorisasjon. Du kan prøve å logge på eller endre kataloger.
Tilgang til denne siden krever autorisasjon. Du kan prøve å endre kataloger.
Denne artikkelen er fase 3 av 4 i Azure Synapse Spark to Microsoft Fabric migrerings-serien for beste praksiser.
Bruk denne artikkelen når du er klar til å migrere din Hive Metastore-katalog og planlegge datatilgang i Fabric. Denne artikkelen fokuserer på to beslutninger: hvordan du migrerer tabellmetadataene dine, og om du skal bruke OneLake-snarveier (zero-copy) eller flytte data til tilgjengelig lagring.
I denne artikkelen lærer du hvordan du:
- Vurder administrerte vs. eksterne tabeller for å finne din migreringsmetode.
- Eksporter og importer metadata fra Hive Metastore ved hjelp av arbeidsflyter i notatboken.
- Lag OneLake-snarveier for null-kopitilgang til eksisterende datakilder.
- Velg mellom snarveier, kopieringspipelines og bulkoverføringsverktøy for dataflyt.
Tips
Lag din mål-Lakehouse med skjemaer aktivert. Lakehouse-skjemaer lar deg organisere tabeller i navngitte samlinger (for eksempel salg, markedsføring, HR). Spark Migration Assistant kartlegger standard Synapse-databasen til dbo-skjemaet, og flere databaser til flere skjemaer i samme Lakehouse. Skjemaer er aktivert som standard når man oppretter en ny Lakehouse i Fabric-portalen.
For den fullstendige HMS-migreringsguiden, se Migrate Hive Metastore metadata.
Vurder administrerte vs. eksterne tabeller
Det viktigste første steget er å skille administrerte fra eksterne tabeller i din Synapse Hive Metastore.
- Eksterne tabeller: Hvis dataene er i ADLS Gen2 i Delta-format, lag OneLake-snarveier direkte til ADLS Gen2-stiene. Ingen dataflyt nødvendig.
- Administrerte tabeller: Data lagres i Synapses interne lagerkatalog. Du må lage OneLake-snarveier til denne stien eller kopiere data til et tilgjengelig ADLS Gen2-sted.
Synapse managed table warehouse directory path:
abfss://<container>@<storage>.dfs.core.windows.net/synapse/workspaces/<workspace>/warehouse
Migreringsarbeidsflyt
Microsoft tilbyr eksport/import av notatbøker for migrering av Hive Metastore. Prosessen har to faser.
For den fullstendige HMS-migreringsguiden, se Migrate Hive Metastore metadata.
Fase 1: Eksporter metadata fra Synapse
Importer HMS-eksportnotatboken til ditt Azure Synapse arbeidsområde. Denne notatboken spør og eksporterer HMS-metadata fra databaser, tabeller og partisjoner til en mellomliggende katalog i OneLake.
Konfigurer parametere. Sett Synapse-arbeidsområdets navn, databasenavn til eksport, og målet for OneLake lakehouse for staging. Spark sitt interne katalog-API brukes til å lese katalogobjekter.
Kjør eksporten. Kjør alle notatblokkceller. Metadata skrives til Filer-seksjonen i din Fabric Lakehouse i et strukturert mappehierarki.
Fase 2: Importer metadata til Fabric Lakehouse
Lag snarveier for datatilgang. Lag en snarvei i Filer-seksjonen i Lakehouse som peker til Synapse Spark-lagerkatalogen. Dette gjør administrerte tabelldata tilgjengelig for Fabric.
Konfigurer lagermappinger. For administrerte tabeller, oppgi
WarehouseMappingsfor å erstatte gamle Synapse-lagerkatalogstier med snarveier i Fabric. Alle administrerte tabeller konverteres til eksterne tabeller under importen.Kjør import notebook i Fabric for å lage katalogobjekter (databaser, tabeller, partisjoner) i Lakehouse ved å bruke Sparks interne katalog-API.
Verifiser. Sjekk at alle importerte tabeller er synlige i Tabellseksjonen i Lakehouse Explorer-grensesnittet.
Begrensninger og hensyn
Migrasjonsskriptene bruker Sparks interne katalog-API, ikke direkte HMS-databaseforbindelser. Dette kan være vanskelig å skalere for svært store kataloger — for store miljøer bør du vurdere å endre eksportlogikken for å spørre direkte i HMS-databasen.
Det finnes ingen isolasjonsgaranti under eksport. Hvis Synapse Spark-beregningen endrer metastore samtidig, kan inkonsistente data introduseres. Planlegg migrering i et vedlikeholdsvindu.
Funksjoner er ikke inkludert i de nåværende migrasjonsskriptene.
Etter migrasjon gir OneLake-snarveier kontinuerlig tilgang til data. Hvis Synapse fortsetter å skrive til de samme ADLS Gen2-stiene, ser Fabric de oppdaterte dataene via snarveier automatisk (datanivå-synkronisering). Imidlertid vil ikke nye tabeller eller skjemaendringer i Synapse HMS overføres automatisk — du må kjøre migreringsskriptene på nytt eller manuelt opprette nye tabeller i Fabric Lakehouse.
External Hive Metastore (Azure SQL DB / MySQL): Noen Synapse-arbeidsområder bruker et eksternt HMS støttet av Azure SQL Database eller Azure Database for MySQL for å lagre katalogmetadata utenfor arbeidsområdet og dele det med HDInsight eller Databricks. Fabric støtter ikke tilkobling til en ekstern Hive Metastore — den bruker utelukkende Lakehouse-katalogen. Hvis du bruker en ekstern HMS, må du migrere metadataene til Fabric Lakehouse-katalogen. Du kan gjøre dette ved å spørre den eksterne HMS-databasen direkte (via JDBC) for å eksportere tabelldefinisjoner, og deretter gjenskape dem i Fabric med Spark SQL eller HMS-importnotatbøker. Merk at ekstern HMS-støtte i Synapse er utfaset etter Spark 3.4.
Tips
For løpende synkronisering når både Synapse og Fabric er aktive: bruk OneLake-snarveier for datanivå-synkronisering (automatisk), og planlegg periodiske rekjøringer av HMS-eksport/import-notatbøker, eller bygg en avstemmingsnotatbok for å oppdage og synkronisere nye tabeller.
Alternativer for datamigrering
Du har data i ADLS Gen2 koblet til Synapse-arbeidsområdet ditt, som du må gjøre tilgjengelig i Fabric Lakehouse uten unødvendig dataduplisering. Velg blant følgende tilnærminger.
OneLake snarveier (anbefalt, null-kopi): Lag snarveier i Fabric Lakehouse som peker på dine eksisterende ADLS Gen2-stier. Delta-formatdata i tabellseksjonen registreres automatisk i Lakehouse-katalogen. CSV/JSON/Parquet-data havner i Filer-seksjonen. Ingen dataflyt kreves.
mssparkutils fastcp: For å kopiere data fra ADLS Gen2 til OneLake i notatbøker.
AzCopy: Kommandolinjeverktøy for bulk-datakopiering fra ADLS Gen2 til OneLake.
Data Factory Copy Activity: Bruk Data Factory Fabric (eller eksisterende ADF/Synapse-pipelines) for å kopiere data til Lakehouse.
Azure Storage Explorer: Visuelt verktøy for å flytte filer fra ADLS Gen2 til OneLake.
Tips
Foretrekk snarveier fremfor dataflyt når det er mulig. Snarveier unngår dataduplisering og lagringskostnader, og Delta-tabeller i tabellseksjonen er automatisk tilgjengelige i SQL-analyseendepunktet og Power BI.