Fase 3: Hive Metastore og datamigrering

Denne artikkelen er fase 3 av 4 i Azure Synapse Spark to Microsoft Fabric migrerings-serien for beste praksiser.

Bruk denne artikkelen når du er klar til å migrere din Hive Metastore-katalog og planlegge datatilgang i Fabric. Denne artikkelen fokuserer på to beslutninger: hvordan du migrerer tabellmetadataene dine, og om du skal bruke OneLake-snarveier (zero-copy) eller flytte data til tilgjengelig lagring.

I denne artikkelen lærer du hvordan du:

  • Vurder administrerte vs. eksterne tabeller for å finne din migreringsmetode.
  • Eksporter og importer metadata fra Hive Metastore ved hjelp av arbeidsflyter i notatboken.
  • Lag OneLake-snarveier for null-kopitilgang til eksisterende datakilder.
  • Velg mellom snarveier, kopieringspipelines og bulkoverføringsverktøy for dataflyt.

Tips

Lag din mål-Lakehouse med skjemaer aktivert. Lakehouse-skjemaer lar deg organisere tabeller i navngitte samlinger (for eksempel salg, markedsføring, HR). Spark Migration Assistant kartlegger standard Synapse-databasen til dbo-skjemaet, og flere databaser til flere skjemaer i samme Lakehouse. Skjemaer er aktivert som standard når man oppretter en ny Lakehouse i Fabric-portalen.

For den fullstendige HMS-migreringsguiden, se Migrate Hive Metastore metadata.

Vurder administrerte vs. eksterne tabeller

Det viktigste første steget er å skille administrerte fra eksterne tabeller i din Synapse Hive Metastore.

  • Eksterne tabeller: Hvis dataene er i ADLS Gen2 i Delta-format, lag OneLake-snarveier direkte til ADLS Gen2-stiene. Ingen dataflyt nødvendig.
  • Administrerte tabeller: Data lagres i Synapses interne lagerkatalog. Du må lage OneLake-snarveier til denne stien eller kopiere data til et tilgjengelig ADLS Gen2-sted.

Synapse managed table warehouse directory path:

abfss://<container>@<storage>.dfs.core.windows.net/synapse/workspaces/<workspace>/warehouse

Migreringsarbeidsflyt

Microsoft tilbyr eksport/import av notatbøker for migrering av Hive Metastore. Prosessen har to faser.

For den fullstendige HMS-migreringsguiden, se Migrate Hive Metastore metadata.

Fase 1: Eksporter metadata fra Synapse

  1. Importer HMS-eksportnotatboken til ditt Azure Synapse arbeidsområde. Denne notatboken spør og eksporterer HMS-metadata fra databaser, tabeller og partisjoner til en mellomliggende katalog i OneLake.

  2. Konfigurer parametere. Sett Synapse-arbeidsområdets navn, databasenavn til eksport, og målet for OneLake lakehouse for staging. Spark sitt interne katalog-API brukes til å lese katalogobjekter.

  3. Kjør eksporten. Kjør alle notatblokkceller. Metadata skrives til Filer-seksjonen i din Fabric Lakehouse i et strukturert mappehierarki.

Fase 2: Importer metadata til Fabric Lakehouse

  1. Lag snarveier for datatilgang. Lag en snarvei i Filer-seksjonen i Lakehouse som peker til Synapse Spark-lagerkatalogen. Dette gjør administrerte tabelldata tilgjengelig for Fabric.

  2. Konfigurer lagermappinger. For administrerte tabeller, oppgi WarehouseMappings for å erstatte gamle Synapse-lagerkatalogstier med snarveier i Fabric. Alle administrerte tabeller konverteres til eksterne tabeller under importen.

  3. Kjør import notebook i Fabric for å lage katalogobjekter (databaser, tabeller, partisjoner) i Lakehouse ved å bruke Sparks interne katalog-API.

  4. Verifiser. Sjekk at alle importerte tabeller er synlige i Tabellseksjonen i Lakehouse Explorer-grensesnittet.

Begrensninger og hensyn

  • Migrasjonsskriptene bruker Sparks interne katalog-API, ikke direkte HMS-databaseforbindelser. Dette kan være vanskelig å skalere for svært store kataloger — for store miljøer bør du vurdere å endre eksportlogikken for å spørre direkte i HMS-databasen.

  • Det finnes ingen isolasjonsgaranti under eksport. Hvis Synapse Spark-beregningen endrer metastore samtidig, kan inkonsistente data introduseres. Planlegg migrering i et vedlikeholdsvindu.

  • Funksjoner er ikke inkludert i de nåværende migrasjonsskriptene.

  • Etter migrasjon gir OneLake-snarveier kontinuerlig tilgang til data. Hvis Synapse fortsetter å skrive til de samme ADLS Gen2-stiene, ser Fabric de oppdaterte dataene via snarveier automatisk (datanivå-synkronisering). Imidlertid vil ikke nye tabeller eller skjemaendringer i Synapse HMS overføres automatisk — du må kjøre migreringsskriptene på nytt eller manuelt opprette nye tabeller i Fabric Lakehouse.

  • External Hive Metastore (Azure SQL DB / MySQL): Noen Synapse-arbeidsområder bruker et eksternt HMS støttet av Azure SQL Database eller Azure Database for MySQL for å lagre katalogmetadata utenfor arbeidsområdet og dele det med HDInsight eller Databricks. Fabric støtter ikke tilkobling til en ekstern Hive Metastore — den bruker utelukkende Lakehouse-katalogen. Hvis du bruker en ekstern HMS, må du migrere metadataene til Fabric Lakehouse-katalogen. Du kan gjøre dette ved å spørre den eksterne HMS-databasen direkte (via JDBC) for å eksportere tabelldefinisjoner, og deretter gjenskape dem i Fabric med Spark SQL eller HMS-importnotatbøker. Merk at ekstern HMS-støtte i Synapse er utfaset etter Spark 3.4.

Tips

For løpende synkronisering når både Synapse og Fabric er aktive: bruk OneLake-snarveier for datanivå-synkronisering (automatisk), og planlegg periodiske rekjøringer av HMS-eksport/import-notatbøker, eller bygg en avstemmingsnotatbok for å oppdage og synkronisere nye tabeller.

Alternativer for datamigrering

Du har data i ADLS Gen2 koblet til Synapse-arbeidsområdet ditt, som du må gjøre tilgjengelig i Fabric Lakehouse uten unødvendig dataduplisering. Velg blant følgende tilnærminger.

  • OneLake snarveier (anbefalt, null-kopi): Lag snarveier i Fabric Lakehouse som peker på dine eksisterende ADLS Gen2-stier. Delta-formatdata i tabellseksjonen registreres automatisk i Lakehouse-katalogen. CSV/JSON/Parquet-data havner i Filer-seksjonen. Ingen dataflyt kreves.

  • mssparkutils fastcp: For å kopiere data fra ADLS Gen2 til OneLake i notatbøker.

  • AzCopy: Kommandolinjeverktøy for bulk-datakopiering fra ADLS Gen2 til OneLake.

  • Data Factory Copy Activity: Bruk Data Factory Fabric (eller eksisterende ADF/Synapse-pipelines) for å kopiere data til Lakehouse.

  • Azure Storage Explorer: Visuelt verktøy for å flytte filer fra ADLS Gen2 til OneLake.

Tips

Foretrekk snarveier fremfor dataflyt når det er mulig. Snarveier unngår dataduplisering og lagringskostnader, og Delta-tabeller i tabellseksjonen er automatisk tilgjengelige i SQL-analyseendepunktet og Power BI.