Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln är fas 3 av 4 i serien om bästa praxis för migrering från Azure Synapse Spark till Microsoft Fabric.
Använd den här artikeln när du är redo att migrera hive-metaarkivkatalogen och planera dataåtkomst i Fabric. Den här artikeln fokuserar på två beslut: hur du migrerar dina tabellmetadata och om du vill använda OneLake-genvägar (nollkopiering) eller flytta data till tillgänglig lagring.
I den här artikeln lär du dig att:
- Utvärdera hanterade eller externa tabeller för att fastställa migreringsmetoden.
- Exportera och importera Hive Metastore-metadata med hjälp av notebook-arbetsflöden.
- Skapa OneLake-genvägar för nollkopieringsåtkomst till befintliga datakällor.
- Välj mellan snabbkommandon, kopieringspipelines och massöverföringsverktyg för datamigrering.
Tips/Råd
Skapa ditt Lakehouse-mål med scheman aktiverade. Med Lakehouse-scheman kan du ordna tabeller i namngivna samlingar (till exempel försäljning, marknadsföring, hr). Spark Migration Assistant mappar standardsynapse-databasen till schemat dbo och andra databaser till ytterligare scheman i samma Lakehouse. Scheman aktiveras som standard när du skapar ett nytt Lakehouse i Fabric-portalen.
Fullständig HMS-migreringsguide finns i Migrera Hive Metastore-metadata.
Utvärdera hanterade eller externa tabeller
Det kritiska första steget är att skilja hanterade från externa tabeller i ditt Synapse Hive-metastore.
- Externa tabeller: Om data finns i ADLS Gen2 i Delta-format skapar du OneLake-genvägar direkt till ADLS Gen2-sökvägarna. Ingen dataförflyttning behövs.
- Hanterade tabeller: Data lagras i Synapse interna lagerkatalog. Du måste skapa OneLake-genvägar till den här sökvägen eller kopiera data till en tillgänglig ADLS Gen2-plats.
Sökväg till katalogen för Synapse-hanterade tabellager:
abfss://<container>@<storage>.dfs.core.windows.net/synapse/workspaces/<workspace>/warehouse
Arbetsflöde för migrering
Microsoft tillhandahåller export-/importanteckningsböcker för Hive Metastore-migrering. Processen har två faser.
Fullständig HMS-migreringsguide finns i Migrera Hive Metastore-metadata.
Fas 1: Exportera metadata från Synapse
Importera HMS-exportanteckningsboken till din Azure Synapse arbetsyta. Den här notebook-filen frågar och exporterar HMS-metadata för databaser, tabeller och partitioner till en mellanliggande katalog i OneLake.
Konfigurera parametrar. Ange namnet på Synapse-arbetsytan, databasnamnen som ska exporteras och målet OneLake lakehouse för mellanlagring. Det interna Spark-katalog-API:et används för att läsa katalogobjekt.
Kör exporten. Kör alla notebook-celler. Metadata skrivs till avsnittet Filer i din Fabric Lakehouse i en strukturerad mapphierarki.
Fas 2: Importera metadata till Fabric Lakehouse
Skapa genvägar för dataåtkomst. Skapa en genväg i avsnittet Filer i Lakehouse som pekar på Synapse Spark-varuhuskatalogen. Detta gör hanterade tabelldata tillgängliga för Fabric.
Konfigurera lagermappningar. För hanterade tabeller anger du
WarehouseMappingsför att ersätta gamla katalogsökvägar för Synapse-databaslager med genvägssökvägarna i Fabric-kontext. Alla hanterade tabeller konverteras till externa tabeller under importen.Kör importskriptet i Fabric för att skapa katalogobjekt (databaser, tabeller, partitioner) i Lakehouse-miljön med hjälp av Sparks interna katalog-API.
Kontrollera. Kontrollera att alla importerade tabeller visas i avsnittet Tabeller i Lakehouse Explorer-användargränssnittet.
Begränsningar och överväganden
Migreringsskripten använder Sparks interna katalog-API, inte direkta HMS-databasanslutningar. Detta kanske inte skalas bra för mycket stora kataloger – för stora miljöer bör du överväga att ändra exportlogik för att fråga HMS-databasen direkt.
Det finns ingen isoleringsgaranti under exporten. Om Synapse Spark-beräkningen ändrar metaarkivet samtidigt kan inkonsekventa data introduceras. Schemalägg migrering under en underhållsperiod.
Funktioner ingår inte i de aktuella migreringsskripten.
Efter migreringen ger OneLake-genvägar löpande dataåtkomst. Om Synapse fortsätter att skriva till samma ADLS Gen2-sökvägar ser Fabric automatiskt uppdaterade data via genvägar (synkronisering på datanivå). Nya tabeller eller schemaändringar i Synapse HMS sprids dock inte automatiskt – du måste köra migreringsskripten igen eller manuellt skapa nya tabeller i Fabric Lakehouse.
External Hive Metastore (Azure SQL DB/MySQL): Vissa Synapse-arbetsytor använder en extern HMS som backas upp av Azure SQL Database eller Azure Database for MySQL för att bevara katalogmetadata utanför arbetsytan och dela den med HDInsight eller Databricks. Fabric stöder inte anslutning till ett externt Hive-metaarkiv – den använder Lakehouse-katalogen exklusivt. Om du använder en extern HMS måste du migrera metadata till Fabric Lakehouse-katalogen. Du kan göra detta genom att fråga den externa HMS-databasen direkt (via JDBC) för att exportera tabelldefinitioner och sedan återskapa dem i Fabric med Spark SQL eller HMS-importanteckningsböckerna. Observera att det externa HMS-stödet i Synapse är inaktuellt efter Spark 3.4.
Tips/Råd
För pågående synkronisering när både Synapse och Fabric är aktiva: använd OneLake-genvägar för synkronisering på datanivå (automatisk) och schemalägg periodiska omkörningar av HMS-export-/importanteckningsböcker eller skapa en avstämningsanteckningsbok för att identifiera och synkronisera nya tabeller.
Alternativ för datamigrering
Du har data i ADLS Gen2 som är länkade till din Synapse-arbetsyta som du behöver göra tillgängliga i Fabric Lakehouse utan onödig dataduplicering. Välj mellan följande metoder.
OneLake-genvägar (rekommenderas, nollkopiering): Skapa genvägar i Fabric Lakehouse som pekar på dina befintliga ADLS Gen2-sökvägar. Deltaformatdata i avsnittet Tabeller registreras automatiskt i Lakehouse-katalogen. CSV/JSON/Parquet-data finns i avsnittet Filer. Ingen dataflytt krävs.
mssparkutils fastcp: För att kopiera data från ADLS Gen2 till OneLake inom anteckningsböcker.
AzCopy: kommandoradsverktyg för masskopiering av data från ADLS Gen2 till OneLake.
Data Factory Copy Activity: Använd Fabric Data Factory (eller befintliga ADF/Synapse-pipelines) för att kopiera data till Lakehouse.
Azure Storage Explorer: visualiseringsverktyg för att flytta filer från ADLS Gen2 till OneLake.
Tips/Råd
Föredra genvägar framför dataflytt när det är möjligt. Genvägar undviker dataduplicering och lagringskostnader, och Delta-tabeller i avsnittet Tabeller kan identifieras automatiskt i SQL-analysslutpunkten och Power BI.