Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel ist Phase 3 von 4 in der Reihe bewährter Praktiken für die Migration von Azure Synapse Spark zu Microsoft Fabric.
Verwenden Sie diesen Artikel, wenn Sie bereit sind, Ihren Hive-Metastore-Katalog zu migrieren und den Datenzugriff in Fabric zu planen. Dieser Artikel konzentriert sich auf zwei Entscheidungen: wie Sie Ihre Tabellenmetadaten migrieren und ob Sie OneLake-Verknüpfungen (Nullkopie) verwenden oder Daten in den zugänglichen Speicher verschieben.
In diesem Artikel erfahren Sie, wie Sie:
- Bewerten Sie verwaltete und externe Tabellen, um Ihren Migrationsansatz zu ermitteln.
- Exportieren und Importieren von Metadaten des Hive-Metaspeichers mithilfe von Notizbuchworkflows
- Erstellen Sie OneLake-Verknüpfungen für den Zero-Copy-Zugriff auf vorhandene Datenquellen.
- Wählen Sie zwischen Verknüpfungen, Kopierpipelines und Massenübertragungstools für die Datenverschiebung.
Tipp
Erstellen Sie Ihr Ziel-Lakehouse mit aktivierten Schemas. Lakehouse-Schemas ermöglichen es Ihnen, Tabellen in benannte Sammlungen zu organisieren (z. B. Vertrieb, Marketing, HR). Die Spark Migration Assistant ordnet die Synapse-Standarddatenbank dem Schema dbo und zusätzlichen Datenbanken zusätzlichen Schemas im selben Lakehouse zu. Schemas sind beim Erstellen eines neuen Lakehouse im Fabric-Portal standardmäßig aktiviert.
Den vollständigen HMS-Migrationsleitfaden finden Sie unter Migrieren von Metadaten für den Hive-Metastore.
Bewerten verwalteter und externer Tabellen
Der kritische erste Schritt besteht darin, zwischen verwalteten und externen Tabellen in Ihrem Synapse Hive Metastore zu unterscheiden.
- Externe Tabellen: Wenn sich Daten im ADLS Gen2 im Delta-Format befinden, erstellen Sie OneLake-Verknüpfungen direkt zu den ADLS Gen2-Pfaden. Keine Datenverschiebung erforderlich.
- Verwaltete Tabellen: Die Daten werden im internen Lagerverzeichnis von Synapse gespeichert. Sie müssen OneLake-Verknüpfungen zu diesem Pfad erstellen oder Daten an einen zugänglichen ADLS Gen2-Speicherort kopieren.
Synapse-verwalteter Tabellenspeicher-Verzeichnispfad:
abfss://<container>@<storage>.dfs.core.windows.net/synapse/workspaces/<workspace>/warehouse
Workflow bei der Migration
Microsoft stellt Export-/Importnotizbücher für die Hive-Metastore-Migration bereit. Der Prozess hat zwei Phasen.
Den vollständigen HMS-Migrationsleitfaden finden Sie unter Migrieren von Metadaten für den Hive-Metastore.
Phase 1: Exportieren von Metadaten aus Synapse
Importieren Sie das HMS-Exportnotizbuch in Ihren Azure Synapse Arbeitsbereich. Dieses Notizbuch fragt und exportiert HMS-Metadaten von Datenbanken, Tabellen und Partitionen in ein Zwischenverzeichnis in OneLake.
Konfigurieren Sie Parameter. Legen Sie den Namen Ihres Synapse-Arbeitsbereichs, die zu exportierenden Datenbanknamen und das Ziel-Lakehouse in OneLake für die Zwischenablage fest. Die interne Spark-Katalog-API wird zum Lesen von Katalogobjekten verwendet.
Führen Sie den Export aus. Führen Sie alle Notizbuchzellen aus. Metadaten werden in den Abschnitt "Dateien" Ihres Fabric Lakehouse in einer strukturierten Ordnerhierarchie geschrieben.
Phase 2: Importieren von Metadaten in Fabric Lakehouse
Erstellen Sie Verknüpfungen für den Datenzugriff. Legen Sie eine Verknüpfung im Abschnitt "Dateien" des Lakehouse an, die auf das Verzeichnis des Synapse Spark Warehouse verweist. Dadurch werden die verwalteten Tabellendaten für Fabric zugänglich.
Konfigurieren Sie Lagerzuordnungen. Stellen Sie für verwaltete Tabellen
WarehouseMappingsbereit, um alte Synapse-Lagerverzeichnispfade durch die Verknüpfungspfade in Fabric zu ersetzen. Alle verwalteten Tabellen werden während des Imports in externe Tabellen konvertiert.Führen Sie das Importnotizbuch in Fabric aus, um Katalogobjekte (Datenbanken, Tabellen, Partitionen) im Lakehouse mithilfe der internen Katalog-API von Spark zu erstellen.
Überprüfen. Überprüfen Sie, ob alle importierten Tabellen im Tabellenabschnitt des Lakehouse-Explorers sichtbar sind.
Einschränkungen und Überlegungen
Die Migrationsskripts verwenden die interne Katalog-API von Spark, nicht direkte HMS-Datenbankverbindungen. Dies kann für sehr große Kataloge nicht gut skaliert werden – für große Umgebungen sollten Sie die Exportlogik ändern, um die HMS-Datenbank direkt abzufragen.
Während des Exports gibt es keine Isolationsgarantie. Wenn synapse Spark compute den Metastore gleichzeitig ändert, werden möglicherweise inkonsistente Daten eingeführt. Planen sie die Migration während eines Wartungsfensters.
Funktionen sind nicht in den aktuellen Migrationsskripts enthalten.
Nach der Migration bieten OneLake-Verknüpfungen fortlaufenden Datenzugriff. Wenn Synapse weiterhin in dieselben ADLS Gen2-Pfade schreibt, sieht Fabric die aktualisierten Daten automatisch über Verknüpfungen (Synchronisierung auf Datenebene). Neue Tabellen oder Schemaänderungen in synapse HMS werden jedoch nicht automatisch weitergegeben – Sie müssen die Migrationsskripts erneut ausführen oder neue Tabellen im Fabric Lakehouse manuell erstellen.
External Hive Metastore (Azure SQL DB / MySQL): Einige Synapse-Arbeitsbereiche verwenden ein externes HMS, das von Azure SQL-Datenbank oder Azure Database for MySQL unterstützt wird, um Katalogmetadaten außerhalb des Arbeitsbereichs beizubehalten und mit HDInsight oder Databricks zu teilen. Fabric unterstützt keine Verbindung mit einem externen Hive-Metastore – es verwendet ausschließlich den Lakehouse-Katalog. Wenn Sie ein externes HMS verwenden, müssen Sie die Metadaten in den Fabric Lakehouse-Katalog migrieren. Sie können dies tun, indem Sie die externe HMS-Datenbank direkt (über JDBC) abfragen, um Tabellendefinitionen zu exportieren und sie dann in Fabric mithilfe von Spark SQL oder den HMS-Importnotizbüchern neu zu erstellen. Beachten Sie, dass die externe HMS-Unterstützung in Synapse nach Spark 3.4 veraltet ist.
Tipp
Für die fortlaufende Synchronisierung, wenn synapse und Fabric aktiv sind: Verwenden Sie OneLake-Tastenkombinationen für die Synchronisierung auf Datenebene (automatisch), und planen Sie regelmäßige Wiederholungen der HMS-Export-/Importnotizbücher oder erstellen Sie ein Abstimmungsnotizbuch, um neue Tabellen zu erkennen und zu synchronisieren.
Optionen für die Datenmigration
Sie haben Daten in ADLS Gen2 mit Ihrem Synapse-Arbeitsbereich verknüpft, die Sie in Fabric Lakehouse ohne unnötige Datenduplizierung zugänglich machen müssen. Wählen Sie aus den folgenden Ansätzen aus.
OneLake-Verknüpfungen (empfohlen, Nullkopie): Erstellen Sie Verknüpfungen in Fabric Lakehouse, die auf Ihre vorhandenen ADLS Gen2-Pfade verweisen. Delta-Formatdaten im Abschnitt "Tabellen" werden automatisch im Lakehouse-Katalog registriert. CSV/JSON/Parquet-Daten werden im Abschnitt "Dateien" gespeichert. Es ist keine Datenübertragung erforderlich.
mssparkutils fastcp: Zum Kopieren von Daten aus ADLS Gen2 in OneLake innerhalb von Notizbüchern.
AzCopy: Befehlszeilenprogramm für Massendatenkopien von ADLS Gen2 in OneLake.
Data Factory Copy Activity: Verwenden Sie Fabric Data Factory (oder vorhandene ADF/Synapse-Pipelines), um Daten in das Lakehouse zu kopieren.
Azure Storage-Explorer: Visuelles Tool zum Verschieben von Dateien von ADLS Gen2 nach OneLake.
Tipp
Bevorzugen Sie nach Möglichkeit Tastenkürzel gegenüber der Datenübertragung. Tastenkombinationen vermeiden Datenduplizierung und Speicherkosten, und Delta-Tabellen im Abschnitt "Tabellen" werden automatisch im SQL-Analyseendpunkt und Power BI gefunden.