Fase 4: Migratie van beveiliging en governance

Dit artikel is fase 4 van 4 in de reeks best practices voor migratie van Azure Synapse Spark naar Microsoft Fabric.

Gebruik dit artikel in de laatste fase van uw migratie om workloads te valideren, beveiliging en governance-controles uit te lijnen en uw productie-cutover te plannen. Dit artikel bevat richtlijnen voor beveiligingsmapping en een op een checklist gebaseerde benadering voor validatie, optimalisatie en cutover gereedheid.

In dit artikel leert u het volgende:

  • Ken Synapse RBAC- en netwerkpatronen toe aan Fabric workspace, OneLake en beheerste netwerkcontroles.
  • Beheerwerkstromen opnieuw verbinden, waaronder Microsoft Purview integratie en labeling.
  • Gebruik de controlelijst voor stapsgewijze migratie om cutover te valideren, optimaliseren en uitvoeren.
  • Plan het buiten gebruik stellen van verouderde Synapse Spark-resources na een geslaagde cutover.

Toegangsbeheer

  • Synapse RBAC-rollen (Synapse-beheerder, Synapse SQL-beheerder, Synapse Spark-beheerder en andere) worden toegewezen aan Fabric werkruimterollen (Beheerder, Lid, Inzender, Viewer). het model van Fabric is eenvoudiger met vier rollen.

  • Gekoppelde Synapse-services worden vervangen door Fabric Connections. Verbindingen maken via werkruimte-instellingen>Verbindingen en gateways beheren. Vervang voor notebookcode gekoppelde serviceverwijzingen door verificatie op basis van Key Vault of directe eindpuntconfiguratie.

  • OneLake RBAC biedt gedetailleerd toegangsbeheer voor gegevens op map- en tabelniveau in Lakehouse.

Netwerkbeveiliging

  • Synapse Managed VNet en Privé-eindpunten worden toegewezen aan Fabric beheerde VNet + beheerde privé-eindpunten. Houd er rekening mee dat voor Fabric Spark aangepaste pools (niet starterspools) zijn vereist voor ondersteuning voor beheerde privé-eindpunten.

  • Zelf-gehoste Integration Runtimes (SHIR) in Synapse worden vervangen door On-premises Gegevensgateways (OPDG) in Fabric. VNet-IRs worden vervangen door VNet-gegevensgateways.

Bestuur

Als u Azure Purview met Synapse gebruikt, biedt Fabric systeemeigen Microsoft Purview-integratie voor gegevenscatalogus, herkomst, vertrouwelijkheidslabels en toegangsbeleid. Maak opnieuw verbinding met uw Purview-account om Fabric werkruimten te scannen.

Migratiecontrolelijst

Gebruik deze controlelijst om de voortgang van uw Spark-migratie bij te houden. Elke fase bouwt voort op de vorige fase. Voltooi alle items in een fase voordat u naar de volgende gaat.

Fase 1: Evalueren en plannen

Zie Fase 1: Migratiestrategie en planning voor planningsrichtlijnen, migratiepatronen en functievergelijking.

  • 1.1 Volledige inventaris van Spark-assets: Spark-pools, notebooks, Spark-taakdefinities, Lake-databases, Hive Metastore (HMS)-databases en gekoppelde services die worden gebruikt in notebooks.
  • 1.2 Synapse en Fabric verschillen in functionaliteit beoordelen. Markeringsblokkeringen: GPU-workloads, niet-ondersteunde catalogus-API's, gekoppelde serviceafhankelijkheden.
  • 1.3 Voer de controle vóór het herstructureren uit: zoek in alle notebooks naar Synapse-specifieke patronen (spark.synapse.linkedService, getSecretWithLS, TokenLibrary, synapsesql). Aantal betrokken notitieblokken.
  • 1.4 Bibliotheekcompatibiliteit controleren: voer pip freeze uit op Synapse-pools, vergelijk met Fabric Runtime 1.3 ingebouwde bibliotheken. Bibliotheken die vooraf moeten worden geïnstalleerd.
  • 1.5 Fabric-werkruimte(s) maken, voorzien van capaciteit en Lakehouse-doelitems maken.
  • 1.6 Spark-poolconfiguraties, aangepaste bibliotheken en Spark-eigenschappen exporteren uit Synapse Studio.

Fase 2: Verbindingen en referenties instellen

Zie fase 2: Migratie van Spark-workloads en fase 4: Beveiligings- en governancemigratie voor richtlijnen over vervanging en authenticatie van gekoppelde services.

  • 2.1 Inventariseer alle gekoppelde Synapse-services die worden gebruikt door notebooks, Spark-taakdefinities en Toegang tot Lakehouse-gegevens.
  • 2.2 Maak Fabric-verbindingen voor externe gegevensbronnen (ADLS Gen2, Cosmos DB, Azure SQL en andere) via Werkruimteinstellingen>Beheerverbindingen en gateways.
  • 2.3 Azure Key Vault instellen met geheimen voor gegevensbronnen waarvoor verificatie op basis van sleutels is vereist (Cosmos DB-sleutels, opslagaccountsleutels, Kusto-tokens). Configureer toegangsbeleid voor uw Fabric werkruimte-identiteit.
  • 2.4 Referenties voor de service-principal configureren voor toegang tot ADLS Gen2 OAuth: app registreren in Entra ID, de rol Storage Blob Data Contributor verlenen, client-id/secret/tenant noteren.
  • 2.5 Controleer de connectiviteit: test het ophalen van geheimen uit de Key Vault en de toegang tot het opslagaccount vanuit een Fabric-notebook voordat u verdergaat.

Fase 3: Gegevens en Hive Metastore migreren

Zie Fase 3: Hive Metastore en gegevensmigratie en Gegevens en pijplijnen migreren voor richtlijnen over metagegevens en gegevenstoegankelijkheid migratie.

  • 3.1 Maak OneLake-snelkoppelingen naar bestaande ADLS Gen2-paden (zero-copy, voorkeursbenadering). Gebruik de Fabric verbindingen die in fase 2 zijn ingesteld voor gegevensgateway-gebaseerde toegang.
  • 3.2 Maak snelkoppelingen in de sectie Bestanden voor niet-Delta-bestanden (CSV, JSON, Parquet). Als het kopiëren van gegevens vereist is, gebruikt u AzCopy- of Data Factory-kopieeractiviteit.
  • 3.3 Hive Metastore-objecten migreren. Kies één methode: Optie A: HMS-export-/importnotebooks uitvoeren voor alle metagegevens. Optie B: gebruik Migration Assistant voor Delta Lake DB-tabellen + HMS-export/-import voor alleen niet-Delta-tabellen.
  • 3.4 Automatische registratie van Delta-tabellen valideren in Lakehouse Explorer.
  • 3.5 Controleer of alle geïmporteerde tabellen en snelkoppelingen zichtbaar zijn in Lakehouse Explorer en toegankelijk zijn vanuit notitieblokken.

Fase 4: Spark-workloads migreren

Zie fase 2: Spark-workloadmigratie voor informatie over itemmigratie, herstructurering van code en omgevingsinstellingen.

  • 4.1 Spark-Migration Assistant uitvoeren voor notebooks, Spark-taakdefinities, Spark-pools en Lake-databases. Bekijk het migratierapport voor fouten en waarschuwingen.
  • 4.2 Maak Fabric omgevingen met doel-Spark-runtime, poolconfiguratie en aangepaste bibliotheken. Ontbrekende bibliotheken die zijn geïdentificeerd in fase 1, vooraf installeren.
  • 4.3 Notebook en SJD-code herstructureren: vervang mssparkutils door notebookutils, bestandspaden bijwerken naar OneLake abfss:// paden, gekoppelde serviceverwijzingen vervangen door Key Vault of Fabric verbindingen en niet-ondersteunde spark.catalog-methoden vervangen door Spark SQL-equivalenten.
  • 4.4 Connectors herstructureren: Kusto/ADX — vervang de gekoppelde service door accessToken via getToken(). Cosmos DB : vervangen door getSecretWithLSgetSecret(akvName, secret).
  • 4.5 Vervang Synapse-tokenproviders (LinkedServiceBasedTokenProvider, TokenLibrary) door standaard OAuth ClientCredsTokenProvider via spark.conf.set().
  • 4.6 Test geherstructureerde notebooks en SJDs van begin tot eind ten opzichte van de gegevens (Fase 3) en verbindingen (Fase 2).

Fase 5: Beveiliging, governance en netwerk

Zie fase 4: Migratie van beveiliging en governance voor beveiligings-, governance- en netwerktoewijzingsrichtlijnen.

  • 5.1 Synapse RBAC-rollen toewijzen aan Fabric werkruimterollen (Beheerder, Lid, Inzender, Viewer).
  • 5.2 Configureer OneLake RBAC voor fijnmazig gegevenstoegangsbeheer op map- en tabelniveau.
  • 5.3 Configureer beheerde VNet en beheerde privé-eindpunten voor Spark-workloads die toegang hebben tot persoonlijke gegevensbronnen (hiervoor zijn aangepaste pools vereist).
  • 5.4 Vervang SHIR door on-premises gegevensgateway (OPDG) en vervang VNet IR door VNet Data Gateway.
  • 5.5 Herverbind Microsoft Purview voor beheer-, herkomst- en gevoeligheidslabels.
  • 5.6 Controleer en pas vertrouwelijkheidslabels toe op gemigreerde Lakehouse-items indien nodig.

Fase 6: Optimaliseren en valideren

Zie Fase 4: Migratie van beveiliging en governance voor post-migratievalidatie en voor richtlijnen over productiegereedheid.

  • 6.1 Schakel de Native Execution Engine (NEE) in voor prestatieverbetering van Spark bij het werken met Parquet- en Delta-workloads.
  • 6.2 Voer OPTIMIZE VORDER uit op tabellen die worden gebruikt door Power BI Direct Lake of het SQL Analytics-eindpunt.
  • 6.3 Parallelle workloads uitvoeren en resultaten en prestaties van Spark-taken vergelijken tussen Synapse en Fabric.
  • 6.4 Leid de downstreamconsumenten, waaronder Power BI-rapporten, API's en toepassingen, om naar Fabric-eindpunten.
  • 6.5 Bewaak Fabric-werkbelastingen met behulp van Monitoring Hub en Diagnostic Emitter voor minimaal één tot twee weken.

Fase 7: Overgang

Zie fase 4: Migratie van beveiliging en governance voor definitieve validatie, downstream-rerouting en overgang.

  • 7.1 Bevestig dat alle gemigreerde notebooks, SJD's en Spark-taken correct worden uitgevoerd in Fabric.
  • 7.2 Controleer de gegevensintegriteit via het aantal rijen, schemavalidatie en vergelijking van queryresultaten.
  • 7.3 Communiceer cutover naar belanghebbenden en werk documentatie bij.
  • 7.4 Synapse Spark-pools, notebooks en gerelateerde resources buiten gebruik stellen.

Note

Na de migratie kunt u Fabric Git-integratie instellen voor uw gemigreerde notebooks en Spark-taakdefinities. Fabric ondersteunt Azure DevOps Git-integratie voor broncodebeheer, vertakkingen en implementatiepijplijnen. In tegenstelling tot Synapse (die GEBRUIKMAAKT van ARM-sjablonen voor CI/CD), gebruikt Fabric een model op basis van een werkruimte waarin u een werkruimte verbindt met een Git-vertakking en items rechtstreeks synchroniseert. Notebooks, omgevingen en SJD's ondersteunen allemaal Git-integratie. Implementatiepijplijnen (Dev → Test → Prod) instellen om promotie in verschillende omgevingen te beheren.