Del via


Integrate OneLake with Azure Synapse Analytics

Azure Synapse er en ubegrenset analysetjeneste som samler bedriftsdatavarehus og Big Data-analyse. Denne veiledningen viser hvordan man kobler til OneLake ved hjelp av Azure Synapse Analytics.

Forutsetninger

Før du begynner, sørg for at du har følgende ting:

  • Tilgang til et Synapse-arbeidsområde hvor du kan opprette eller bruke en Apache Spark-pool og kjøre SQL-skript.
  • Tilgang til et innsjøhus i Fabric.
  • ABFS-stien for lakehouse Tables-mappen eller tabellen du vil spørre i.

Skriv data fra Synapse ved bruk av Apache Spark

Følg disse trinnene for å bruke Apache Spark til å skrive sampledata til OneLake fra Azure Synapse Analytics.

  1. Åpne Synapse-arbeidsområdet ditt og opprett en Apache Spark-pool med dine foretrukne parametere.

    Skjermbilde som viser hvor du skal velge Ny på Apache Spark-poolskjermen.

  2. Opprett en ny Apache Spark-notatblokk.

  3. Åpne notatboken, sett språket til PySpark (Python), og koble den til din nyopprettede Spark-pool.

  4. I en egen fane, gå til ditt Microsoft Fabric innsjøhus og finn mappen på toppnivå Tables.

  5. Høyreklikk på mappen Tables og velg Egenskaper.

    Skjermbilde som viser hvor man åpner Egenskaper-panelet i lakehouse-utforskeren.

  6. Kopier ABFS-stien fra egenskapspanelet.

    Skjermbilde som viser hvor man skal kopiere ABFS-stien.

  7. Tilbake i Azure Synapse-notatboken, i den første nye kodecellen, oppgi lakehouse-stien. Denne stien peker til mappen Tables i lakehouse, hvor du skriver eksempeldataene senere. Kjør cellen.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. I en ny kodecelle lastes data fra et Azure-åpent datasett inn i en dataframe. Dette datasettet er det du laster inn i hytta ved innsjøen. Kjør cellen.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. I en ny kodecelle, filtrer, transformer eller forbered dataene dine. I dette scenarioet kan du trimme ned datasettet for raskere innlasting, slå sammen med andre datasett eller filtrere ned til bestemte resultater. Kjør cellen.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. I en ny kodecelle, ved å bruke din OneLake-sti, skriver du din filtrerte dataframe til en ny Delta-Parquet tabell i ditt Fabric lakehouse. Kjør cellen.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Til slutt, i en ny kodecelle, test at dataene dine ble skrevet ved å lese den nye Delta-tabellen fra OneLake. Kjør cellen.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Gratulerer. Du kan nå lese og skrive data i OneLake ved hjelp av Apache Spark i Azure Synapse Analytics.

Les data fra Synapse ved hjelp av SQL

Følg disse trinnene for å bruke SQL serverless til å lese data fra OneLake fra Azure Synapse Analytics.

  1. Åpne et Fabric lakehouse og finn en tabell du ønsker å spørre fra Synapse.

  2. Høyreklikk på tabellen og velg Egenskaper.

  3. Kopier ABFS-stien for tabellen.

    Skjermbilde som viser hvor man skal kopiere ABFS-stien.

  4. Åpne Synapse-arbeidsområdet ditt i Synapse Studio.

  5. Lag et nytt SQL-skript.

  6. I SQL-spørringseditoren skriver du inn følgende spørring, og erstatter ABFS_PATH_HERE den med stien du kopierte tidligere.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Kjør spørringen for å se de 10 øverste radene i tabellen din.

Gratulerer. Du kan nå lese data fra OneLake ved å bruke SQL serverless i Azure Synapse Analytics.