Jaa


Integrate OneLake with Azure Synapse Analytics

Azure Synapse on rajaton analytiikkapalvelu, joka yhdistää yritysten datavarastoinnin ja Big Data -analytiikan. Tämä opas näyttää, miten yhdistää OneLakeen Azure Synapse Analytics avulla.

Edellytykset

Ennen kuin aloitat, varmista, että sinulla on seuraavat varusteet:

  • Pääsy Synapse-työtilaan, jossa voit luoda tai käyttää Apache Spark -poolia ja ajaa SQL-skriptejä.
  • Pääsy järvenmökille Fabric:ssa.
  • ABFS-polku lakehouse Tables -kansiolle tai taulukolle, jota haluat kysyä.

Kirjoita dataa Synapsesta Apache Sparkilla

Seuraa näitä vaiheita käyttääksesi Apache Sparkia kirjoittaaksesi näytedataa OneLakeen Azure Synapse Analytics:sta.

  1. Avaa Synapse-työtilasi ja luo Apache Spark -allas haluamillasi parametreilla.

    Kuvakaappaus, jossa näkyy, missä valita Uusi Apache Spark Pool -näytöllä.

  2. Luo uusi Apache Spark -muistikirja.

  3. Avaa muistikirja, aseta kieleksi PySpark (Python) ja yhdistä se juuri luomaasi Spark-pooliin.

  4. Erillisessä välilehdessä siirry Microsoft Fabric järvenmajasi ja etsi ylimmän tason kansio Tables.

  5. Napsauta hiiren oikealla Taulukot-kansiota ja valitse Ominaisuudet.

    Kuvakaappaus, jossa näkyy, mistä Properties-paneeli avataan, Lakehouse Explorer.

  6. Kopioi ABFS-polku ominaisuuspaneelista.

    Kuvakaappaus, jossa näkyy, mihin ABFS-polku kopioidaan.

  7. Takaisin Azure Synapse -muistikirjassa, ensimmäisessä uudessa koodisolussa, tarjoa järvimajan polku. Tämä polku osoittaa Tables-kansioon järvenrakennuksessa, jonne kirjoitat myöhemmin näytedatan. Suorita solu.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Uudessa koodisolussa lataa data Azure-avoimesta aineistosta datakehykseen. Tämä aineisto on se, jonka lataat järventaloon. Suorita solu.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. Uudessa koodisolussa suodata, muunna tai valmistele datasi. Tässä skenaariossa voit leikata tietojoukkoa lataamisen nopeuttamiseksi, liittyä muihin tietojoukkoihin tai suodattaa tiettyihin tuloksiin. Suorita solu.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. Uudessa koodisolussa, käyttäen OneLake-polkuasi, kirjoita suodatettu dataframe uuteen Delta-Parquet-tauluun Fabric lakehousessasi. Suorita solu.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Lopuksi uudessa koodisolussa testataan, että datasi on kirjoitettu onnistuneesti lukemalla OneLaken uusi Delta-taulukko. Suorita solu.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Onnittelen. Nyt voit lukea ja kirjoittaa dataa OneLakessa Apache Sparkilla Azure Synapse Analytics -ohjelmassa.

Lue dataa Synapsesta SQL:llä

Seuraa näitä vaiheita käyttääksesi SQL serverless lukeaksesi tietoja OneLakesta Azure Synapse Analytics.

  1. Avaa Fabric-järvenrakennus ja tunnista taulukko, jolta haluaisit kysyä Synapsesta.

  2. Napsauta taulukkoa hiiren oikealla ja valitse Ominaisuudet.

  3. Kopioi taulukon ABFS-polku .

    Kuvakaappaus, jossa näkyy, mihin ABFS-polku kopioidaan.

  4. Avaa Synapse-työtilasi Synapse Studio.

  5. Luo uusi SQL-skripti.

  6. SQL-kyselyeditorissa syötä seuraava kysely ja korvaa ABFS_PATH_HERE se aiemmin kopioimallasi polulla.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Suorita kysely nähdäksesi taulukon kymmenen ylintä riviä.

Onnittelen. Nyt voit lukea OneLaken dataa SQL serverless -toiminnolla Azure Synapse Analytics -ohjelmassa.

  • Integroi OneLake Azure Storage Explorer