Valmistaudu käyttämään Apache Sparkiä

3 minuuttia

Apache Spark on hajautettu tietojenkäsittelykehys, joka mahdollistaa suuren mittakaavan tietoanalytiikan koordinoimalla työtä useiden käsittelysolmujen välillä klusterissa, joka tunnetaan Microsoft Fabricissa Spark-varannona. Yksinkertaisemmin sanottuna Spark käsittelee suuria tietomääriä nopeasti jakamalla työn useisiin tietokoneisiin käyttämällä "Jaa ja hallitse" -lähestymistapaa. Spark hoitaa tehtävien jakamisen ja tulosten kokoamisen puolestasi.

Spark voi suorittaa koodin, joka on kirjoitettu useilla eri kielillä, kuten Java, Scala (java-pohjainen komentosarjakieli), Spark R, Spark SQL ja PySpark (Pythonin Spark-kohtainen versio). Käytännössä suurin osa tietotekniikka- ja analytiikkakuormituksista tehdään PySparkin ja Spark SQL:n yhdistelmällä.

Spark-altaat

Spark-varanto koostuu käsittelysolmuista , jotka jakavat tietojenkäsittelytehtäviä. Yleinen arkkitehtuuri näkyy seuraavassa kaaviossa.

Spark-varannon kaavio.

Kuten kaaviosta näkyy, Spark-varanto sisältää kahdentyyppisiä solmuja:

Spark-varannon pääsolmu koordinoi jaettuja prosesseja ohjainohjelman kautta.
Varannossa on useita työntekijäsolmuja , joille suoritettavat suoritusprosessit suorittavat tietojen käsittelytehtävät.

Spark-varannossa käytetään tätä hajautettua käsittelyarkkitehtuuria tietojen käyttämiseen ja käsittelemiseen yhteensopivassa tietosäilössä, kuten OneLakessa sijaitsevassa Data Lakehousessa.

Spark-altaat kohteessa Microsoft Fabric

Microsoft Fabric tarjoaa aloitusvarannon kuhunkin työtilaan, jolloin Spark-työt voidaan käynnistää ja suorittaa nopeasti mahdollisimman pienellä määrityksellä. Voit määrittää aloitusvarannon optimoimaan sen sisältämät solmut kuormitustarpeidesi tai kustannusrajoitustesi mukaisesti.

Lisäksi voit luoda mukautettuja Spark-varannot tietyillä solmumäärityksillä, jotka tukevat tiettyjä tietojenkäsittelytarpeitasi.

Huomautus

Fabric-järjestelmänvalvojat voivat poistaa käytöstä Spark-varannon asetusten mukauttamisen Fabric-kapasiteettitasolla. Lisätietoja on Fabric-dokumentaation kohdassa Kapasiteettien hallinta-asetukset tietotekniikkaa ja datatiedettä varten .

Voit hallita aloitusvarannon asetuksia ja luoda uusia Spark-varannot työtilan asetusten Hallintaportaali-osiossa kohdassa Kapasiteettiasetukset ja sitten Tietotekniikka/tiedeasetukset.

Näyttökuva Microsoft Fabricin Spark-asetukset-sivusta.

Spark-varantojen määritysasetuksia ovat esimerkiksi seuraavat:

Node Family: Spark-klusterisolmujen näennäiskoneiden tyyppi. Useimmissa tapauksissa muistioptimoidut solmut takaavat parhaan suorituskyvyn.
Automaattinen skaalaus: Määrittää, valmistellaanko solmut automaattisesti tarpeen mukaan ja jos on, varannolle kohdistettavien solmujen alkuperäinen ja suurin määrä.
Dynaaminen kohdistus: Määrittää, varataanko suoritettavat prosessit dynaamisesti työntekijäsolmuille tietomäärien perusteella.

Jos luot yhden tai useamman mukautetun Spark-varannon työtilaan, voit määrittää yhden niistä (tai aloitusvarannon) oletusvarannoksi, jota käytetään, jos tiettyä varantoa ei ole määritetty tietylle Spark-työlle.

Vinkki

Lisätietoja Spark-altaiden hallinnasta Microsoft Fabricissa saat Microsoft Fabric - dokumentaation aloitusaltaiden määrittämisestä Microsoft Fabricissa ja mukautettujen Spark-uima-altaan luomisesta Microsoft Fabricissa .

Suorituspalvelut ja ympäristöt

Spark-avoimen lähdekoodin ekosysteemi sisältää useita versioita Spark-suorituspalvelusta, joka määrittää asennettujen Apache Spark-, Delta Lake-, Python- ja muiden ydinohjelmistokomponenttien version. Lisäksi suorituspalvelussa voit asentaa ja käyttää laajaa valikoimaa koodikirjastoja yleisiin (ja joskus hyvin erikoistuneisiin) tehtäviin. Koska PySparkin avulla suoritetaan paljon Spark-prosessointia, valtava python-kirjastovalikoima varmistaa, että olipa tehtävä mikä tahansa, siitä on todennäköisesti olemassa kirjasto, josta on apua.

Joissakin tapauksissa organisaatioiden on ehkä määritettävä useita ympäristöjä monenlaisten tietojenkäsittelytehtävien tukemiseksi. Jokainen ympäristö määrittää tietyn suorituspalveluversion sekä kirjastot, jotka on asennettava tiettyjen toimintojen suorittamista varten. Tietoteknikot ja tutkijat voivat sitten valita, mitä ympäristöä he haluavat käyttää Spark-varannon kanssa tiettyyn tehtävään.

Spark-suorituspalvelut Microsoft Fabricissa

Microsoft Fabric tukee useita Spark-suorituspalveluita, ja se lisää tuen uusille suorituspalveluille niiden julkaisun myötä. Työtilan asetusliittymän avulla voit määrittää Spark-suorituspalvelun, jota oletusympäristö käyttää Spark-varannon käynnistämisen yhteydessä.

Vinkki

Katso lisätietoja Microsoft Fabricin Spark-suorituspalveluista Microsoft Fabricin Apache Spark Runtimes - kohdasta Microsoft Fabric -dokumentaatiosta.

Ympäristöt Microsoft Fabricissa

Voit luoda Fabric-työtilassa mukautettuja ympäristöjä, joiden avulla voit käyttää tiettyjä Spark-suorituspalveluita, kirjastoja ja määritysasetuksia eri tietojenkäsittelytoiminnoissa.

Näyttökuva Microsoft Fabricin Ympäristö-sivusta.

Kun luot ympäristöä, voit tehdä seuraavaa:

Määritä Spark runtime, jota sen tulee käyttää.
Tarkastele sisäänrakennettuja kirjastoja, jotka on asennettu jokaiseen ympäristöön.
Asenna tietyt julkiset kirjastot Python-pakettiindeksistä (PyPI).
Asenna mukautettuja kirjastoja lataamalla pakettitiedosto.
Määritä Spark-varanto, jota ympäristön tulee käyttää.
Voit ohittaa oletustoiminnon määrittämällä Spark-määritysominaisuudet.
Lataa resurssitiedostot, joiden on oltava käytettävissä ympäristössä.

Kun olet luonut vähintään yhden mukautetun ympäristön, voit määrittää sen oletusympäristöksi työtilan asetuksissa.

Vinkki

Saat lisätietoja mukautettujen ympäristöjen käytöstä Microsoft Fabricissa Microsoft Fabric -dokumentaation ohjeartikkelista Ympäristön luominen, määrittäminen ja käyttäminen Microsoft Fabricissa .

Spark-määritysten lisäasetukset

Spark-varannot ja -ympäristöt ovat ensisijainen tapa hallita Spark-käsittelyä Fabric-työtilassa. On kuitenkin joitakin lisäasetuksia, joita voit käyttää lisäoptimointien tekemiseen.

Alkuperäinen suoritinmoduuli

Microsoft Fabricin alkuperäinen suorittamismoduuli on vektorisoitu prosessointimoduuli, joka suorittaa Spark-toimintoja suoraan Lakehouse-infrastruktuurissa. Alkuperäisen suoritusmoduulin käyttö voi parantaa merkittävästi kyselyiden suorituskykyä, kun käsittelet suuria tietojoukkoja Parquet- tai Delta-tiedostomuodoissa.

Jos haluat käyttää alkuperäistä suoritusmoduulia, voit ottaa sen käyttöön ympäristön tasolla tai yksittäisen muistikirjan sisällä. Jos haluat ottaa alkuperäisen suoritusmoduulin käyttöön ympäristön tasolla, määritä seuraavat Spark-ominaisuudet ympäristön määrityksissä:

spark.native.enabled: tosi
spark.shuffle.manager: org.apache.spark.shuffle.sort.ColumnarShuffleManager

Jos haluat ottaa käyttöön alkuperäisen suoritusmoduulin tietylle komentosarjalle tai muistikirjalle, voit määrittää nämä määritysominaisuudet koodisi alussa seuraavasti:

%%configure 
{ 
   "conf": {
       "spark.native.enabled": "true", 
       "spark.shuffle.manager": "org.apache.spark.shuffle.sort.ColumnarShuffleManager" 
   } 
}

Vinkki

Lisätietoja alkuperäisestä suorittamismoduulista on Microsoft Fabric -dokumentaation kohdassa Fabric Sparkin alkuperäinen suorittamismoduuli .

Suuren samanaikaisuuden tila

Kun suoritat Spark-koodia Microsoft Fabricissa, käynnistyy Spark-istunto. Voit optimoida Spark-resurssien käytön tehokkuutta käyttämällä suuren samanaikaisuuden tilaa Spark-istuntojen jakamiseen useille samanaikaisille käyttäjille tai prosesseille. Muistikirja käyttää spark-istuntoa sen suorittamiseen. Kun suuren samanaikaisuuden tila on käytössä, useat käyttäjät voivat esimerkiksi suorittaa koodia muistikirjoissa, jotka käyttävät samaa Spark-istuntoa, samalla kun varmistetaan koodin eristäminen, jotta toisessa muistikirjassa olevat muuttujat eivät kärsi toisen muistikirjan koodista. Voit myös ottaa suuren samanaikaisuuden tilan käyttöön Spark-töissä, mikä mahdollistaa samankaltaiset tehokkuusedut samanaikaisille ei-vuorovaikutteisille Spark-komentosarjojen suorituksille.

Jos haluat ottaa käyttöön suuren samanaikaisuuden tilan, käytä työtilan asetusliittymän Tietotekniikka/tiede -osiota.

Vinkki

Jos haluat lisätietoja suuren samanaikaisuuden tilasta, katso Microsoft Fabric - dokumentaation Apache Spark for Fabricin samanaikaisuustila .

Automaattinen MLFlow-kirjaus

MLFlow on avoimen lähdekoodin kirjasto, jota käytetään tietojenkäsittelykuormituksissa koneoppimisen koulutuksen ja mallin käyttöönoton hallintaan. MLFlow'n keskeisenä ominaisuutta on kyky kirjata lokiin mallin koulutus- ja hallintatoiminnot. Microsoft Fabric käyttää MLFlow'ta oletusarvoisesti koneoppimiskokeilutoiminnan implisiittiseen kirjaamiseen ilman, että datatieteilijän tarvitsee sisällyttää eksplisiittistä koodia. Voit poistaa tämän toiminnon käytöstä työtilan asetuksissa.

Spark-hallinta Fabric-kapasiteetille

Järjestelmänvalvojat voivat hallita Spark-asetuksia Fabric-kapasiteettitasolla. Tämän avulla he voivat rajoittaa ja ohittaa Spark-asetuksia organisaation työtiloissa.

Vinkki

Saat lisätietoja Spark-määrityksen hallinnasta Fabric-kapasiteettitasolla Microsoft Fabric -dokumentaation ohjeartikkelista Fabric-kapasiteettien tietotekniikan ja tietojenkäsittelyasetusten määrittäminen ja hallinta .

Palaute

Onko tästä sivusta apua?