Jaa


Fabric Runtime 2.0 (Esikatselu)

Tärkeää

Tämä ominaisuus on esikatselutilassa.

Fabric Runtime tarjoaa saumattoman integraation Microsoft Fabricin ekosysteemissä, tarjoten vahvan ympäristön data-insinööri- ja data-analytiikkaprojekteille, joita tukee Apache Spark.

Tässä artikkelissa esitellään Fabric Runtime 2.0 Public Preview, uusin Microsoft Fabricin big data -laskentaan suunniteltu ajonaikainen. Se korostaa keskeisiä ominaisuuksia ja komponentteja, jotka tekevät tästä julkaisusta merkittävän askeleen eteenpäin skaalautuvan analytiikan ja edistyneiden työkuormien saralla.

Fabric Runtime 2.0 sisältää seuraavat komponentit ja päivitykset, jotka on suunniteltu parantamaan datankäsittelykykyäsi:

  • Apache Spark 4.0
  • Käyttöjärjestelmä: Azure Linux 3.0 (Mariner 3.0)
  • Java: 21
  • Scala: 2.13
  • Python: 3.12
  • Delta-järvi: 4,0
  • R: 4.5.2

Vinkki

Fabric Runtime 2.0 sisältää tuen Native Execution Enginelle, joka voi merkittävästi parantaa suorituskykyä ilman lisäkustannuksia. Voit ottaa natiivisuoritusmoottorin käyttöön ympäristötasolla, jolloin kaikki työt ja muistikirjat perivät automaattisesti parannetut suorituskykyominaisuudet.

Ota käyttöön Runtime 2.0

Voit ottaa Runtime 2.0:n käyttöön joko työtilan tasolla tai ympäristön kohdetasolla. Käytä työtilan asetusta soveltaaksesi Runtime 2.0:aa oletusarvona kaikille Spark-työkuormille työtilassasi. Vaihtoehtoisesti voit luoda ympäristökohteen Runtime 2.0:lla käytettäväksi tiettyjen muistikirjojen tai Spark-työn määritelmien kanssa, joka ohittaa työtilan oletusarvon.

Ota Runtime 2.0 käyttöön Workspace-asetuksissa

Asetetaan Runtime 2.0 oletuseksi koko työtilallesi:

  1. Siirry Workspace-asetuksiin Fabric-työtilassasi.

    Kuvakaappaus, jossa näkyy, mistä ajonaikainen versio valitaan työtilan asetuksiin.

  2. Valitse Data Engineering/Science -välilehti ja valitse sitten Spark settings.

  3. Valitse Ympäristö-välilehti .

  4. Runtime-version pudotusvalikosta valitse 2.0 Public Preview (Spark 4.0, Delta 4.0) ja tallenna muutokset.

  5. Runtime 2.0 on asetettu oletusajonaikaksi työtilallesi.

Ota käyttöön Runtime 2.0 Ympäristö-kohteessa

Käyttääksesi Runtime 2.0:aa tiettyjen muistikirjojen tai Spark-tehtävämääritelmien kanssa:

  1. Luo uusi Ympäristö-kohde tai avaa olemassa oleva.

  2. Runtime-pudotusvalikosta valitse 2.0 Public Preview (Spark 4.0, Delta 4.0) ja Save muutokset. Publish

    Kuvakaappaus, jossa näkyy, mistä Ympäristö-esineelle valitaan ajonaikainen versio.

  3. Seuraavaksi voit käyttää tätä Ympäristö-esinettä sinun Notebook tai Spark Job Definition-merkin kanssa.

Voit nyt alkaa kokeilla Fabric Runtime 2.0:n uusimpia parannuksia ja toimintoja (Spark 4.0 ja Delta Lake 4.0).

Vinkki

Alkuperäinen Spark-istunnon käynnistys Runtime 2.0:ssa voi kestää muutaman minuutin julkisen esikatselun aikana. Kylmäkäynnistyksen viiveiden vähentämiseksi käytä Custom Live Poolia (esikatselu) Spark-poolien esilämmittämiseen tai säädä resurssiprofiilit varaamaan resursseja etukäteen.

Note

WASB-protokolla General Purpose v2 (GPv2) Azure Storage -tileille on vanhentunut. Sinun tulisi käyttää uusinta ABFS-protokollaa GPv2-tallennustileistä lukemiseen ja kirjoittamiseen.

Julkinen esiversio

Fabric Runtime 2.0:n julkinen esikatseluvaihe antaa pääsyn uusiin ominaisuuksiin ja API-rajapintoihin sekä Spark 4.0:sta että Delta Lake 4.0:sta. Esikatselu antaa sinun käyttää uusimmat Spark- ja Delta-pohjaiset parannukset heti sekä varmistaa sujuvan valmiuden ja siirtymän parannetuille muutoksille, kuten uudemmille Java-, Scala- ja Python-versioille.

Vinkki

Saat ajan tasalla olevat tiedot, yksityiskohtaisen luettelon muutoksista ja Fabric-suorituspalvelun erityisistä julkaisutiedoista tarkistamalla Spark Runtimes -julkaisut ja -päivitykset ja tilaamalla ne.

Tärkeimmät tiedot

Suorituskyvyn ja suoritusmoottorin parannukset

Fabric Runtime 2.0 sisältää Native Execution Enginen, joka tarjoaa merkittäviä suorituskyvyn parannuksia avoimen lähdekoodin Spark-ohjelmistoon verrattuna. Moottori käyttää vektoroitua käsittelyä nopeuttaakseen Spark-kyselyitä järvenrakennusinfrastruktuurissa ilman, että koodimuutoksia tarvitaan.

Keskeiset suorituskykyominaisuudet Runtime 2.0:ssa:

  • Jopa kuusi kertaa nopeampia: Testit näyttävät jopa kuusi kertaa nopeampaa suorituskykyä verrattuna avoimen lähdekoodin Sparkiin TPC-DS työkuormissa.
  • Vektoroitu CSV-jäsennys: Natiivisuoritusmoottori sisältää vektoroidun CSV-jäsentimen, joka nopeuttaa CSV:n vastaanottoa ja kyselykuormia. Vektoroitu JSON-jäsennys ja Spark Structured Streaming -tuki ovat suunnitteilla tulevia päivityksiä varten.

Natiivin suoritusmoottorin ottamiseksi käyttöön katso Fabric Data Engineeringin natiivisuoritusmoottori.

Apache Spark 4.0

Apache Spark 4.0 merkitsee merkittävää virstanpylvästä 4.x-sarjan ensimmäisenä julkaisuna, ilmentäen vilkkaan avoimen lähdekoodin yhteisön yhteistä ponnistusta.

Tässä versiossa Spark SQL on merkittävästi rikastettu tehokkailla uusilla ominaisuuksilla, jotka on suunniteltu lisäämään SQL-työkuormien ilmaisukykyä ja monipuolisuutta, kuten VARIANT-tietotyyppien tuki, SQL-käyttäjän määrittelemät funktiot, istuntomuuttujat, putkisyntaksi ja merkkijonojen kokoaminen. PySpark sitoutuu jatkuvasti sekä toiminnalliseen laajuuteen että kehittäjäkokemukseen, tuoden mukanaan natiivin piirto-API:n, uuden Python Data Source API:n, tuen Python UDTF:ille ja yhtenäisen profiloinnin PySpark UDF:ille sekä lukuisia muita parannuksia. Strukturoitu suoratoisto kehittyy tärkeiden lisäysten myötä, jotka tarjoavat paremman hallinnan ja helpomman virheenkorjauksen, erityisesti Arbitrary State API v2:n käyttöönoton myötä joustavampaan tilanhallintaan sekä State Data Sourcen myötä helpompaan virheenkorjaukseen.

Voit tarkistaa täydellisen luettelon ja yksityiskohtaiset muutokset täältä: https://spark.apache.org/releases/spark-release-4-0-0.html.

Note

Spark 4.0:ssa SparkR on vanhentunut ja se voidaan poistaa tulevassa versiossa.

Delta Lake 4.0

Delta Lake 4.0 merkitsee yhteistä sitoutumista tehdä Delta Lakesta yhteensopiva eri formaateissa, helpompi työskennellä ja suorituskykyisempi. Delta 4.0 on merkkipaalujulkaisu, joka on täynnä tehokkaita uusia ominaisuuksia, suorituskyvyn optimointeja ja perustavanlaatuisia parannuksia avoimen datan järvenrakennusten tulevaisuudelle.

Voit tarkistaa koko listan ja yksityiskohtaiset muutokset, jotka on tehty Delta Lake 3.3:n ja 4.0:n myötä, täältä: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.

Datan asettelu ja optimointi

Runtime 2.0 tukee datan asettelun ja optimointiominaisuuksia Delta-tauluille:

  • Z-järjestys: Järjestä Delta-taulutiedostojen tiedot määriteltyjen sarakkeiden mukaan parantaaksesi suodatettujen kyselyiden suorituskykyä.
  • Liquid Clustering: Joustava klusterointimenetelmä, joka optimoi datan asettelun automaattisesti ilman manuaalista ylläpitoa.
  • Rinnakkainen Delta-snapshotin lataus: Natiivisuoritusmoottori lataa Delta-taulukon snapshotit rinnakkain, mikä lyhentää kyselyjen käynnistysaikaa suurille tauluille.

Tärkeää

Delta Lake 4.0:n erityisominaisuudet ovat kokeellisia ja toimivat vain Spark-kokemuksissa, kuten muistikirjoissa ja Spark-työmääritteluissa. Jos sinun täytyy käyttää samoja Delta Lake -taulukoita useissa Microsoft Fabricin työkuormissa, älä ota näitä ominaisuuksia käyttöön. Jos haluat tietää lisää siitä, mitkä protokollaversiot ja -ominaisuudet ovat yhteensopivia kaikissa Microsoft Fabric -käyttökokemuksissa, lue Delta Lake -taulukkomuotojen yhteentoimivuus.

Laskennan hallinta Runtime 2.0:ssa

Runtime 2.0 tukee seuraavia laskentahallinnan ominaisuuksia:

  • Resurssiprofiilit: Määritä ennalta määritellyt resurssiallokaatiot Spark-istunnoille vastaamaan työkuormavaatimuksia ja hallitsemaan kustannuksia.
  • Mukautetut live-poolit (esikatselu): Luo omistetut, esilämmitetyt Spark-poolit, jotka lyhentävät istuntojen käynnistysaikaa. Mukautetut live-poolit ovat saatavilla esikatselussa Runtime 2.0 -työkuormille.

Rajoitukset ja huomautukset

  • Delta Lake 4.0:n erityispiirteet ovat kokeellisia ja toimivat vain Spark-kokemuksissa, kuten muistikirjoissa ja Spark-tehtävämääritteyksissä. Jos sinun täytyy käyttää samoja Delta Lake -tauluja useissa Fabric-työkuormissa, älä ota näitä ominaisuuksia käyttöön. Lisätietoja löytyy Delta Lake -taulukkomuotojen yhteentoimivuudesta.
  • Runtime 2.0 on julkisessa esikatselussa. Jotkin ominaisuudet ja rajapinnat voivat muuttua ennen yleistä saatavuutta.
  • Fabric Sparkin VS Code -laajennus tukee Runtime 2.0:aa kannettavan ja Sparkin työnmäärittelyn kehitykseen.