Muistiinpano
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää kirjautua sisään tai vaihtaa hakemistoa.
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää vaihtaa hakemistoa.
Kirjasto on uudelleenkäytettävä koodipaketti — kuten PyPI:n Python-paketti, CRANin R-paketti tai Java JAR — jonka voit tuoda muistikirjoihisi ja Spark-työtehtävien määrittelyihin lisätäksesi toiminnallisuutta kirjoittamatta sitä alusta alkaen. Microsoft Fabric tarjoaa useita mekanismeja, joiden avulla voit hallita ja käyttää kirjastoja.
- Sisäiset kirjastot: Kukin Fabric Spark -suorituspalvelu tarjoaa monipuolisen joukon suosittuja esiasentettuja kirjastoja. Löydät täydellisen valmiiden kirjastoluettelon kohdasta Fabric Spark Runtime.
- Julkiset kirjastot: Julkiset kirjastot ovat peräisin PyPI:n ja Conda:n kaltaisten säilöistä, joita tuetaan tällä hetkellä.
- Mukautetut kirjastot: Mukautetut kirjastot viittaavat koodiin, jonka sinä tai organisaatiosi luot. Fabric tukee niitä .whl-, .jar- ja .tar.gz-muodoissa. Fabric tukee .tar.gz vain R-kielelle. Käytä Pythonin mukautetuissa kirjastoissa .whl-muotoa.
Yhteenveto kirjastonhallinnan parhaista käytännöistä
Seuraavissa skenaarioissa kuvataan parhaita käytäntöjä, kun käytät kirjastoja Microsoft Fabricissa.
Ympäristöjulkaisutilat (Quick vs Full)
Kun asennat kirjastoja Fabric-ympäristöön, valitset julkaisutilan, joka ohjaa, miten kirjastot toimitetaan Spark-istuntoihisi.
- Pikatila julkaistaan noin viidessä sekunnissa. Kirjastot asennetaan muistikirjan istunnon alkaessa, eivät julkaisun yhteydessä. Jos pikatilapaketilla on sama nimi kuin Full mode -paketilla, Quick mode -versio korvaa Full mode -version vain kyseisessä sessiossa. Käytä pikatilaa nopeaan, iteratiiviseen muistikirjan kehitykseen ja varhaisen vaiheen kokeiluihin.
- Täysi tila luo vakaan, toistettavan kirjastotilannekuvan. Julkaisu kestää tyypillisesti 3–6 minuuttia, koska järjestelmä ratkaisee riippuvuuksia ja varmistaa yhteensopivuuden. Istunnon käynnistys lisää riippuvuuksien käyttöönottoon 1–3 minuuttia riippuvuuden koosta. Käytä Täysi-tilaa putkistoille, ajoitetuille ajoille ja jaetuille työkuormille, jotka vaativat johdonmukaisia, toistettavia ympäristöjä.
Täysi tila mukautetulla live-poolilla
Yhdistääksesi Täyden tilan vakauden nopeisiin sessioiden aloituksiin, konfiguroi mukautettu live-pooli , joka liitetään Täysi-tilan ympäristöön. Live-allas nesteyttää klusterit Full mode -kirjaston snapshotilla etukäteen, mahdollistaen noin 5 sekunnin istunnon aloitusajat säilyttäen toistettavan snapshotin.
Lisätietoja kustakin tilasta löytyy kohdasta Hallinnoi kirjastoja Fabric-ympäristöissä.
Skenaario 1: Järjestelmänvalvoja määrittää työtilan oletuskirjastot
Jotta voit määrittää oletuskirjastoja, sinun on oltava työtilan järjestelmänvalvoja. Järjestelmänvalvojana voit suorittaa seuraavia tehtäviä:
- Uuden ympäristön luominen
- Tarvittavien kirjastojen asentaminen ympäristössä
- Liitä tämä ympäristö työtilan oletusympäristöksi
Kun muistikirjat ja Spark-työmääritykset on liitetty työtilan asetuksiin, ne aloittavat istuntoja, joissa kirjastot on asennettu työtilan oletusympäristöön.
Skenaario 2: Yhden tai useamman koodikohteen pysyvät kirjastomääritykset
Jos sinulla on yhteisiä kirjastoja eri koodielementeille etkä tarvitse päivittää niitä usein, asenna kirjastot ympäristöön ja liitä ne koodielementteihin.
Julkaisuaika riippuu valitsemastasi tavasta. Pikatila julkaisee noin 5 sekunnissa ja asentaa kirjastot istunnon alussa. Täysi tila ratkaisee riippuvuuksia ja luo vakaan snapshotin; Julkaisu kestää tyypillisesti 3–6 minuuttia, ja istunnon käynnistys lisää 1–3 minuuttia riippuvuuksien käyttöönottoon.
Tämän lähestymistavan etuna on, että onnistuneesti asennetut kirjastot ovat taatusti käytettävissä, kun Spark-istunto alkaa liitettynä ympäristöön. Se säästää yhteisten kirjastojen ylläpidon vaivaa projekteillesi ja on suositeltavaa putkiskenaarioihin sen vakauden vuoksi.
Skenaario 3: Sisäinen asennus vuorovaikutteisessa suorittamisessa
Jos kirjoitat koodia interaktiivisesti muistikirjaan, inline-asennus on paras tapa lisätä PyPI- tai conda-kirjastoja tai validoida omat kirjastot kertakäyttöä varten. Inline-komennot tekevät kirjaston saataville vain nykyisessä muistikirjan Spark-istunnossa — ne mahdollistavat nopean asennuksen, mutta asennettu kirjasto ei säily istuntojen välillä.
Koska %pip install ne voivat tuottaa erilaisia riippuvuuspuita ajosta toiseen, mikä voi johtaa kirjastokonflikteihin, inline-komennot ovat oletuksena pois päältä putkistoissa eivätkä niitä suositella putkistoille.
Muistiinpano
Kirjastot, jotka asennetaan inline-komennoilla (kuten %pip install tai %conda install), sekä kirjastot, jotka lisätään muistikirjasta tai ympäristön Resources-kansiosta, on laajempi nykyiseen istuntoon tai muistikirjaan. Niihin ei vaikuta ympäristöjulkaisu pikatilassa tai täydessä tilassa.
Yhteenveto tuetuista kirjastotyypeistä
| Kirjaston tyyppi | Ympäristökirjastojen hallinta | Sisäinen asennus |
|---|---|---|
| Python Public (PyPI ja Conda) | Tuettu | Tuettu |
| Python mukautettu (.whl) | Tuettu | Tuettu |
| R Julkinen (CRAN) | Ei tueta | Tuettu |
| Mukautettu R (.tar.gz) | Tuetaan mukautettuna kirjastona | Tuettu |
| Purkki | Tuetaan mukautettuna kirjastona | Tuettu |
Sisäinen asennus
Inline-komentojen avulla voit hallita kirjastoja yksittäisissä muistikirjasessioissa.
Pythonin sisäinen asennus
Järjestelmä käynnistää Python-tulkin uudelleen tehdäkseen kirjaston muutokset. Kaikki ennen komentosolun suorittamista määritetyt muuttujat menetetään. Laita kaikki komennot Python-pakettien lisäämiseen, poistamiseen tai päivittämiseen muistikirjasi alkuun.
Python-kirjastojen hallintaan tarkoitetut inline-komennot ovat oletuksena pois päältä notebook-putkistoissa. Putkiston aktivoimiseksi %pip install lisää _inlineInstallationEnabled totuusparametrina True tiedosto muistikirjan aktiviteettiparametreihin.
Muistiinpano
Komento %pip install voi tuottaa epäjohdonmukaisia tuloksia suorituksesta toiseen. Asenna kirjastot ympäristöön ja käytä ympäristöä putkessa sen sijaan.
Komentoa %pip install ei tueta korkean rinnakkaisrinnan tilassa.
Notebook-viiteajoissa Python-kirjastojen hallintaan tarkoitettuja inline-komentoja ei tueta. Poista nämä rivin sisäiset komennot viitatusta muistikirjasta varmistaaksesi oikean suorituksen.
Käytä : %pip n !pipsijaan. Komento !pip on IPythonin sisäänrakennettu shell-komento, jolla on seuraavat rajoitukset:
-
!pipAsentaa paketin vain ajurisolmuun, ei suoritussolmuihin. - Asennukset eivät
!pipota huomioon ristiriitoja sisäänrakennettujen pakettien tai jo kannettavaan tuotujen pakettien kanssa.
%pip hoitaa nämä tilanteet. Näiden kautta asennetut %pip kirjastot ovat käytettävissä sekä ajuri- että suoritussolmuissa ja ne tulevat voimaan, vaikka kirjasto olisi jo tuotu.
Vihje
Uusien Python-kirjastojen %conda install asentaminen kestää yleensä komentoa %pip install kauemmin. Se tarkistaa kaikki riippuvuudet ja ratkaisee ristiriidat.
Käytä %conda install paremman luotettavuuden ja vakauden vuoksi. Käytä %pip install , jos olet varma, ettei haluamasi kirjasto ole ristiriidassa valmiiksi asennettujen kirjastojen kanssa ajonaikaisessa ympäristössä.
Katso kaikki käytettävissä olevat sisäiset Python-komennot ja -selvennykset artikkelista %pip-komennot ja %conda-komennot.
Python-julkisten kirjastojen hallinta sisäisen asennuksen kautta
Tämä esimerkki näyttää, miten inline-komentoja käytetään kirjastojen hallintaan. Oletetaan, että haluat käyttää Altairia, tehokasta visualisointikirjastoa Pythonille, kertaluonteiseen datan tutkimiseen, eikä kirjastoa ole asennettu työtilaasi. Seuraavassa esimerkissä käytetään conda-komentoja vaiheiden havainnollistamiseen.
Voit käyttää tekstiin sidottavia komentoja ottaaksesi altairin käyttöön muistikirjaistunnossasi vaikuttamatta muistikirjan muihin istuntoihin tai muihin kohteisiin.
Suorita seuraavat komennot muistikirjan koodisolussa. Ensimmäinen komento asentaa altair-kirjaston. Asenna myös vega_datasets, joka sisältää visualisoinnissa käytettävän semanttisen mallin.
%conda install altair # install latest version through conda command %conda install vega_datasets # install latest version through conda commandSolun tulos ilmaisee asennuksen tuloksen.
Tuo paketti ja semanttinen malli suorittamalla seuraava koodi toisessa muistikirjan solussa.
import altair as alt from vega_datasets import dataNyt voit kokeilla istuntolaajennutettua altair-kirjastoa .
# load a simple dataset as a pandas DataFrame cars = data.cars() alt.Chart(cars).mark_point().encode( x='Horsepower', y='Miles_per_Gallon', color='Origin', ).interactive()
Mukautettujen Python-kirjastojen hallinta sisäisen asennuksen kautta
Voit ladata mukautetut Python-kirjastot muistikirjasi tai siihen liitetyn ympäristön resurssikansioon. Resurssikansio on sisäänrakennettu tiedostojärjestelmä, jonka jokainen muistikirja ja ympäristö tarjoaa. Lisätietoja on kohdassa Muistikirjan resurssit . Kun olet ladannut kirjaston, voit raahata ja pudottaa sen koodisoluun ja luoda automaattisesti asennuskomennon. Tai voit suorittaa seuraavan komennon:
# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"
Muistiinpano
Resurssikansiosta inline-komentojen kautta asennetut mukautetut kirjastot ovat istuntokohtaisia ja muistikirjakohtaisia. Heihin ei vaikuta ympäristöjulkaisut.
Sisäiset R-asennukset
Jotta voit hallita R-kirjastoja, Fabric tukee -install.packages()remove.packages(), - ja devtools:: -komentoja. Katso kaikki käytettävissä olevat sisäiset R-komennot ja -selvennykset kohdasta install.packages-komento ja remove.package-komento.
R-julkisten kirjastojen hallinta sisäisen asennuksen kautta
Tämän esimerkin avulla voit käydä läpi R:n julkisen kirjaston asentamisen vaiheet.
R-syötekirjaston asentaminen:
Vaihda työkieli sparkr-kieleksi (R) muistikirjan valintanauhassa.
Asenna caesar-kirjasto suorittamalla seuraava komento muistikirjan solussa.
install.packages("caesar")Nyt voit kokeilla istunnon laajennusta caesarkirjastoa Spark-työn avulla.
library(SparkR) sparkR.session() hello <- function(x) { library(caesar) caesar(x) } spark.lapply(c("hello world", "good morning", "good evening"), hello)
Jar-kirjastojen hallinta sisäisen asennuksen kautta
Voit lisätä .jar tiedostoja muistikirjan istuntoihin seuraavalla komennolla.
%%configure -f
{
"conf": {
"spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
}
}
Edellinen koodisolu käyttää lakehouse storagea esimerkkinä. Notebook Explorerissa voit kopioida tiedoston koko ABFS-polun ja korvata sen koodissa.