Muistikirjojen suorittaminen Microsoft Sentinel Data Lake -tallennustilassa

Jupyter-muistikirjat tarjoavat vuorovaikutteisen ympäristön tietojen analysointiin, analysointiin ja visualisointiin Microsoft Sentinel Data Lake -järjestelmässä ja liitetyissä taulukoissa. Muistikirjojen avulla voit kirjoittaa ja suorittaa koodia, dokumentoida työnkulkusi ja tarkastella tuloksia – kaikki yhdessä paikassa. Tämä helpottaa tietojen tutkimista, kehittyneiden analytiikkaratkaisujen rakentamista ja merkityksellisten tietojen jakamista muiden kanssa. Hyödyntämällä Pythonia ja Apache Sparkia Visual Studio Codessa muistikirjat auttavat sinua muuntamaan raakasuojaustiedot toiminnalliseksi älykkyydeksi.

Tässä artikkelissa kerrotaan, miten voit tutkia ja käsitellä Data Lake -tietoja Käyttämällä Jupyter-muistikirjoja Visual Studio Codessa.

Ennakkovaatimukset

Microsoft Sentinel Data Lake -järjestelmään

Jos haluat käyttää Microsoft Sentinel Data Lake -tallennustilan muistikirjoja, sinun on ensin oltava Data Lake -tallennustilassa. Jos et ole vielä perehdytnyt Sentinel Data Lakeen, katso Microsoft Sentinel Data Lakeen perehdyttäminen. Jos olet äskettäin ottanut datajärven käyttöön, voi kestää jonkin aikaa, ennen kuin tarpeeksi tietoja otetaan käyttöön, ennen kuin voit luoda merkityksellisiä analyysejä muistikirjojen avulla.

Käyttöoikeudet

Microsoft Entra ID roolit tarjoavat laajan käyttöoikeuden kaikkiin Data Lake -järjestelmän työtiloihin. Vaihtoehtoisesti voit myöntää käyttöoikeuden yksittäisiin työtiloihin käyttämällä Azure RBAC-rooleja. Käyttäjät, joilla on Azure RBAC-oikeudet Microsoft Sentinel-työtiloihin, voivat suorittaa muistikirjoja kyseisissä työtiloissa Data Lake -tasolla. Lisätietoja on artikkelissa Microsoft Sentinel roolit ja käyttöoikeudet.

Vaihtoehtoisesti Microsoft Sentinel tai rivitason RBAC voidaan määrittää rajoittamaan edelleen tietojen käyttöä työtilassa. Kun tämä on käytössä, rivitason määritys rajoittaa kyselyiden palauttamia tietoja käyttäjän määrittämän vaikutusalueen mukaan. Jos rivitason määritystä ei ole määritetty, olemassa olevaa työtilatason käyttöoikeusmallia ei muuteta. Lisätietoja on kohdassa Microsoft Sentinel -määrityksen määrittäminen (rivitason RBAC) (esikatselu).

Jotta voit luoda uusia mukautettuja taulukoita analytiikkatasolla, Data Lake -järjestelmän hallituille käyttäjätiedoilla on oltava Log Analytics Contributor -rooli Log Analytics -työtilassa.

Määritä rooli noudattamalla seuraavia ohjeita:

  1. Siirry Azure-portaali Log Analytics -työtilaan, jolle haluat määrittää roolin.
  2. Valitse vasemmassa siirtymisruudussa Käyttöoikeuksien valvonta (IAM ).
  3. Valitse Lisää roolimääritys.
  4. Valitse Rooli-taulukosta Log Analytics Contributor ja valitse sitten Seuraava
  5. Valitse Hallitut käyttäjätiedot ja valitse sitten Valitse jäsenet.
  6. Data Lake Managed Identity on järjestelmälle määritetty hallittu käyttäjätieto nimeltä msg-resources-<guid>. Valitse hallitut käyttäjätiedot ja valitse sitten Valitse.
  7. Valitse Tarkista ja määritä.

Lisätietoja roolien määrittämisestä hallituille käyttäjätiteeteille on kohdassa Azure roolien määrittäminen Azure-portaali avulla.

Visual Studio Coden ja Microsoft Sentinel-laajennuksen asentaminen

Jos sinulla ei vielä ole Visual Studio Codea, lataa ja asenna Visual Studio Code Macille, Linux tai Windowsille.

Visual Studio Coden (VS Code) Microsoft Sentinel-laajennus asennetaan laajennusten Marketplacesta. Asenna laajennus seuraavasti:

  1. Valitse Laajennukset Marketplace vasemmasta työkalurivistä.
  2. Etsi Sentinel.
  3. Valitse Microsoft Sentinel laajennus ja valitse Asenna.
  4. Kun laajennus on asennettu, Microsoft Sentinel vasemmassa työkalurivissä näkyy sentinel-kuvake.

Näyttökuva, jossa näkyy laajennusmarkkinoiden paikka.

Asenna Visual Studio Coden GitHub Copilot laajennus, jotta voit ottaa käyttöön koodin valmistumisen ja ehdotukset muistikirjoissa.

  1. Hae GitHub Copilot Extensions Marketplacesta ja asenna se.
  2. Kirjaudu asennuksen jälkeen GitHub Copilot GitHub-tililläsi.

Tutustu Data Lake -tason taulukoihin

Kun olet asentanut Microsoft Sentinel laajennuksen, voit aloittaa Data Lake -tason taulukoiden tutkimisen ja jupyter-muistikirjojen luomisen tietojen analysointia varten.

Kirjaudu sisään Microsoft Sentinel laajennusta

  1. Valitse vasemmasta työkalurivistä Microsoft Sentinel sentinel-kuvake.

  2. Näyttöön tulee valintaikkuna, jossa on seuraava teksti Tunniste "Microsoft Sentinel" haluaa kirjautua sisään Microsoftilla. Valitse Salli.

    Näyttökuva, jossa näkyy kirjautumisvalintaikkuna.

  3. Viimeistele kirjautuminen valitsemalla tilisi nimi.

    Näyttökuva, jossa näkyy tilin valintaluettelo sivun yläreunassa.

    Jos sinulla on useita vierastilejä liitettynä kirjautumiseesi, voit vaihtaa saumattomasti tilien välillä. Jos haluat vaihtaa tilien välillä, valitse tilin nimi Visual Studio Code -ikkunan vasemmasta alakulmasta. Kerrallaan voidaan valita vain yksi tili.

    Näyttökuva, jossa näytetään, miten voit vaihtaa tiliä Visual Studio Codessa.

    Tärkeää

    Tilien välillä vaihtaminen katkaisee aktiiviset pyspark-istunnot.

Näytä Data Lake -taulukot ja -työt

Kun olet kirjautunut sisään, Sentinel laajennus näyttää luettelon Lake-taulukoista ja työt vasemmassa ruudussa. Taulukot on ryhmitelty tietokannan ja luokan mukaan. Liitetyt taulukot näytetään Liitettyjen taulukoiden luokassa Järjestelmä-taulukoissa. Valitse taulukko nähdäksesi sarakemääritykset.

Lisätietoja työt-kohdasta Työt ja ajoitus. Lisätietoja liitetyistä taulukoista on artikkelissa Liitettyjen taulukoiden käyttäminen Microsoft Sentinel Data Lakessa.

Näyttökuva, joka näyttää taulukoiden, töiden ja valitun taulukon metatietojen luettelon.

Luo uusi muistikirja

  1. Voit luoda uuden muistikirjan jollakin seuraavista tavoista.

  2. Kirjoita > hakuruutuun tai paina Ctrl+Vaihto+P ja kirjoita sitten Luo uusi jupyter-muistikirja. Näyttökuva, jossa näytetään, miten voit luoda uuden muistikirjan hakupalkista.

  3. Valitse Tiedosto > Uusi tiedosto ja valitse sitten avattavasta valikosta Jupyter Notebook .
    Näyttökuva, jossa näytetään, miten tiedostovalikosta luodaan uusi muistikirja.

  4. Liitä seuraava koodi uuteen muistikirjaan ensimmäiseen soluun.

    from sentinel_lake.providers import MicrosoftSentinelProvider
    data_provider = MicrosoftSentinelProvider(spark)
    
    table_name = "EntraGroups"  
    df = data_provider.read_table(table_name)  
    df_filtered = df.select("displayName", "groupTypes", "mail", "mailNickname", "description", "tenantId").show(100,   truncate=False)  
    
    # Transform the dataframe
    df_transformed = df.filter(df.mail.isNotNull()).select("displayName", "groupTypes", "mail", "mailNickname", "description", "tenantId")
    
    write_options = {
         'mode': 'overwrite'
     }
    # Save to a new table
    data_provider.save_as_table(df_transformed, "EntraGroups_Processed_SPRK", write_options=write_options)
    

Editori tarjoaa intellisense-koodin täydennyksen sekä luokan että MicrosoftSentinelProvider Data Lake -tallennustilan taulukoiden nimille.

  1. Suorita muistikirjan koodi valitsemalla Suorita kolmio. Tulokset näytetään tulosruudussa koodisolun alapuolella.
    Näyttökuva, jossa näytetään, miten muistikirjan solu suoritetaan.

  2. Valitse luettelosta Microsoft Sentinel suorituspalveluvarantojen luetteloa varten. Näyttökuva, jossa näkyy suorituksenaikainen valitsin.

  3. Valitse Keskikoko , jos haluat suorittaa muistikirjan keskikokoisessa suorituspalveluvarannossa. Lisätietoja eri suorituspalveluista on kohdassa Asianmukaisen Microsoft Sentinel suorituspalvelun valitseminen. Näyttökuva, jossa näkyy suoritusvarannon koon valitsin.

Huomautus

Ytimen valitseminen aloittaa Spark-istunnon ja suorittaa koodin muistikirjassa. Kun olet valinnut varannon, istunnon käynnistyminen voi kestää 3-5 minuuttia. Myöhemmät suoritukset ovat nopeampia, koska istunto on jo aktiivinen.

Kun istunto aloitetaan, muistikirjan koodi suoritetaan ja tulokset näytetään koodisolun alla olevassa tulostusruudussa. Esimerkki: Näyttökuva, jossa näkyvät tulokset muistikirjan solun suorittamisesta.

Mallimuistikirjat, jotka esittelevät, miten voit käsitellä Microsoft Sentinel Data Lake -tallennustilan kanssa, on kohdassa Microsoft Sentinel Data Lake -tallennustilan mallimuistikirjat.

Tilarivi

Muistikirjan alaosassa oleva tilarivi antaa tietoja muistikirjan nykyisestä tilasta ja Spark-istunnosta. Tilarivi sisältää seuraavat tiedot:

  • Valitun Spark-varannon vCore-käyttöprosentti. Pidä hiiren osoitinta prosenttiluvun päällä, niin näet käytettyjen vCore-ytimien määrän ja varannossa käytettävissä olevien vCore-yksiköiden kokonaismäärän. Prosenttiosuudet edustavat nykyistä käyttöä vuorovaikutteisten kuormitusten ja kirjautuneen tilin töiden kuormitusten välillä.

  • Spark-istunnon yhteyden tila, kuten Connecting, Connectedtai Not Connected.

Näyttökuva, jossa näkyy tilarivi muistikirjan alareunassa.

Istunnon aikakatkaisujen määrittäminen

Voit määrittää vuorovaikutteisten muistikirjojen istunnon aikakatkaisu- ja aikakatkaisuvaroitukset. Nämä asetukset säilyvät laajennusasetuksissa, joten ne säilytetään kaikissa istunnoissa.

Jos haluat muuttaa aikakatkaisua, valitse yhteyden tila muistikirjan alareunan tilarivillä. Valitse seuraavista vaihtoehdoista:

  • Määritä istunnon aikakatkaisuaika: Asettaa ajan minuutteina, jonka istunto aikakatkaistaan. Oletusarvo on 30 minuuttia.

  • Palauta istunnon aikakatkaisuaika: palauttaa istunnon aikakatkaisun oletusarvoksi 30 minuuttia.

  • Määritä istunnon aikakatkaisun varoitusaika: Asettaa ajan minuutteina ennen aikakatkaisua, jonka jälkeen näyttöön tulee varoitus siitä, että istunto on aikakatkaisun välein. Oletusarvo on 5 minuuttia.

  • Palauta istunnon aikakatkaisun varoitusaika: palauttaa istunnon aikakatkaisuvaroituksen oletusarvoksi 5 minuuttia.

    Näyttökuva, jossa näkyy istunnon aikakatkaisuasetus.

GitHub Copilot käyttäminen muistikirjoissa

GitHub Copilot avulla voit kirjoittaa koodia muistikirjoihin. GitHub Copilot antaa koodiehdotuksia ja automaattista täydennystä koodisi kontekstin perusteella. Jos haluat käyttää GitHub Copilot, varmista, että visual studio codeen on asennettu GitHub Copilot laajennus.

Kopioi koodi Microsoft Sentinel Data Lake -mallimuistikirjoista ja tallenna se muistikirjat-kansioon, jotta saat kontekstin GitHub Copilot. GitHub Copilot voivat sitten ehdottaa koodin valmistumista muistikirjan kontekstin perusteella.

Seuraavassa esimerkissä näytetään, GitHub Copilot luodaan koodin tarkistus.

Näyttökuva, jossa näkyy GitHub Copilot kooditarkistin luominen.

Microsoft Sentinel Provider -luokka

Jos haluat muodostaa yhteyden Microsoft Sentinel Data Lakeen, käytä -luokkaaSentinelLakeProvider. Tämä luokka on osa moduulia access_module.data_loader ja tarjoaa menetelmiä Data Lake -järjestelmän kanssa vuorovaikutukseen. Jos haluat käyttää tätä luokkaa, tuo se ja luo luokan esiintymä istunnon avulla spark .

from sentinel_lake.providers import MicrosoftSentinelProvider
data_provider = MicrosoftSentinelProvider(spark)

Lisätietoja käytettävissä olevista menetelmistä on kohdassa Microsoft Sentinel Tarjoajan luokkaviittaus.

Valitse haluamasi suorituksenaikainen varanto

Microsoft Sentinel-laajennuksen Jupyter-muistikirjojen suorittamiseen on käytettävissä kolme suorituspalveluvarantoa. Jokainen varanto on suunniteltu eri kuormituksia ja suorituskykyvaatimuksia varten. Ajonaikaisen varannon valinta vaikuttaa Spark-töiden suorituskykyyn, kustannuksiin ja suoritusaikaan.

Suorituksenaikainen varanto Suositellut käyttötapaukset Ominaisuudet
Pieni Kehitys, testaus ja kevyt tutkimusanalyysi.
Pieniä kuormituksia yksinkertaisilla muunnoksilla.
Kustannustehokkuus priorisoitu.
Sopii pienille kuormituksille
Yksinkertaiset muunnokset.
Pienemmät kustannukset, pidempi suoritusaika.
Normaali ETL-työt, joissa on liitoksia, koosteita ja koneoppimismallin harjoittamista.
Kohtalaiset kuormitukset ja monimutkaiset muunnokset.
Parannettu suorituskyky small-parannetussa suorituskyvyssä.
Käsittelee rinnakkaisuutta ja kohtalaisia muistiin intensiivisiä toimintoja.
Suuri Syväoppiminen ja koneoppimisen kuormitukset.
Laaja tietojen sekoitus, suuret liitokset tai reaaliaikainen käsittely.
Kriittinen suoritusaika.
Suuri muisti ja laskentateho.
Vähäisiä viiveitä.
Soveltuu parhaiten suuriin, monimutkaisiin tai aikaherkkiin kuormituksille.

Huomautus

Kun sitä tarkastellaan ensimmäisen kerran, ydinasetusten lataaminen voi kestää noin 30 sekuntia.
Kun olet valinnut suorituksenaikaisen varannon, istunnon käynnistyminen voi kestää 3–5 minuuttia.

Näytä viestit, lokit ja virheet

Viestilokit ja virhesanomat näkyvät Visual Studio Coden kolmella alueella.

  1. Tulosruutu.

    1. Valitse Tulostus-ruudussaMicrosoft Sentinel avattavasta valikosta.
    2. Valitse Virheenkorjaus , jos haluat sisällyttää yksityiskohtaiset lokimerkinnät.

    Näyttökuva, jossa näkyy tulostusruutu.

  2. Muistikirjan riviviestit antavat palautetta ja tietoja koodisolujen suorittamisesta. Näitä sanomia ovat suoritustilan päivitykset, edistymisilmaisimet ja virheilmoitukset, jotka liittyvät edellisen solun koodiin

  3. Visual Studio Coden oikeassa alakulmassa näkyvä ilmoitus, joka tunnetaan myös ilmoitusruutuna, tarjoaa reaaliaikaisia ilmoituksia ja päivityksiä muistikirjan toimintojen tilasta ja spark-istunnosta. Näitä ilmoituksia ovat esimerkiksi viestit, varoitukset ja virheilmoitukset, kuten onnistunut yhteys spark-istuntoon sekä aikakatkaisuvaroitukset.

    Näyttökuva, jossa näkyy ilmoitusruutu ja rivin mukainen virhesanoma.

Työt ja ajoitus

Voit ajoittaa työt suoritettaviksi tiettynä aikana tai tietyin väliajoin Visual Studio Coden Microsoft Sentinel -laajennuksen avulla. Töiden avulla voit automatisoida tietojen käsittelytehtäviä, jotta voit tehdä yhteenvedon, muuntaa tai analysoida Microsoft Sentinel Data Lake -tallennustilan tietoja. Töitä käytetään myös tietojen käsittelyyn ja tulosten kirjoittamiseen mukautettuihin taulukoihin Data Lake -tasolla tai analytiikkatasolla. Lisätietoja töiden luomisesta ja hallinnasta on ohjeaiheessa Jupyter-muistikirjatöiden luominen ja hallinta.

VS Code -muistikirjojen palveluparametrit ja rajoitukset

Seuraavassa osiossa luetellaan Microsoft Sentinel Data Lake -tallennustilan palveluparametrit ja rajoitukset VS Code -muistikirjoja käytettäessä.

Luokka Parametri/rajoitus
Mukautettu taulukko analytiikkatasolla Analytiikkatason mukautettuja taulukoita ei voi poistaa muistikirjasta. Voit poistaa nämä taulukot Log Analyticsin avulla. Lisätietoja on artikkelissa Taulukoiden ja sarakkeiden lisääminen tai poistaminen Azure Valvontalokit
Yhdyskäytävän verkkovastakkeen aikakatkaisu 2 tuntia
Vuorovaikutteisen kyselyn aikakatkaisu 2 tuntia
Vuorovaikutteisen istunnon käyttämättömyyden aikakatkaisu 20 minuuttia
Kieli Python
Kaaviokyselyn aikakatkaisu 7,5 minuuttia
Muistikirjatyön aikakatkaisu 8 tuntia
Samanaikaisten muistikirjatöiden enimmäismäärä 3, myöhemmät työt asetetaan jonoon
Samanaikaisten käyttäjien enimmäismäärä vuorovaikutteisessa kyselyssä 8-10 suurella uima-altaalla
Istunnon aloitusaika Spark-käsittelyistunnon käynnistyminen kestää noin 5–6 minuuttia. Voit tarkastella istunnon tilaa VS Code -muistikirjan alareunassa.
Tuetut kirjastot Vain Azure Synapse kirjastoja 3.4 ja Microsoft Sentinel Provider -kirjastoja abstrakteja funktioita varten tuetaan Data Lake -tallennustilan kyselyissä. Pip-asennuksia tai mukautettuja kirjastoja ei tueta.
VS Coden UX-raja tietueiden näyttämiseen 100 000 riviä

Vianmääritys

Yleisiä virheitä ja ratkaisuja muistikirjoja käsiteltäessä on artikkelissa Microsoft Sentinel Data Lake -tallennustilan muistikirjojen vianmääritys.