Monimuuttujapoikkeavuuden tunnistus Microsoft Fabric -ohjelmassa – yleiskatsaus

Mitä on monimuuttujapoikkeamien havaitseminen?

Yksimuuttujaisten poikkeamien havaitseminen, joka toteutetaan KQL-funktiolla series_decompose_anomalies(), valvoo ja havaitsee poikkeavuuksia yhdessä muuttujassa ajan kuluessa. Monimuuttujapoikkeamien havaitseminen laajentaa tätä lähestymistapaa havaitsemalla poikkeavuuksia useiden muuttujien yhteisessä jakautumisessa ajan kuluessa—eli se analysoi, miten muuttujat liittyvät toisiinsa ja vaikuttavat toisiinsa ryhmänä, sen sijaan että tarkasteltaisiin jokaista muuttujaa erikseen. Monimuuttujapoikkeamien havaitseminen on hyödyllistä monimutkaisten IoT-järjestelmien kunnon seurannassa, petosten havaitsemisessa rahoitustransaktioissa sekä epätavallisten verkkoliikenteen kuvioiden tunnistamisessa.

Esimerkiksi otetaan järjestelmä, joka seuraa ajoneuvokaluston suorituskykyä. Järjestelmä kerää tietoa eri mittareista, kuten nopeudesta, polttoaineenkulutuksesta ja moottorin lämpötilasta. Analysoimalla näitä mittareita yhdessä järjestelmä pystyy havaitsemaan poikkeavuuksia, joita ei havaittaisi analysoimalla kutakin mittaria erikseen. Polttoaineenkulutuksen kasvu voi yksinään johtua monista hyväksyttävistä syistä. Kuitenkin äkillinen polttoaineenkulutuksen kasvu yhdessä moottorin lämpötilan laskun kanssa voi viitata moottorin ongelmaan, vaikka jokainen mittari yksinään olisi normaalialueella.

Miten monimuuttujapoikkeavuuksia voi havaita Microsoft Fabric?

Fabric:n monimuuttujapoikkeamien tunnistus hyödyntää tehokkaita Spark- ja Eventhouse-moottoreita yhteisen pysyvän tallennuskerroksen lisäksi. Alkuperäiset tiedot voidaan siirtää tapahtumataloon ja altistaa OneLake-alueelle. Anomalioiden havaitsemismalli voidaan sitten kouluttaa Spark-moottorilla, ja anomalioiden ennustaminen uudessa suoratoistodatassa voidaan tehdä reaaliajassa Eventhouse-moottorin avulla. Näiden moottoreiden yhdistäminen, jotka pystyvät käsittelemään samaa dataa jaetussa tallennustilassa, mahdollistaa saumattoman tiedonkulun mallin koulutuksen kautta poikkeavuuksien ennustamiseen. Tämä työnkulku on yksinkertainen ja tehokas reaaliaikaiseen seurantaan ja poikkeavuuksien havaitsemiseen monimutkaisissa järjestelmissä.

Ratkaisukomponentit

Tämä ratkaisu perustuu seuraaviin komponentteihin:

  • Eventhouse: Data siirretään aluksi Eventhouseen, joka on reaaliaikainen datankäsittelymoottori ja pystyy käsittelemään suuritehoisia datavirtoja.
  • OneLake: Eventhousen data on avoimissa OneLakessa, joka on jaettu pysyvä tallennuskerros ja tarjoaa yhtenäisen näkymän dataan.
  • Monimuuttujaisten poikkeamien havaitsemispaketti: ratkaisu käyttää aikasarja-anomalia-ilmaisimen python-pakettia, joka toteuttaa kehittyneen algoritmin, joka perustuu graafihuomioverkkoon (GAT) ja tallentaa eri aikasarjojen korrelaatioita ja havaitsee poikkeavuuksia reaaliajassa. GAT-mallia koulutetaan historiallisilla aineistoilla oppimaan eri aikasarjojen väliset suhteet. Koulutettua mallia voidaan soveltaa ennustamaan poikkeavuuksia uuteen suoratoistodataan. Huomaa, että tätä algoritmia käytetään AI Anomaly Detector -palvelussa , joka on poistumassa käytöstä. Lisätietoja algoritmista löytyy blogista ja artikkelista.
  • Spark Notebook: käytetään poikkeamien tunnistusmallin offline-koulutukseen historiallisella datalla ja koulutetun mallin tallentamiseen Fabric:n MLflow-mallien rekisteriin
  • KQL queryset: käytetään reaaliaikaiseen poikkeavuuksien ennustamiseen saapuvassa datassa.

Seuraavat vaiheet