Multivariat avviksdeteksjon i Microsoft Fabric – oversikt

Hva er deteksjon av multivariate anomalier?

Univariat anomalideteksjon, som implementeres av KQL-funksjonen series_decompose_anomalies(), overvåker og oppdager avvik i én variabel over tid. Multivariat anomalideteksjon utvider denne tilnærmingen ved å oppdage anomalier i den felles fordelingen av flere variabler over tid—det vil si at den analyserer hvordan variablene relaterer seg til og påvirker hverandre som gruppe, i stedet for å undersøke hver variabel isolert. Multivariat avviksdeteksjon er nyttig for å overvåke helsen til komplekse IoT-systemer, oppdage svindel i finansielle transaksjoner og identifisere uvanlige mønstre i nettverkstrafikken.

For eksempel, vurder et system som overvåker ytelsen til en bilpark. Systemet samler inn data om ulike måleparametere, som hastighet, drivstofforbruk og motortemperatur. Ved å analysere disse målingene sammen kan systemet oppdage avvik som ikke ville vært åpenbare ved å analysere hver enkelt måling. Alene kan en økning i drivstofforbruket skyldes ulike akseptable årsaker. En plutselig økning i drivstofforbruk, kombinert med en reduksjon i motortemperaturen, kan imidlertid indikere et problem med motoren, selv om hver enkelt måling er innenfor normalområdet.

Hvordan kan du oppdage multivariate avvik i Microsoft Fabric?

Multivariat anomalideteksjon i Fabric utnytter de kraftige Spark- og Eventhouse-motorene oppå et delt persistent lagringslag. De første dataene kan importeres i et Eventhouse og eksponeres i OneLake. Avviksdeteksjonsmodellen kan deretter trenes ved hjelp av Spark-motoren, og prediksjoner av avvik på nye strømmedata kan gjøres i sanntid ved hjelp av Eventhouse-motoren. Sammenkoblingen av disse motorene, som kan behandle de samme dataene i den delte lagringen, muliggjør en sømløs flyt av data fra inntak, via modelltrening, til prediksjon av avvik. Denne arbeidsflyten er enkel og kraftig for sanntidsovervåking og oppdagelse av avvik i komplekse systemer.

Løsningskomponenter

Denne løsningen er avhengig av følgende komponenter:

  • Eventhouse: Dataene importeres først i en Eventhouse, som er en sanntids databehandlingsmotor som kan håndtere høyhastighetsdatastrømmer.
  • OneLake: Data fra Eventhouse er eksponert i OneLake, som er et delt persistent lagringslag som gir en samlet oversikt over dataene.
  • Multivariat anomalideteksjonspakke: løsningen bruker time-series-anomaly-detector python-pakken, og implementerer en avansert algoritme basert på et graph attention network (GAT) som fanger opp korrelasjoner mellom ulike tidsserier og oppdager avvik i sanntid. GAT-modellen trenes på historiske data for å lære sammenhengene mellom ulike tidsserier. Den trente modellen kan brukes til å forutsi avvik i nye strømmedata. Merk at denne algoritmen er den som brukes i AI Anomaly Detector-tjenesten som nå tas ut av drift. For mer informasjon om algoritmen, se bloggen og artikkelen.
  • Spark Notebook: brukes til offline trening av anomalideteksjonsmodellen på historiske data og lagring av den trente modellen i Fabric MLflow-modellregister
  • KQL-spørringssett: brukes til sanntidsprediksjon av avvik på innkommende data.

Neste trinn: