Deteção de anomalias multivariadas no Microsoft Fabric - visão geral

O que é a deteção multivariada de anomalias?

A deteção de anomalias univariadas, implementada pela função KQL series_decompose_anomalies(), monitoriza e deteta anomalias numa única variável ao longo do tempo. A deteção de anomalias multivariadas estende esta abordagem ao detetar anomalias na distribuição conjunta de múltiplas variáveis ao longo do tempo — ou seja, analisa como as variáveis se relacionam e influenciam mutuamente como grupo, em vez de examinar cada variável isoladamente. A deteção multivariada de anomalias é útil para monitorizar a saúde de sistemas IoT complexos, detetar fraudes em transações financeiras e identificar padrões invulgares no tráfego de rede.

Por exemplo, considere um sistema que monitoriza o desempenho de uma frota de veículos. O sistema recolhe dados sobre várias métricas, como velocidade, consumo de combustível e temperatura do motor. Ao analisar estas métricas em conjunto, o sistema pode detetar anomalias que não seriam aparentes ao analisar cada métrica individualmente. Por si só, um aumento no consumo de combustível pode dever-se a várias razões aceitáveis. No entanto, um aumento súbito no consumo de combustível combinado com uma diminuição da temperatura do motor pode indicar um problema no motor, mesmo que cada métrica esteja dentro do intervalo normal.

Como pode detetar anomalias multivariadas no Microsoft Fabric?

A deteção multivariada de anomalias no Fabric aproveita os potentes motores Spark e Eventhouse sobre uma camada de armazenamento persistente partilhada. Os dados iniciais podem ser ingeridos numa Casa de Eventos e expostos no OneLake. O modelo de deteção de anomalias pode então ser treinado usando o motor Spark, e as previsões de anomalias em novos dados de streaming podem ser feitas em tempo real usando o motor Eventhouse. A interligação destes motores, que podem processar os mesmos dados no armazenamento partilhado, permite um fluxo contínuo de dados desde a ingestão, através do treino do modelo, até à previsão de anomalias. Este fluxo de trabalho é simples e poderoso para monitorização e deteção em tempo real de anomalias em sistemas complexos.

Componentes da solução

Esta solução baseia-se nos seguintes componentes:

  • Eventhouse: Os dados são inicialmente ingeridos num Eventhouse, que é um motor de processamento de dados em tempo real capaz de gerir fluxos de dados de alto rendimento.
  • OneLake: Os dados do Eventhouse são expostos no OneLake, que é uma camada de armazenamento persistente partilhada que fornece uma visão unificada dos dados.
  • Pacote de deteção de anomalias multivariadas: a solução utiliza o pacote python time-series-anomaly-detector, implementando um algoritmo avançado baseado numa rede de atenção a grafos (GAT) que capta as correlações entre diferentes séries temporais e deteta anomalias em tempo real. O modelo GAT é treinado com dados históricos para aprender as relações entre diferentes séries temporais. O modelo treinado pode ser aplicado para prever anomalias em novos dados em fluxo. Note que este algoritmo é o utilizado no serviço AI Anomaly Detector que será descontinuado. Para mais informações sobre o algoritmo, consulte o blogue e o artigo.
  • Spark Notebook: usado para treino offline do modelo de deteção de anomalias em dados históricos e para armazenar o modelo treinado no registo de modelos MLflow da Fabric
  • Conjunto de consultas KQL: usado para previsão em tempo real de anomalias em dados recebidos.

Próximo passo