Detecção de anomalias multivariadas em Microsoft Fabric – visão geral

O que é detecção de anomalias multivariadas?

A detecção de anomalias univariadas, que é implementada pela função KQL series_decompose_anomalies(), monitora e detecta anomalias em uma única variável ao longo do tempo. A detecção de anomalias multivariadas estende essa abordagem detectando anomalias na distribuição conjunta de várias variáveis ao longo do tempo, o que significa que ela analisa como as variáveis se relacionam e influenciam umas às outras como um grupo, em vez de examinar cada variável isoladamente. A detecção de anomalias multivariadas é útil para monitorar a integridade de sistemas de IoT complexos, detectar fraudes em transações financeiras e identificar padrões incomuns no tráfego de rede.

Por exemplo, considere um sistema que monitora o desempenho de uma frota de veículos. O sistema coleta dados em várias métricas, como velocidade, consumo de combustível e temperatura do mecanismo. Analisando essas métricas em conjunto, o sistema pode detectar anomalias que não seriam aparentes analisando cada métrica individualmente. Por si só, um aumento no consumo de combustível pode ser devido a várias razões aceitáveis. No entanto, um aumento repentino no consumo de combustível combinado com uma diminuição na temperatura do motor pode indicar um problema com o motor, mesmo que cada métrica por si só esteja dentro do intervalo normal.

Como você pode detectar anomalias multivariadas em Microsoft Fabric?

A detecção de anomalias multivariadas em Fabric aproveita os poderosos mecanismos Spark e Eventhouse sobre uma camada de armazenamento persistente compartilhada. Os dados iniciais podem ser ingeridos em um Eventhouse e expostos no OneLake. O modelo de detecção de anomalias pode ser treinado usando o mecanismo Spark e as previsões de anomalias em novos dados de streaming podem ser feitas em tempo real usando o mecanismo Eventhouse. A interconexão desses mecanismos que podem processar os mesmos dados no armazenamento compartilhado permite um fluxo contínuo de dados da ingestão, por meio do treinamento de modelo, para a previsão de anomalias. Esse fluxo de trabalho é simples e poderoso para monitoramento e detecção em tempo real de anomalias em sistemas complexos.

Componentes da solução

Essa solução depende dos seguintes componentes:

  • Eventhouse: os dados são inicialmente ingeridos em um Eventhouse, que é um mecanismo de processamento de dados em tempo real que pode lidar com fluxos de dados de alta taxa de transferência.
  • OneLake: Os dados do Eventhouse são expostos no OneLake, que é uma camada de armazenamento persistente compartilhada que fornece uma exibição unificada dos dados.
  • Pacote de detecção de anomalias multivariadas: a solução usa o pacote python do detector de anomalias de série temporal , implementando um algoritmo avançado baseado em uma rede de atenção de grafo (GAT) que captura as correlações entre séries temporais diferentes e detecta anomalias em tempo real. O modelo GAT é treinado em dados históricos para aprender as relações entre séries temporais diferentes. O modelo treinado pode ser aplicado para prever anomalias a novos dados de streaming. Observe que esse algoritmo é o que é usado no serviço detector de anomalias de IA que está sendo desativado. Para obter mais informações sobre o algoritmo, consulte o blog e o papel.
  • Spark Notebook: usado para treinar offline o modelo de detecção de anomalias em dados históricos e armazenar o modelo treinado no registro de modelos MLflow do Fabric
  • Conjunto de consultas KQL: usado para previsão em tempo real de anomalias em dados de entrada.

Próxima etapa