O que é Windows ML?

O Windows ML é a estrutura de inferência de IA local unificada e de alto desempenho para Windows, alimentada pelo ONNX Runtime. Com o Windows ML, você pode executar modelos de IA localmente e acelerar a inferência em NPUs, GPUs e CPUs por meio de provedores de execução opcionais que o Windows gerencia e mantém atualizados. Você pode usar modelos de PyTorch, TensorFlow/Keras, TFLite, scikit-learn e outras estruturas com o Windows ML.

Um diagrama ilustrando um modelo ONNX é processado pelo Windows ML para então alcançar NPUs, GPUs e CPUs.

Principais benefícios

O Windows ML torna simples colocar a inferência de IA em qualquer aplicativo do Windows:

  • Executar IA no dispositivo – os modelos são executados localmente no hardware do usuário, mantendo os dados privados, eliminando os custos de nuvem e funcionando sem uma conexão com a Internet.
  • Use modelos que você já tem : traga modelos de PyTorch, TensorFlow, scikit-learn, Hugging Face e muito mais.
  • Aceleração de hardware, facilitada pelo Windows – o Windows ML permite que você acesse NPUs, GPUs e CPUs específicas de IHV por meio de provedores de execução que o Windows instala e mantém atualizados por meio do Windows Update, sem necessidade de agrupar os provedores de execução em seu aplicativo.
  • Um tempo de execução, muitos aplicativos — opcionalmente usar o Windows ML como um componente de sistema compartilhado, para que seu aplicativo permaneça pequeno e todos os aplicativos no dispositivo compartilhem o mesmo runtime atualizado, em vez de cada aplicativo empacotar sua própria cópia.
  • Desempenho classificado como o melhor da categoria – o Windows ML oferece desempenho to-the-metal em NPUs e GPUs, em par com SDKs dedicados, como TensorRT para RTX ou AI Engine Direct da Qualcomm. Os resultados de desempenho variam de acordo com a configuração de hardware e o modelo – consulte Acelerar modelos de IA para diretrizes específicas de hardware.

Por que usar o Windows ML em vez do Microsoft ORT?

O Windows ML é a cópia do ONNX Runtime (ORT) com suporte e manutenção pelo Windows, disponível como uma cópia em nível de sistema ou autocontida.

  • Mesmas APIs ONNX — nenhuma alteração no código existente do ONNX Runtime
  • Com suporte para Windows — compatível e mantido pela equipe do Windows
  • Amplo suporte a hardware – é executado em computadores Windows (x64 e ARM64) e no Windows Server com qualquer configuração de hardware
  • Tamanho de aplicativo opcionalmente menor – escolha a implantação dependente de framework e compartilhe o tempo de execução entre aplicativos em vez de empacotar sua própria cópia
  • Atualizações evergreen opcionais — escolha pela implantação dependente do framework e os usuários sempre obtêm o runtime mais recente por meio do Windows Update.

Além disso, o Windows ML permite que seu aplicativo adquira dinamicamente os provedores de execução mais recentes para acelerar seus modelos de IA, sem carregar os EPs em seu aplicativo e criar builds separados para hardware diferente.

Veja Introdução ao Windows ML para experimentar por conta própria!

Aceleração de hardware em NPU, GPU e CPU

O Windows ML permite acessar provedores de execução que podem acelerar a inferência entre as três classes de silício presentes em computadores Windows modernos:

  • NPU — inferência no dispositivo eficiente em termos de consumo de bateria e sustentada, com as NPUs mais poderosas disponíveis em PCs Copilot+
  • GPU — cargas de trabalho de alta taxa de transferência, como imagem, vídeo e IA generativa, que geralmente fornecerão desempenho máximo em GPUs discretas
  • CPU — fallback universal, além de acelerações de CPU otimizadas para IHV

Para o mapeamento completo de silício-para-EP, os requisitos de driver e as opções de fornecimento de EP, consulte Acelerar Modelos de IA.

Requisitos do sistema

Observação

O suporte para CPU e GPU (via DirectML) está disponível em todas as versões de Windows com suporte. Provedores de execução com otimização de hardware para NPUs e hardware de GPU específico exigem o Windows 11 versão 24H2 (build 26100) ou superior. Para obter detalhes, consulte provedores de execução do Windows ML.

Otimização de desempenho

A versão mais recente do Windows ML funciona diretamente com provedores de execução dedicados para GPUs e NPUs, fornecendo desempenho de baixo nível que é equiparável a SDKs especializados usados anteriormente, como TensorRT para RTX, AI Engine Direct e a extensão da Intel para PyTorch. Planejamos o Windows ML para ter o melhor desempenho de GPU e NPU da classe, sem exigir que seu aplicativo distribua SDKs específicos de IHV. Os resultados de desempenho variam de acordo com a configuração de hardware e o modelo – consulte Acelerar modelos de IA para diretrizes específicas de hardware.

Convertendo modelos em ONNX

Você pode converter modelos de outros formatos em ONNX para que você possa usá-los com Windows ML. Consulte os documentos do Foundry Toolkit for Visual Studio Code sobre como converter modelos para o formato ONNX para saber mais. Consulte também os Tutoriais de Runtime do ONNX para obter mais informações sobre como converter modelos PyTorch, TensorFlow e Hugging Face em ONNX.

Distribuição de modelo

O Windows ML fornece opções flexíveis para distribuir modelos de IA:

  • Compartilhar modelos entre aplicativos – baixar e compartilhar modelos dinamicamente em aplicativos de qualquer CDN sem agrupar arquivos grandes
  • Modelos locais – Incluir arquivos de modelo diretamente em seu pacote de aplicativos

Integração com o ecossistema de IA do Windows

Windows ML serve como base para a plataforma de IA Windows mais ampla:

  • APIs de IA Windows – modelos internos para tarefas comuns
  • Foundry Local – Modelos de IA prontos para uso
  • Modelos personalizados - acesso direto à API do Windows ML para cenários avançados

Fornecendo comentários

Encontrou um problema ou tem sugestões? Pesquise ou crie problemas no SDK do Aplicativo Windows GitHub.

Próximas etapas