O que é Windows ML?

O Windows ML é a estrutura de inferência de IA local unificada e de alto desempenho para Windows, alimentada pelo ONNX Runtime. Com o Windows ML, você pode executar modelos de IA localmente e acelerar a inferência em NPUs, GPUs e CPUs por meio de provedores de execução opcionais que o Windows gerencia e mantém atualizados. Você pode usar modelos de PyTorch, TensorFlow/Keras, TFLite, scikit-learn e outras estruturas com o Windows ML.

Um diagrama ilustrando um modelo ONNX é processado pelo Windows ML para então alcançar NPUs, GPUs e CPUs.

Principais benefícios

O Windows ML torna simples colocar a inferência de IA em qualquer aplicativo do Windows:

Executar IA no dispositivo – os modelos são executados localmente no hardware do usuário, mantendo os dados privados, eliminando os custos de nuvem e funcionando sem uma conexão com a Internet.
Use modelos que você já tem : traga modelos de PyTorch, TensorFlow, scikit-learn, Hugging Face e muito mais.
Aceleração de hardware, facilitada pelo Windows – o Windows ML permite que você acesse NPUs, GPUs e CPUs específicas de IHV por meio de provedores de execução que o Windows instala e mantém atualizados por meio do Windows Update, sem necessidade de agrupar os provedores de execução em seu aplicativo.
Um tempo de execução, muitos aplicativos — opcionalmente usar o Windows ML como um componente de sistema compartilhado, para que seu aplicativo permaneça pequeno e todos os aplicativos no dispositivo compartilhem o mesmo runtime atualizado, em vez de cada aplicativo empacotar sua própria cópia.
Desempenho classificado como o melhor da categoria – o Windows ML oferece desempenho to-the-metal em NPUs e GPUs, em par com SDKs dedicados, como TensorRT para RTX ou AI Engine Direct da Qualcomm. Os resultados de desempenho variam de acordo com a configuração de hardware e o modelo – consulte Acelerar modelos de IA para diretrizes específicas de hardware.

Por que usar o Windows ML em vez do Microsoft ORT?

O Windows ML é a cópia do ONNX Runtime (ORT) com suporte e manutenção pelo Windows, disponível como uma cópia em nível de sistema ou autocontida.

Mesmas APIs ONNX — nenhuma alteração no código existente do ONNX Runtime
Com suporte para Windows — compatível e mantido pela equipe do Windows
Amplo suporte a hardware – é executado em computadores Windows (x64 e ARM64) e no Windows Server com qualquer configuração de hardware
Tamanho de aplicativo opcionalmente menor – escolha a implantação dependente de framework e compartilhe o tempo de execução entre aplicativos em vez de empacotar sua própria cópia
Atualizações evergreen opcionais — escolha pela implantação dependente do framework e os usuários sempre obtêm o runtime mais recente por meio do Windows Update.

Além disso, o Windows ML permite que seu aplicativo adquira dinamicamente os provedores de execução mais recentes para acelerar seus modelos de IA, sem carregar os EPs em seu aplicativo e criar builds separados para hardware diferente.

Veja Introdução ao Windows ML para experimentar por conta própria!

Aceleração de hardware em NPU, GPU e CPU

O Windows ML permite acessar provedores de execução que podem acelerar a inferência entre as três classes de silício presentes em computadores Windows modernos:

NPU — inferência no dispositivo eficiente em termos de consumo de bateria e sustentada, com as NPUs mais poderosas disponíveis em PCs Copilot+
GPU — cargas de trabalho de alta taxa de transferência, como imagem, vídeo e IA generativa, que geralmente fornecerão desempenho máximo em GPUs discretas
CPU — fallback universal, além de acelerações de CPU otimizadas para IHV

Para o mapeamento completo de silício-para-EP, os requisitos de driver e as opções de fornecimento de EP, consulte Acelerar Modelos de IA.

Requisitos do sistema

OS: versão de Windows que SDK do Aplicativo Windows dá suporte
Arquitetura: x64 ou ARM64
Hardware: qualquer configuração de computador (CPUs, GPUs integradas/discretas, NPUs)

Observação

O suporte para CPU e GPU (via DirectML) está disponível em todas as versões de Windows com suporte. Provedores de execução com otimização de hardware para NPUs e hardware de GPU específico exigem o Windows 11 versão 24H2 (build 26100) ou superior. Para obter detalhes, consulte provedores de execução do Windows ML.

Otimização de desempenho

A versão mais recente do Windows ML funciona diretamente com provedores de execução dedicados para GPUs e NPUs, fornecendo desempenho de baixo nível que é equiparável a SDKs especializados usados anteriormente, como TensorRT para RTX, AI Engine Direct e a extensão da Intel para PyTorch. Planejamos o Windows ML para ter o melhor desempenho de GPU e NPU da classe, sem exigir que seu aplicativo distribua SDKs específicos de IHV. Os resultados de desempenho variam de acordo com a configuração de hardware e o modelo – consulte Acelerar modelos de IA para diretrizes específicas de hardware.

Convertendo modelos em ONNX

Você pode converter modelos de outros formatos em ONNX para que você possa usá-los com Windows ML. Consulte os documentos do Foundry Toolkit for Visual Studio Code sobre como converter modelos para o formato ONNX para saber mais. Consulte também os Tutoriais de Runtime do ONNX para obter mais informações sobre como converter modelos PyTorch, TensorFlow e Hugging Face em ONNX.

Distribuição de modelo

O Windows ML fornece opções flexíveis para distribuir modelos de IA:

Compartilhar modelos entre aplicativos – baixar e compartilhar modelos dinamicamente em aplicativos de qualquer CDN sem agrupar arquivos grandes
Modelos locais – Incluir arquivos de modelo diretamente em seu pacote de aplicativos

Integração com o ecossistema de IA do Windows

Windows ML serve como base para a plataforma de IA Windows mais ampla:

APIs de IA Windows – modelos internos para tarefas comuns
Foundry Local – Modelos de IA prontos para uso
Modelos personalizados - acesso direto à API do Windows ML para cenários avançados

Fornecendo comentários

Encontrou um problema ou tem sugestões? Pesquise ou crie problemas no SDK do Aplicativo Windows GitHub.

Próximas etapas

Executar modelos de IA – Instalar o Windows ML e executar seu primeiro modelo ONNX
Acelerar modelos de IA – adicionar provedores de execução de NPU, GPU ou CPU para uma inferência mais rápida
Localizar ou treinar modelos – Localizar modelos compatíveis com o Windows ML
Referência API – APIs WinRT e ONNX Runtime no pacote Microsoft.WindowsAppSDK.ML

Comentários

Esta página foi útil?

Last updated on 2026-04-28