Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Windows ML é a estrutura de inferência de IA local unificada e de alto desempenho para Windows, alimentada pelo ONNX Runtime. Com o Windows ML, você pode executar modelos de IA localmente e acelerar a inferência em NPUs, GPUs e CPUs por meio de provedores de execução opcionais que o Windows gerencia e mantém atualizados. Você pode usar modelos de PyTorch, TensorFlow/Keras, TFLite, scikit-learn e outras estruturas com o Windows ML.
Um diagrama ilustrando um modelo ONNX é processado pelo Windows ML para então alcançar NPUs, GPUs e CPUs.
Principais benefícios
O Windows ML torna simples colocar a inferência de IA em qualquer aplicativo do Windows:
- Executar IA no dispositivo – os modelos são executados localmente no hardware do usuário, mantendo os dados privados, eliminando os custos de nuvem e funcionando sem uma conexão com a Internet.
- Use modelos que você já tem : traga modelos de PyTorch, TensorFlow, scikit-learn, Hugging Face e muito mais.
- Aceleração de hardware, facilitada pelo Windows – o Windows ML permite que você acesse NPUs, GPUs e CPUs específicas de IHV por meio de provedores de execução que o Windows instala e mantém atualizados por meio do Windows Update, sem necessidade de agrupar os provedores de execução em seu aplicativo.
- Um tempo de execução, muitos aplicativos — opcionalmente usar o Windows ML como um componente de sistema compartilhado, para que seu aplicativo permaneça pequeno e todos os aplicativos no dispositivo compartilhem o mesmo runtime atualizado, em vez de cada aplicativo empacotar sua própria cópia.
- Desempenho classificado como o melhor da categoria – o Windows ML oferece desempenho to-the-metal em NPUs e GPUs, em par com SDKs dedicados, como TensorRT para RTX ou AI Engine Direct da Qualcomm. Os resultados de desempenho variam de acordo com a configuração de hardware e o modelo – consulte Acelerar modelos de IA para diretrizes específicas de hardware.
Por que usar o Windows ML em vez do Microsoft ORT?
O Windows ML é a cópia do ONNX Runtime (ORT) com suporte e manutenção pelo Windows, disponível como uma cópia em nível de sistema ou autocontida.
- Mesmas APIs ONNX — nenhuma alteração no código existente do ONNX Runtime
- Com suporte para Windows — compatível e mantido pela equipe do Windows
- Amplo suporte a hardware – é executado em computadores Windows (x64 e ARM64) e no Windows Server com qualquer configuração de hardware
- Tamanho de aplicativo opcionalmente menor – escolha a implantação dependente de framework e compartilhe o tempo de execução entre aplicativos em vez de empacotar sua própria cópia
- Atualizações evergreen opcionais — escolha pela implantação dependente do framework e os usuários sempre obtêm o runtime mais recente por meio do Windows Update.
Além disso, o Windows ML permite que seu aplicativo adquira dinamicamente os provedores de execução mais recentes para acelerar seus modelos de IA, sem carregar os EPs em seu aplicativo e criar builds separados para hardware diferente.
Veja Introdução ao Windows ML para experimentar por conta própria!
Aceleração de hardware em NPU, GPU e CPU
O Windows ML permite acessar provedores de execução que podem acelerar a inferência entre as três classes de silício presentes em computadores Windows modernos:
- NPU — inferência no dispositivo eficiente em termos de consumo de bateria e sustentada, com as NPUs mais poderosas disponíveis em PCs Copilot+
- GPU — cargas de trabalho de alta taxa de transferência, como imagem, vídeo e IA generativa, que geralmente fornecerão desempenho máximo em GPUs discretas
- CPU — fallback universal, além de acelerações de CPU otimizadas para IHV
Para o mapeamento completo de silício-para-EP, os requisitos de driver e as opções de fornecimento de EP, consulte Acelerar Modelos de IA.
Requisitos do sistema
- OS: versão de Windows que SDK do Aplicativo Windows dá suporte
- Arquitetura: x64 ou ARM64
- Hardware: qualquer configuração de computador (CPUs, GPUs integradas/discretas, NPUs)
Observação
O suporte para CPU e GPU (via DirectML) está disponível em todas as versões de Windows com suporte. Provedores de execução com otimização de hardware para NPUs e hardware de GPU específico exigem o Windows 11 versão 24H2 (build 26100) ou superior. Para obter detalhes, consulte provedores de execução do Windows ML.
Otimização de desempenho
A versão mais recente do Windows ML funciona diretamente com provedores de execução dedicados para GPUs e NPUs, fornecendo desempenho de baixo nível que é equiparável a SDKs especializados usados anteriormente, como TensorRT para RTX, AI Engine Direct e a extensão da Intel para PyTorch. Planejamos o Windows ML para ter o melhor desempenho de GPU e NPU da classe, sem exigir que seu aplicativo distribua SDKs específicos de IHV. Os resultados de desempenho variam de acordo com a configuração de hardware e o modelo – consulte Acelerar modelos de IA para diretrizes específicas de hardware.
Convertendo modelos em ONNX
Você pode converter modelos de outros formatos em ONNX para que você possa usá-los com Windows ML. Consulte os documentos do Foundry Toolkit for Visual Studio Code sobre como converter modelos para o formato ONNX para saber mais. Consulte também os Tutoriais de Runtime do ONNX para obter mais informações sobre como converter modelos PyTorch, TensorFlow e Hugging Face em ONNX.
Distribuição de modelo
O Windows ML fornece opções flexíveis para distribuir modelos de IA:
- Compartilhar modelos entre aplicativos – baixar e compartilhar modelos dinamicamente em aplicativos de qualquer CDN sem agrupar arquivos grandes
- Modelos locais – Incluir arquivos de modelo diretamente em seu pacote de aplicativos
Integração com o ecossistema de IA do Windows
Windows ML serve como base para a plataforma de IA Windows mais ampla:
- APIs de IA Windows – modelos internos para tarefas comuns
- Foundry Local – Modelos de IA prontos para uso
- Modelos personalizados - acesso direto à API do Windows ML para cenários avançados
Fornecendo comentários
Encontrou um problema ou tem sugestões? Pesquise ou crie problemas no SDK do Aplicativo Windows GitHub.
Próximas etapas
- Executar modelos de IA – Instalar o Windows ML e executar seu primeiro modelo ONNX
- Acelerar modelos de IA – adicionar provedores de execução de NPU, GPU ou CPU para uma inferência mais rápida
- Localizar ou treinar modelos – Localizar modelos compatíveis com o Windows ML
- Referência API – APIs WinRT e ONNX Runtime no pacote Microsoft.WindowsAppSDK.ML