Wat is Windows ML?

Windows ML is het geïntegreerde en krachtige lokale AI-deductieframework voor Windows, mogelijk gemaakt door ONNX Runtime. Met Windows ML kunt u AI-modellen lokaal uitvoeren en deductie versnellen op NPUs, GPU's en CPU's via optionele uitvoeringsproviders die windows beheert en up-to-date houdt. U kunt modellen van PyTorch, TensorFlow/Keras, TFLite, scikit-learn en andere frameworks gebruiken met Windows ML.

A-diagram dat een ONNX-model illustreert dat door Windows ML gaat om vervolgens NPU's, GPU's en CPU's te bereiken.

Belangrijkste voordelen

Windows ML maakt het eenvoudig om AI-deductie in elke Windows-app te brengen:

  • AI op apparaat uitvoeren : modellen worden lokaal uitgevoerd op de hardware van de gebruiker, gegevens privé houden, cloudkosten elimineren en werken zonder internetverbinding.
  • Gebruik al modellen die u al hebt: neem modellen van PyTorch, TensorFlow, scikit-learn, Hugging Face en meer mee.
  • Hardwareversnelling, mogelijk gemaakt door Windows — Met Windows ML hebt u toegang tot IHV-specifieke NPUs, GPU's en CPU's via uitvoeringsproviders die Windows installeert en up-to-date houdt via Windows Update. U hoeft de uitvoeringsproviders niet te bundelen in uw app.
  • Eén runtime, veel apps , optioneel Windows ML gebruiken als een gedeeld systeemonderdeel, zodat uw app klein blijft en alle apps op het apparaat dezelfde up-to-date runtime delen, in plaats van elke app die een eigen kopie bundelt.
  • Best-in-class prestaties — Windows ML levert to-the-metal prestaties op NPUs en GPU's, vergelijkbaar met toegewijde SDK's, zoals TensorRT voor RTX of Qualcomms AI Engine Direct. Prestatieresultaten variëren per hardwareconfiguratie en -model. Zie AI-modellen versnellen voor hardwarespecifieke richtlijnen.

Waarom Windows ML gebruiken in plaats van Microsoft ORT?

Windows ML is de door Windows ondersteunde en onderhouden kopie van ONNX Runtime (ORT), beschikbaar als een systeembrede kopie of zelfstandige versie:

  • Dezelfde ONNX-API's : geen wijzigingen in uw bestaande ONNX Runtime-code
  • Door Windows ondersteund , ondersteund en onderhouden door het Windows-team
  • Brede hardwareondersteuning : wordt uitgevoerd op Windows-pc's (x64 en ARM64) en Windows Server met elke hardwareconfiguratie
  • Optionele kleinere app-grootte : kies frameworkafhankelijke implementatie en deel de runtime tussen apps in plaats van uw eigen kopie te bundelen
  • Optionele groenblijvende updates : kies frameworkafhankelijke implementatie en uw gebruikers krijgen altijd de nieuwste runtime via Windows Update

Bovendien kan uw app met Windows ML dynamisch de nieuwste uitvoeringsproviders verkrijgen om uw AI-modellen te versnellen, zonder de EPs in uw app te dragen en afzonderlijke builds voor verschillende hardware te maken.

Zie Aan de slag met Windows ML om het zelf te proberen.

Hardwareversnelling op NPU, GPU en CPU

Met Windows ML kunt u toegang krijgen tot uitvoeringsproviders die deductie kunnen versnellen in de drie siliciumklassen die aanwezig zijn op moderne Windows-pc's:

  • NPU : batterij-efficiënte, duurzame deductie op het apparaat, met de krachtigste NPU's die beschikbaar zijn op Copilot+ pc's
  • GPU : workloads met hoge doorvoer, zoals afbeeldingen, video en generatieve AI, die over het algemeen maximale prestaties bieden op discrete GPU's
  • CPU — universele terugvaloptie, plus CPU-versnellingen die geoptimaliseerd zijn voor IHV

Zie Accelerate AI models voor de volledige silicon-to-EP toewijzing, stuurprogrammavereisten en EP-sourcingopties.

Systeemvereisten

  • OS: versie van Windows die Windows App SDK ondersteunt
  • Architectuur: x64 of ARM64
  • Hardware: Elke pc-configuratie (CPU's, geïntegreerde/discrete GPU's, NPU's)

Opmerking

Ondersteuning voor CPU en GPU (via DirectML) is beschikbaar voor alle ondersteunde Windows versies. Hardware-geoptimaliseerde uitvoeringsproviders voor NPU's en specifieke GPU-hardware vereisen Windows 11 versie 24H2 (build 26100) of hoger. Zie Windows ML-uitvoeringsproviders voor meer informatie.

Optimalisatie van prestaties

De nieuwste versie van Windows ML werkt rechtstreeks met toegewezen uitvoeringsproviders voor GPU's en NPU's, die directe hardwareprestaties leveren die gelijkwaardig zijn aan de dedicated SDK's uit het verleden, zoals TensorRT voor RTX, AI Engine Direct en Intel's Extension voor PyTorch. We hebben Windows ML ontworpen om de beste GPU- en NPU-prestaties te hebben, zonder dat uw app IHV-specifieke SDK's hoeft te distribueren. Prestatieresultaten variëren per hardwareconfiguratie en -model. Zie AI-modellen versnellen voor hardwarespecifieke richtlijnen.

Modellen converteren naar ONNX

U kunt modellen van andere indelingen converteren naar ONNX, zodat u ze kunt gebruiken met Windows ML. Zie de Documenten van de Foundry Toolkit voor Visual Studio Code over het converteren van modellen naar de ONNX-indeling voor meer informatie. Zie ook de ONNX Runtime-zelfstudies voor meer informatie over het converteren van PyTorch-, TensorFlow- en Hugging Face-modellen naar ONNX.

Modeldistributie

Windows ML biedt flexibele opties voor het distribueren van AI-modellen:

  • Modellen delen in apps - Modellen dynamisch downloaden en delen in apps vanaf elk CDN zonder grote bestanden te bundelen
  • Lokale modellen - Modelbestanden rechtstreeks opnemen in uw toepassingspakket

Integratie met Windows AI-ecosysteem

Windows ML fungeert als de basis voor het bredere Windows AI-platform:

  • Windows AI-API's - Ingebouwde modellen voor algemene taken
  • Foundry Local - Kant-en-klare AI-modellen
  • Custom-modellen - Directe Windows ML API-toegang voor geavanceerde scenario's

Feedback geven

Hebt u een probleem gevonden of suggesties? Zoek of maak kwesties op de Windows App SDK GitHub.

Volgende stappen