Beschleunigen von KI-Modellen mit Windows ML

Windows ML beschleunigt die Ableitung über NPUs, GPUs und CPUs, indem die ONNX-Runtime mit hardwaregesteuerten Ausführungsanbietern (EPs) gekoppelt wird. Weitere Informationen zu Ausführungsanbietern finden Sie in den ONNX-Runtime-Dokumenten.

Note

Sie sind weiterhin für die Optimierung Ihrer Modelle für unterschiedliche Hardware verantwortlich. Windows ML behandelt die Verteilung des Ausführungsanbieters, nicht die Modelloptimierung. Weitere Informationen zur Optimierung finden Sie im AI Toolkit und in den ONNX-Runtime-Lernprogrammen .

Was ist ein Ausführungsanbieter?

Ein Ausführungsanbieter (EP) ist eine Komponente, die hardwarespezifische Optimierungen für Machine Learning(ML)-Vorgänge ermöglicht. Ausführungsanbieter abstrahieren verschiedene Compute-Back-Ends (NPU, GPU und CPU) und stellen eine einheitliche Schnittstelle für die Graphpartitionierung, Kernelregistrierung und Operatorausführung bereit. Weitere Informationen finden Sie in den ONNX-Runtime-Dokumenten.

Zwei Möglichkeiten zum Abrufen von EPs

Windows ML EPs: Verwenden Sie die ExecutionProviderCatalog APIs, um Windows-zertifizierte EPs zu erwerben, die einen strengen Zertifizierungs- und Regressionstestprozess durchlaufen und automatisch aktualisiert werden. Weitere Informationen finden Sie unter Windows ML EPs .

Bringen Sie Ihre eigenen EP-Binärdateien mit: Rufen Sie diese selbst ab und verweisen Sie darauf, um Unterstützung für Offline-Umgebungen, verwaltete Geräte oder strenge Anforderungen an die Versionsbindung zu ermöglichen. Weitere Informationen finden Sie unter "Eigene EPs mitbringen ".

Siehe Windows ML EPs vs. Bring-your-own für Tradeoffs.

Silicon-zu-EP-Zuordnung

Silicon Ausführungsanbieter Typischer Anwendungsfall
NPU OpenVINO (Intel)
QNN (Qualcomm)
VitisAI (AMD)
Akkueffiziente, dauerhafte On-Device-Ableitung auf Copilot+ PCs
GPU MIGraphX (AMD)
NvTensorRtRtx (NVIDIA)
OpenVINO (Intel)
QNN (Qualcomm)
DirectML (enthalten - veraltet)
Image/Video/GenAI-Arbeitslasten mit hohem Durchsatz
CPU OpenVINO (Intel)
ORT CPU EP (enthalten)
Universeller Fallback; geringe Latenz für kleine Modelle

Siehe auch