Acelerar modelos de IA com o Windows ML

O Windows ML acelera a inferência entre NPUs, GPUs e CPUs emparelhando o ONNX Runtime com provedores de execução ajustados por hardware (EPs). Para saber mais sobre provedores de execução, consulte os documentos de runtime do ONNX.

Note

Você ainda é responsável por otimizar seus modelos para hardwares diferentes. Windows ML manipula a distribuição do provedor de execução, não a otimização do modelo. Consulte o Kit de Ferramentas de IA e os Tutoriais de Runtime do ONNX para obter mais informações sobre otimização.

O que é um provedor de execução?

Um EP (provedor de execução) é um componente que permite otimizações específicas de hardware para operações de ML (machine learning). Os provedores de execução abstraem diferentes plataformas de computação (NPU, GPU e CPU) e fornecem uma interface unificada para particionamento de grafos, registro de kernel e execução de operadores. Para saber mais, confira os documentos do ONNX Runtime.

Duas maneiras de obter EPs

EPs do Windows ML: Use as ExecutionProviderCatalog APIs para adquirir EPs certificados pelo Windows que passam por um rigoroso processo de certificação e teste de regressão e são atualizados automaticamente. Consulte os EPs do Windows ML para saber mais.

Traga o seu próprio: Obtenha e referencie binários EP por conta própria, habilitando o suporte para ambientes offline, dispositivos gerenciados ou requisitos estritos de fixação de versão. Consulte Traga seus próprios EPs para saber mais.

Consulte Os EPs do Windows ML versus traga seu próprio para compensações.

Mapeamento de silício para EP

Silício Provedores de execução Caso de uso típico
NPU OpenVINO (Intel)
QNN (Qualcomm)
VitisAI (AMD)
Inferência contínua e eficiente em termos de bateria em dispositivos Copilot+
GPU MIGraphX (AMD)
NvTensorRtRtx (NVIDIA)
OpenVINO (Intel)
QNN (Qualcomm)
DirectML (incluído - legado)
Cargas de trabalho de imagem/vídeo/GenAI com alta taxa de transferência
CPU OpenVINO (Intel)
EP de CPU ORT (incluído)
Plano de contingência universal; baixa latência para modelos pequenos

Consulte também