Partilhar via


Modelos linguísticos de grande dimensão (LLM)

Importante

O tempo de execução da IA para tarefas de nó único está em Pré-visualização Pública. A API de treino distribuída para cargas de trabalho multi-GPU permanece em Beta.

Esta página fornece exemplos de cadernos para ajustar finamente grandes modelos de linguagem (LLMs) usando AI Runtime. Estes exemplos demonstram várias abordagens para o ajuste fino, incluindo métodos eficientes em termos de parâmetros, como a adaptação Low-Rank (LoRA) e o ajuste fino supervisionado completo.

Tutorial Descrição
Ajustar fino o modelo Qwen2-0.5B Ajuste eficiente do modelo Qwen2-0.5B usando aprendizagem por reforço (TRL) com Transformers, Kernels Liger para treino eficiente em memória e LoRA para ajuste fino eficiente em parâmetros específicos.
Aperfeiçoamento do Llama-3.2-3B com Unsloth Afina o Llama-3.2-3B usando a biblioteca Unsloth.
Ajuste fino supervisionado usando DeepSpeed e TRL Utilize a API em Python da Serverless de GPU para executar ajuste fino supervisionado (SFT) usando a biblioteca Transformer Reinforcement Learning (TRL) com otimização DeepSpeed ZeRO Stage 3.
Ajuste fino LORA usando Axolotl Use a API Python da GPU Serverless para afinar finamente um modelo Olmo3 7B usando a biblioteca Axolotl.
Ajuste fino distribuído Qwen2-0.5B Afinar o modelo Qwen2-0.5B usando LoRA e Kernels Liger para treino distribuído eficiente em termos de memória com redução de parâmetros.
Ajuste fino distribuído de Llama-3.2-3B com Unsloth Afina finamente o Llama-3.2-3B usando treino distribuído entre múltiplas GPUs com a biblioteca Unsloth para um treino otimizado em termos de parâmetros eficientes.
Ajuste fino do Llama 3.1 8B com LLM Foundry Aperfeiçoe o modelo Llama 3.1 8B usando o Mosaic LLM Foundry com estratégias de formação distribuída e avaliação de desempenho do modelo.
Ajuste fino GPT-OSS 120B com DDP e FSDP Aperfeiçoar o modelo GPT-OSS 120B da OpenAI usando ajuste fino supervisionado em GPUs H100 com as estratégias de treino distribuído DDP e FSDP.
Formação distribuída com PyTorch FSDP Treine modelos Transformer usando o Fully Sharded Data Parallel (FSDP) do PyTorch para fragmentar os parâmetros do modelo por várias GPUs.

Demonstração em vídeo

Este vídeo percorre em detalhe o caderno de exemplo Fine-tune Llama-3.2-3B with Unsloth (12 minutos).