Compartilhar via


Runtime de IA

Importante

O AI Runtime para tarefas de nó único está na Visualização Pública. A API de treinamento distribuído para cargas de trabalho de várias GPUs permanece em Beta.

Visão geral do AI Runtime

O AI Runtime é uma oferta de computação no Databricks destinada a cargas de trabalho de aprendizado profundo e traz suporte de GPU para o Databricks Serverless. Você pode usar o AI Runtime para treinar e ajustar modelos personalizados usando suas estruturas favoritas e obter eficiência, desempenho e qualidade de última geração. Para obter uma visão geral de como a computação sem servidor se encaixa na arquitetura do Databricks, consulte a arquitetura do workspace sem servidor.

Características principais

  • Infraestrutura de GPU totalmente gerenciada – acesso flexível e sem servidor a GPUs e sem configuração de cluster, seleção de driver ou políticas de dimensionamento automático a serem gerenciadas.
  • Um runtime dedicado ao aprendizado profundo – escolha um ambiente base padrão mínimo para obter flexibilidade máxima sobre dependências ou um ambiente de IA completo pré-carregado com estruturas ML populares.
  • Integrados nativamente em notebooks, trabalhos, Catálogo do Unity e MLflow para desenvolvimento contínuo, acesso a dados e acompanhamento de experimentos.

Opções de hardware

Todos os aceleradores de runtime de IA provisionam um único nó. O número de GPUs nesse nó depende do tipo de acelerador:

Acelerador GPUs por nó Mais adequado para Treinamento distribuído
A10 1 Tarefas de ML pequenas a médias e tarefas de aprendizado profundo, como o ajuste fino de modelos clássicos de ML ou de menores modelos de linguagem. Sem suporte (GPU única)
8xH100 8 Cargas de trabalho de IA em larga escala, incluindo treinamento ou ajuste fino de modelos massivos ou execução de tarefas avançadas de aprendizado profundo Com suporte – use o @distributed decorador com gpus=8

O Databricks recomenda o AI Runtime para qualquer caso de uso de treinamento de modelo personalizado que envolva aprendizado profundo, cargas de trabalho clássicas em larga escala ou GPUs.

Por exemplo:

  • Refinamento de LLM (LoRA, QLoRA, refinamento completo)
  • Pesquisa visual computacional (detecção de objetos, classificação de imagem)
  • Sistemas de recomendação baseados em aprendizado profundo
  • Aprendizado de reforço
  • Previsão de série temporal baseada em aprendizado profundo

Requisitos

  • Um workspace em uma das seguintes regiões com suporte Azure:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Limitações

  • O AI Runtime só dá suporte a aceleradores A10 e H100.
  • A execução de AI Runtime não é suportada para workspaces de perfil de segurança de conformidade (como HIPAA ou PCI). Não há suporte para o processamento de dados regulamentados.
  • Não há suporte para a adição de dependências usando o painel Ambientes para trabalhos agendados do AI Runtime. Em vez disso, instale dependências usando %pip install programaticamente em seu notebook.
  • Para trabalhos agendados no AI Runtime, não há suporte para o comportamento de recuperação automática para versões de pacote incompatíveis associadas ao seu notebook.
  • O tempo de execução máximo para uma carga de trabalho é de sete dias. Para trabalhos de treinamento de modelo que excedem esse limite, implemente a criação de pontos de verificação e reinicie o trabalho quando o tempo máximo de execução for atingido.
  • O AI Runtime fornece acesso sob demanda aos recursos de GPU. Embora isso leve a um acesso fácil e flexível a GPUs, pode haver períodos em que a capacidade está restrita ou indisponível em sua região.
  • O AI Runtime aproveita GPUs entre regiões em determinados casos durante momentos de alta demanda. Pode haver custos de saída associados a esse uso.

Conectar-se ao AI Runtime

Você pode se conectar ao AI Runtime interativamente a partir de notebooks, agendar notebooks como trabalhos recorrentes ou criar trabalhos programaticamente usando a API de Trabalhos e os Pacotes de Ativos do Databricks. Para obter instruções passo a passo, consulte Conectar-se ao AI Runtime.

Configurar o ambiente

O AI Runtime oferece dois ambientes de Python gerenciados: um ambiente base padrão mínimo e um ambiente de IA do Databricks completo pré-carregado com estruturas ML populares, como PyTorch e Transformers. Para obter detalhes sobre como escolher um ambiente, comportamento de cache, importação de módulos personalizados e limitações conhecidas, consulte Configurar seu ambiente.

Carregar dados

Entender como o acesso a dados funciona no AI Runtime é essencial para uma experiência tranquila. Para obter detalhes, consulte Carregar dados no AI Runtime.

Treinamento distribuído

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar prévias do Azure Databricks.

O AI Runtime dá suporte ao treinamento distribuído em várias GPUs no único nó ao qual seu notebook está conectado. Usando o decorador @distributed da API serverless_gpu Python (Beta), você pode iniciar cargas de trabalho de várias GPUs com PyTorch DDP, FSDP ou DeepSpeed com configuração mínima. Para obter detalhes, consulte a carga de trabalho de várias GPUs.

Acompanhamento e observabilidade de experimentos

Para a integração com o MLflow, visualização de logs e gerenciamento de checkpoints de modelo, consulte Acompanhamento de experimentos e observabilidade.

Código do Genie para aprendizado profundo

O Genie Code dá suporte a cargas de trabalho de aprendizado profundo no AI Runtime. Ele pode ajudar na geração de código de treinamento, na resolução de erros de instalação da biblioteca, na sugestão de otimizações e na depuração de problemas comuns. Consulte Usar o Genie Code para ciência de dados.

Guides

Para migrar de cargas de trabalho clássicas, notebooks de exemplo e solução de problemas, consulte guias de usuário para o AI Runtime.