Pontos de extremidade em lotes

O Azure Machine Learning permite implementar pontos de extremidade e implantações em lotes para executar inferências assíncronas e de longa execução com pipelines e modelos de machine learning. Ao treinar um modelo ou pipeline de machine learning, você precisa implantá-lo para que outras pessoas possam usá-lo com novos dados de entrada para gerar previsões. Esse processo de geração de previsões com o modelo ou pipeline é chamado de inferência.

Os pontos de extremidade em lotes recebem ponteiros para dados e executam trabalhos de modo assíncrono para processar os dados em paralelo nos clusters de computação. Os pontos de extremidade em lotes armazenam as saídas em um armazenamento de dados para análise posterior. Use pontos de extremidade em lote quando:

Você tem modelos ou pipelines caros que exigem um tempo mais longo para serem executados.
Você deseja implementar pipelines de machine learning e reutilizar componentes.
Você precisa executar inferência em grandes quantidades de dados, distribuídas em vários arquivos.
Você não tem requisitos de baixa latência.
As entradas do modelo são armazenadas em uma conta de armazenamento ou em um ativo de dados Azure Machine Learning.
Você pode aproveitar a paralelização.

Implantações em lote

Uma implantação é um conjunto de recursos e processamento necessários para implementar a funcionalidade fornecida pelo ponto final. Um ponto de extremidade pode hospedar várias implantações, cada uma com sua própria configuração, desassociando a interface do ponto de extremidade dos detalhes da implementação da implantação. Quando um endpoint em lote é invocado, ele roteia automaticamente o cliente para sua implantação padrão. Essa implantação padrão pode ser configurada e alterada a qualquer momento.

Dois tipos de implantações são possíveis nos pontos de extremidade do lote do Azure Machine Learning:

Implantação de modelo
Implantação de componentes de pipeline

Implementação de modelo

A implantação de modelo permite a operacionalização da inferência de modelo em escala, permitindo que você processe grandes quantidades de dados de forma assíncrona e de baixa latência. Azure Machine Learning instrumentaliza a escalabilidade automaticamente ao fornecer paralelização dos processos de inferenciamento através de vários nós em um cluster de computação.

Use Model deployment quando:

Você tem modelos caros que exigem um tempo maior para executar a inferência.
Você precisa executar inferência em grandes quantidades de dados, distribuídas em vários arquivos.
Você não tem requisitos de baixa latência.
Você pode aproveitar a paralelização.

O principal benefício das implantações de modelo é que você pode usar os mesmos ativos que são implantados para inferência em tempo real para pontos de extremidade online, mas agora, você pode executá-los em escala em lote. Se o modelo exigir pré-processamento simples ou pós-processamento, você poderá criar um script de pontuação que execute as transformações de dados necessárias.

Para criar uma implantação de modelo em um ponto de extremidade em lote, especifique os seguintes elementos:

Modelo
Cluster de computação
Script de pontuação (opcional para modelos do MLflow)
Ambiente (opcional para modelos do MLflow)

Crie sua primeira implantação de modelo

Implantação de componente de pipeline

A implantação de componentes de pipeline habilita a operacionalização de gráficos de processamento inteiros (ou pipelines) para realizar inferência em lote de maneira assíncrona e de baixa latência.

Use a implantação de componentes de Pipeline quando:

Você precisa operacionalizar grafos de computação completos que podem ser decompostos em várias etapas.
Você precisa reutilizar componentes de pipelines de treinamento em seu pipeline de inferência.
Você não tem requisitos de baixa latência.

O principal benefício das implantações de componente de pipeline é a reutilização de componentes que já existem em sua plataforma e a capacidade de operacionalizar rotinas de inferência complexas.

Para criar uma implantação de componente de pipeline em um ponto de extremidade em lote, especifique os seguintes elementos:

Componente de pipeline
Configuração do cluster de computação

Crie sua primeira implantação de componente de pipeline

Os pontos de extremidade em lote também permitem que você Crie implantações do componente do Pipeline de um trabalho de pipeline existente. Ao fazer isso, o Azure Machine Learning cria automaticamente um componente de pipeline fora do trabalho. Isso simplifica o uso desses tipos de implantações. No entanto, é uma prática recomendada sempre criar componentes de pipeline explicitamente para simplificar sua prática de MLOps.

Gerenciamento de custos

A invocação de um ponto de extremidade em lotes dispara um trabalho de inferência em lotes assíncrono. Azure Machine Learning provisiona automaticamente os recursos de computação quando o trabalho é iniciado e os desaloca automaticamente à medida que o trabalho é concluído. Dessa forma, você só paga pela computação quando a usa.

Dica

Ao implantar modelos, você pode substituir as configurações de recurso de computação (como contagem de instâncias) e as configurações avançadas (como o tamanho do mini lote, o limite de erro e assim por diante) para cada trabalho de inferência em lote individual. Aproveitando essas configurações específicas, você pode acelerar a execução e reduzir o custo.

Endpoints em lote também podem ser executados em VMs de baixa prioridade. Os pontos de extremidade em lotes podem se recuperar automaticamente das VMs desalocadas e retomar o trabalho de onde foi deixado ao implantar modelos para inferência. Para obter mais informações sobre como usar VMs de baixa prioridade para reduzir o custo de cargas de trabalho de inferência em lotes, consulte Usar VMs de baixa prioridade em batch endpoints.

Por fim, o Azure Machine Learning não cobra pelos pontos de extremidade em lote ou pelas implantações em lote propriamente ditas, portanto, você pode organizar seus pontos de extremidade e implantações da maneira que melhor se adequar ao seu cenário. Os pontos de extremidade e a implantação podem utilizar clusters independentes ou compartilhados, para que você possa obter um controle refinado sobre qual computação os trabalhos consomem. Use scale-to-zero em clusters para garantir que nenhum recurso seja consumido quando estiverem ociosos.

Simplificar a prática de MLOps

Os endpoints de lote podem lidar com várias implantações no mesmo endpoint, permitindo que você altere a implementação do endpoint sem alterar a URL utilizada por seus consumidores para invocá-lo.

Você pode adicionar, remover e atualizar implantações sem afetar o endpoint em si.

Diagrama que descreve como várias implantações podem ser usadas no mesmo endpoint.

Fontes de dados flexíveis e armazenamento

Os endpoints de lote leem e gravam dados diretamente do armazenamento. Você pode especificar Azure Machine Learning armazenamentos de dados, Azure Machine Learning ativos de dados ou contas de armazenamento como entradas. Para obter mais informações sobre as opções de entrada suportadas e como especificá-las, consulte Criar trabalhos e dados de entrada para endpoints em lote.

Segurança

Os pontos de extremidade em lotes fornecem todos os recursos necessários para operar cargas de trabalho de nível de produção em uma configuração corporativa. Eles dão suporte a rede privada em workspaces protegidos e Autenticação do Microsoft Entra, usando uma entidade de usuário (como uma conta de usuário) ou uma entidade de serviço (como uma identidade gerenciada ou não gerenciada). Trabalhos gerados por um endpoint de lote são executados sob a identidade do invocador, o que oferece flexibilidade para implementar qualquer cenário. Para obter mais informações sobre autorização ao usar pontos de extremidade em lotes, consulte Como autenticar em pontos de extremidade em lotes.

Configurar o isolamento de rede em pontos de extremidade de lote

Comentários

Esta página foi útil?

Last updated on 2026-05-04