Servir previsões em tempo real com pontos de extremidade do modelo de ML (versão prévia)

Importante

Esse recurso está na versão prévia.

Microsoft Fabric permite que você forneça projeções em tempo real de modelos de aprendizado de máquina com pontos de extremidade online seguros, escalonáveis e facilmente utilizáveis. Esses pontos de extremidade estão disponíveis como propriedades internas da maioria dos modelos Fabric e não exigem nenhuma configuração para iniciar implantações totalmente gerenciadas em tempo real.

Você pode ativar, configurar e consultar pontos de extremidade de modelo com uma API REST voltada para o público. Você também pode começar diretamente da interface do Fabric, usando uma experiência de baixo código para ativar endpoints do modelo e visualizar previsões instantaneamente.

Pré-requisitos

Os endpoints de modelos de machine learning são habilitados por padrão em seu tenant. Se o administrador quiser desabilitar esse recurso, ele pode desativar o interruptor do tenant para endpoints de modelo de ML no portal de administração do Fabric.

Limitações

No momento, os pontos de extremidade estão disponíveis para um conjunto limitado de tipos de modelos de aprendizado de máquina, incluindo Keras, LightGBM, Sklearn e XGBoost.
No momento, os pontos de extremidade não estão disponíveis para modelos com esquemas baseados em tensor ou sem esquemas.

Observação

A partir de janeiro de 2026, os endpoints de machine learning agora dão suporte para modelos treinados com AutoML. Essa limitação anterior foi removida.

Introdução aos endpoints de modelo

Os modelos de ML em Fabric vêm predefinidos com pontos de extremidade online que podem ser usados para atender a previsões em tempo real. Cada versão do modelo registrado tem uma URL de ponto de extremidade dedicada, que pode ser encontrada no título "Detalhes do ponto de extremidade" na interface Fabric. Essa URL termina com um subcaminho designando essa versão específica (por exemplo, /versions/1/score).

Os pontos de extremidade de modelo têm as seguintes propriedades:

Propriedade	Descrição	Default
Versão padrão	Essa propriedade (`Yes` ou `No`) indica se a versão é definida como o padrão do modelo para atender a previsões reais. Você pode personalizar a versão padrão nas configurações do modelo.	`No`
Status	Essa propriedade indica se o ponto de extremidade está pronto para atender às previsões. O status pode ser `Inactive`, `Activating`, `Active`, `Deactivating` ou `Failed`. Somente endpoints ativos podem fornecer previsões.	`Inactive`
Suspensão automática	Essa propriedade (`On` ou `Off`) indica se o ponto de extremidade, uma vez ativo, deve reduzir a utilização da capacidade para zero na ausência de tráfego. Se a suspensão automática estiver ativada, o endpoint entrará em um estado ocioso após cinco minutos sem solicitações de entrada. A primeira chamada para ativar um ponto de extremidade ocioso envolve um pequeno atraso.	`On`

Ativar pontos de extremidade de modelo

Você pode ativar endpoints de modelo diretamente da interface do Fabric. Navegue até a versão que você gostaria de fornecer previsões em tempo real e selecione "Ativar ponto de extremidade da versão" na faixa de opções.

Uma mensagem de aviso mostra que o Fabric está preparando seu ponto de extremidade para atender às previsões, e o status do ponto de extremidade muda para "Ativando". Nos bastidores, o Fabric inicializa a infraestrutura de contêiner subjacente para hospedar seu modelo. Em poucos minutos, o endpoint estará pronto para fornecer previsões.

Cada ponto de extremidade tem um status que indica se ele está pronto para atender a previsões em tempo real:

Status	Descrição
`Inactive`	O endpoint não está ativado para atender previsões em tempo real e não está consumindo a capacidade do Fabric.
`Activating`	O endpoint está sendo configurado para fornecer previsões em tempo real. Nos bastidores, Fabric configura a infraestrutura de contêiner subjacente para hospedar o modelo. Em poucos minutos, o endpoint está ativo.
`Active`	O ponto de extremidade está pronto para atender a predições em tempo real. Nos bastidores, Fabric gerencia a infraestrutura subjacente, aumentando o uso de recursos com base no tráfego de entrada. O tráfego mais alto resulta em maior uso de capacidade de Fabric.
`Deactivating`	O ponto de extremidade está sendo desativado, para que não atenda mais a previsões em tempo real ou consuma capacidade do Fabric. Nos bastidores, Fabric desmonta a infraestrutura de contêiner subjacente.

Observação

Os modelos de ML podem dar suporte a endpoints ativos para até cinco versões ao mesmo tempo. Para processar previsões de uma sexta versão, primeiro você deve desativar um endpoint ativo.

Gerenciar pontos de extremidade de modelo

Para obter uma visão geral dos pontos de extremidade ativos do modelo, selecione "Gerenciar pontos de extremidade" na faixa de opções na interface. Cada modelo tem um ponto de extremidade padrão personalizável, que atende a previsões de uma versão escolhida. Você pode atualizar a versão padrão usando o menu suspenso no painel de configurações.

Importante

Certifique-se de definir a propriedade padrão para uma versão ativa se você planeja usá-la. Se a propriedade padrão não estiver definida ou estiver definida como uma versão inativa, as chamadas para o ponto de extremidade padrão falharão.

Todas as versões com pontos de extremidade ativos são listadas nas configurações de ponto de extremidade do modelo. Você pode modificar a propriedade de suspensão automática de cada ponto de extremidade alternando o interruptor para "Ligado" ou "Desligado".

Dica

Pontos de extremidade ativos com a suspensão automática ativada entram em estado de inatividade após cinco minutos sem tráfego, e a primeira ação para reativá-los envolve um pequeno atraso. Talvez você queira desativar essa propriedade para endpoints em produção.

Consultar pontos de extremidade do modelo para previsões em tempo real

Os endpoints de modelo estão disponíveis em Fabric para testes imediatos com uma experiência de baixo código. Navegue até uma versão com um ponto de extremidade ativo e selecione "Visualizar previsões" na faixa de opções da interface. Você pode enviar solicitações de exemplo para o endpoint e obter previsões de exemplo em tempo real, usando campos de formulário que correspondam à assinatura de entrada do modelo.

Para preencher os campos de formulário com valores de exemplo aleatórios, selecione "Preenchimento automático". Você pode adicionar mais conjuntos de valores de formulário para testar o ponto de extremidade com várias entradas. Selecione "Obter previsões" para enviar sua solicitação de exemplo ao ponto de extremidade.

Se você preferir formatar solicitações de exemplo como cargas JSON, use o seletor suspenso para alterar a visualização.

Desativar pontos de extremidade de modelo

Você pode desativar endpoints de modelo diretamente da interface Fabric. Navegue até uma versão que você não precisa mais para fornecer previsões em tempo real e selecione "Desativar ponto de extremidade de versão" na barra de ferramentas na interface.

Uma mensagem de notificação mostra que o Fabric está desmontando sua implantação em uso, e o status do ponto de extremidade muda para "Desativando". O ponto de extremidade não é mais capaz de fornecer previsões em tempo real, a menos que você o reative.

Você pode desabilitar endpoints para várias versões ao mesmo tempo no painel de configurações do modelo. Selecione "Gerenciar pontos de extremidade" na faixa de opções na interface e escolha um ou mais pontos de extremidade ativos para desativar.

Taxa de consumo

Hospedar endpoints de modelos ativos consome Unidades de Capacidade do Fabric (CUs). Os pontos de extremidade são executados em nós de computação e podem aumentar automaticamente até três nós, dependendo do tráfego de entrada. A cobrança é calculada por nó enquanto o endpoint está ativo. A tabela a seguir mostra o consumo de CU para um endpoint de modelo de Machine Learning ativo.

Operação	Unidade de Medida da Operação	Taxa de consumo
ponto de extremidade do modelo	1 ponto de extremidade de modelo (versão) por segundo por nó	5 segundos de CU

A tabela a seguir mostra cenários de exemplo e suas taxas de consumo correspondentes e custos por hora.

Cenário	Descrição	Taxa de consumo	Custo por hora
Modelos com pontos de extremidade inativos	Esses modelos não têm pontos de extremidade de versão ativos e nenhuma utilização de recurso associada. Eles não envolvem nenhum custo adicional.	0 segundos de CU	0 Hora CU
Modelos com pontos de extremidade ativos, mas ociosos	Esses modelos têm um ou mais pontos de extremidade de versão ativos, mas, sem tráfego regular, todos foram dimensionados para zero, reduzindo os custos automaticamente.	5 segundos de CU	0,42 Horas CU
Modelos com 1 ponto de extremidade ativo e tráfego baixo constante	Esses modelos têm apenas 1 endpoint de versão ativa servindo previsões, mas sem tráfego suficiente para disparar uma expansão completa. Um nó pode atender a todo o tráfego. Outros terminais de versão podem estar inativos ou ociosos.	5 segundos de CU	5 horas de unidades de crédito
Modelos com 1 ponto de extremidade ativo e tráfego alto constante	Esses modelos têm apenas 1 ponto de extremidade de versão ativo servindo previsões, com tráfego suficiente para disparar uma expansão completa. Outros pontos de extremidade de versão podem estar inativos ou ociosos.	15 segundos de unidades de computação	15 Horas de Crédito Unidade
Modelos com tráfego constantemente alto e 5 endpoints ativos	Esses modelos têm cinco pontos de extremidade de versão ativos (o limite atual) servindo previsões, cada um com tráfego suficiente para disparar uma expansão completa.	75 segundos de unidade de computação	75 Horas de Créditos Universitários

O aplicativo Fabric Capacity Metrics exibe o uso total da capacidade para operações de endpoint do modelo sob o nome "Model Endpoint". Além disso, os usuários podem exibir um resumo de seus encargos para o uso do Endpoint do Modelo no item de faturamento "Uso da Capacidade do Endpoint do Modelo de ML".

A operação de endpoint do modelo é classificada como operações de fundo.

As taxas de consumo estão sujeitas a alterações a qualquer momento. Microsoft usa esforços razoáveis para fornecer aviso por email ou por meio de notificação no produto. As alterações devem entrar em vigor na data declarada nas Notas de Versão do Microsoft ou no blog Microsoft Fabric. Se qualquer alteração no ponto de extremidade do modelo na Taxa de Consumo do Fabric aumentar materialmente as Unidades de Capacidade (UC) necessárias para uso, os clientes poderão usar as opções de cancelamento disponíveis para a forma de pagamento escolhida.

Gerenciar e consultar pontos de extremidade programaticamente com a API REST do ponto de extremidade do modelo de ML.
Chame pontos de extremidade de modelo do Dataflow Gen2 para enriquecimento de dados em tempo real.
Gere previsões em lote com a função PREDICT nos notebooks Fabric.
Saiba mais sobre model training and experimentation no Fabric.
Perdemos um recurso de que você precisa? Sugira-o no fórum Fabric Ideas.

Comentários

Esta página foi útil?

Last updated on 2026-04-07