Compartilhar via


Servir previsões em tempo real com pontos de extremidade do modelo de ML (versão prévia)

Importante

Esse recurso está na versão prévia.

Microsoft Fabric permite que você forneça projeções em tempo real de modelos de aprendizado de máquina com pontos de extremidade online seguros, escalonáveis e facilmente utilizáveis. Esses pontos de extremidade estão disponíveis como propriedades internas da maioria dos modelos Fabric e não exigem nenhuma configuração para iniciar implantações totalmente gerenciadas em tempo real.

Você pode ativar, configurar e consultar pontos de extremidade de modelo com uma API REST voltada para o público. Você também pode começar diretamente da interface do Fabric, usando uma experiência de baixo código para ativar endpoints do modelo e visualizar previsões instantaneamente.

Screenshot exibindo um modelo de ML em Fabric com uma propriedade de endpoint integrado para fornecer previsões em tempo real.

Pré-requisitos

Limitações

  • No momento, os pontos de extremidade estão disponíveis para um conjunto limitado de tipos de modelos de aprendizado de máquina, incluindo Keras, LightGBM, Sklearn e XGBoost.
  • No momento, os pontos de extremidade não estão disponíveis para modelos com esquemas baseados em tensor ou sem esquemas.

Observação

A partir de janeiro de 2026, os endpoints de machine learning agora dão suporte para modelos treinados com AutoML. Essa limitação anterior foi removida.

Introdução aos endpoints de modelo

Os modelos de ML em Fabric vêm predefinidos com pontos de extremidade online que podem ser usados para atender a previsões em tempo real. Cada versão do modelo registrado tem uma URL de ponto de extremidade dedicada, que pode ser encontrada no título "Detalhes do ponto de extremidade" na interface Fabric. Essa URL termina com um subcaminho designando essa versão específica (por exemplo, /versions/1/score).

Captura de tela mostrando as propriedades de um ponto de extremidade de modelo de ML, que pode ser usado para atender a previsões em tempo real.

Os pontos de extremidade de modelo têm as seguintes propriedades:

Propriedade Descrição Default
Versão padrão Essa propriedade (Yes ou No) indica se a versão é definida como o padrão do modelo para atender a previsões reais. Você pode personalizar a versão padrão nas configurações do modelo. No
Status Essa propriedade indica se o ponto de extremidade está pronto para atender às previsões. O status pode ser Inactive, Activating, Active, Deactivating ou Failed. Somente endpoints ativos podem fornecer previsões. Inactive
Suspensão automática Essa propriedade (On ou Off) indica se o ponto de extremidade, uma vez ativo, deve reduzir a utilização da capacidade para zero na ausência de tráfego. Se a suspensão automática estiver ativada, o endpoint entrará em um estado ocioso após cinco minutos sem solicitações de entrada. A primeira chamada para ativar um ponto de extremidade ocioso envolve um pequeno atraso. On

Ativar pontos de extremidade de modelo

Você pode ativar endpoints de modelo diretamente da interface do Fabric. Navegue até a versão que você gostaria de fornecer previsões em tempo real e selecione "Ativar ponto de extremidade da versão" na faixa de opções.

Captura de tela que mostra como ativar um ponto de extremidade do modelo de ML na interface do Fabric.

Uma mensagem de aviso mostra que o Fabric está preparando seu ponto de extremidade para atender às previsões, e o status do ponto de extremidade muda para "Ativando". Nos bastidores, o Fabric inicializa a infraestrutura de contêiner subjacente para hospedar seu modelo. Em poucos minutos, o endpoint estará pronto para fornecer previsões.

Captura de tela mostrando um ponto de extremidade do modelo de ML que agora está sendo ativado.

Cada ponto de extremidade tem um status que indica se ele está pronto para atender a previsões em tempo real:

Status Descrição
Inactive O endpoint não está ativado para atender previsões em tempo real e não está consumindo a capacidade do Fabric.
Activating O endpoint está sendo configurado para fornecer previsões em tempo real. Nos bastidores, Fabric configura a infraestrutura de contêiner subjacente para hospedar o modelo. Em poucos minutos, o endpoint está ativo.
Active O ponto de extremidade está pronto para atender a predições em tempo real. Nos bastidores, Fabric gerencia a infraestrutura subjacente, aumentando o uso de recursos com base no tráfego de entrada. O tráfego mais alto resulta em maior uso de capacidade de Fabric.
Deactivating O ponto de extremidade está sendo desativado, para que não atenda mais a previsões em tempo real ou consuma capacidade do Fabric. Nos bastidores, Fabric desmonta a infraestrutura de contêiner subjacente.

Observação

Os modelos de ML podem dar suporte a endpoints ativos para até cinco versões ao mesmo tempo. Para processar previsões de uma sexta versão, primeiro você deve desativar um endpoint ativo.

Gerenciar pontos de extremidade de modelo

Para obter uma visão geral dos pontos de extremidade ativos do modelo, selecione "Gerenciar pontos de extremidade" na faixa de opções na interface. Cada modelo tem um ponto de extremidade padrão personalizável, que atende a previsões de uma versão escolhida. Você pode atualizar a versão padrão usando o menu suspenso no painel de configurações.

Captura de tela mostrando a URL do endpoint do modelo de ML padrão, que você pode configurar para oferecer previsões a partir de uma versão específica.

Importante

Certifique-se de definir a propriedade padrão para uma versão ativa se você planeja usá-la. Se a propriedade padrão não estiver definida ou estiver definida como uma versão inativa, as chamadas para o ponto de extremidade padrão falharão.

Todas as versões com pontos de extremidade ativos são listadas nas configurações de ponto de extremidade do modelo. Você pode modificar a propriedade de suspensão automática de cada ponto de extremidade alternando o interruptor para "Ligado" ou "Desligado".

Captura de tela mostrando como alterar a propriedade de suspensão automática nos endpoints do modelo de ML.

Dica

Pontos de extremidade ativos com a suspensão automática ativada entram em estado de inatividade após cinco minutos sem tráfego, e a primeira ação para reativá-los envolve um pequeno atraso. Talvez você queira desativar essa propriedade para endpoints em produção.

Consultar pontos de extremidade do modelo para previsões em tempo real

Os endpoints de modelo estão disponíveis em Fabric para testes imediatos com uma experiência de baixo código. Navegue até uma versão com um ponto de extremidade ativo e selecione "Visualizar previsões" na faixa de opções da interface. Você pode enviar solicitações de exemplo para o endpoint e obter previsões de exemplo em tempo real, usando campos de formulário que correspondam à assinatura de entrada do modelo.

Captura de tela mostrando a experiência de prévia integrada para a obtenção de previsões de exemplo de um ponto de extremidade de modelo de ML ativo.

Para preencher os campos de formulário com valores de exemplo aleatórios, selecione "Preenchimento automático". Você pode adicionar mais conjuntos de valores de formulário para testar o ponto de extremidade com várias entradas. Selecione "Obter previsões" para enviar sua solicitação de exemplo ao ponto de extremidade.

Captura de tela mostrando a visualização baseada em formulário para envio de solicitações de exemplo para um endpoint de modelo de ML ativo.

Se você preferir formatar solicitações de exemplo como cargas JSON, use o seletor suspenso para alterar a visualização.

Captura de tela mostrando a exibição baseada em JSON para enviar solicitações de exemplo para um ponto de extremidade de modelo ML ativo.

Desativar pontos de extremidade de modelo

Você pode desativar endpoints de modelo diretamente da interface Fabric. Navegue até uma versão que você não precisa mais para fornecer previsões em tempo real e selecione "Desativar ponto de extremidade de versão" na barra de ferramentas na interface.

Screenshot mostrando como desativar um endpoint do modelo de ML da interface do Fabric.

Uma mensagem de notificação mostra que o Fabric está desmontando sua implantação em uso, e o status do ponto de extremidade muda para "Desativando". O ponto de extremidade não é mais capaz de fornecer previsões em tempo real, a menos que você o reative.

Captura de tela mostrando um endpoint do modelo de Aprendizado de Máquina que está sendo desativado.

Você pode desabilitar endpoints para várias versões ao mesmo tempo no painel de configurações do modelo. Selecione "Gerenciar pontos de extremidade" na faixa de opções na interface e escolha um ou mais pontos de extremidade ativos para desativar.

Screenshot mostrando como desativar múltiplos endpoints de modelo de ML ao mesmo tempo na interface Fabric.

Taxa de consumo

Hospedar endpoints de modelos ativos consome Unidades de Capacidade do Fabric (CUs). Os pontos de extremidade são executados em nós de computação e podem aumentar automaticamente até três nós, dependendo do tráfego de entrada. A cobrança é calculada por nó enquanto o endpoint está ativo. A tabela a seguir mostra o consumo de CU para um endpoint de modelo de Machine Learning ativo.

Operação Unidade de Medida da Operação Taxa de consumo
ponto de extremidade do modelo 1 ponto de extremidade de modelo (versão) por segundo por nó 5 segundos de CU

A tabela a seguir mostra cenários de exemplo e suas taxas de consumo correspondentes e custos por hora.

Cenário Descrição Taxa de consumo Custo por hora
Modelos com pontos de extremidade inativos Esses modelos não têm pontos de extremidade de versão ativos e nenhuma utilização de recurso associada. Eles não envolvem nenhum custo adicional. 0 segundos de CU 0 Hora CU
Modelos com pontos de extremidade ativos, mas ociosos Esses modelos têm um ou mais pontos de extremidade de versão ativos, mas, sem tráfego regular, todos foram dimensionados para zero, reduzindo os custos automaticamente. 5 segundos de CU 0,42 Horas CU
Modelos com 1 ponto de extremidade ativo e tráfego baixo constante Esses modelos têm apenas 1 endpoint de versão ativa servindo previsões, mas sem tráfego suficiente para disparar uma expansão completa. Um nó pode atender a todo o tráfego. Outros terminais de versão podem estar inativos ou ociosos. 5 segundos de CU 5 horas de unidades de crédito
Modelos com 1 ponto de extremidade ativo e tráfego alto constante Esses modelos têm apenas 1 ponto de extremidade de versão ativo servindo previsões, com tráfego suficiente para disparar uma expansão completa. Outros pontos de extremidade de versão podem estar inativos ou ociosos. 15 segundos de unidades de computação 15 Horas de Crédito Unidade
Modelos com tráfego constantemente alto e 5 endpoints ativos Esses modelos têm cinco pontos de extremidade de versão ativos (o limite atual) servindo previsões, cada um com tráfego suficiente para disparar uma expansão completa. 75 segundos de unidade de computação 75 Horas de Créditos Universitários

O aplicativo Fabric Capacity Metrics exibe o uso total da capacidade para operações de endpoint do modelo sob o nome "Model Endpoint". Além disso, os usuários podem exibir um resumo de seus encargos para o uso do Endpoint do Modelo no item de faturamento "Uso da Capacidade do Endpoint do Modelo de ML".

A operação de endpoint do modelo é classificada como operações de fundo.

As taxas de consumo estão sujeitas a alterações a qualquer momento. Microsoft usa esforços razoáveis para fornecer aviso por email ou por meio de notificação no produto. As alterações devem entrar em vigor na data declarada nas Notas de Versão do Microsoft ou no blog Microsoft Fabric. Se qualquer alteração no ponto de extremidade do modelo na Taxa de Consumo do Fabric aumentar materialmente as Unidades de Capacidade (UC) necessárias para uso, os clientes poderão usar as opções de cancelamento disponíveis para a forma de pagamento escolhida.