Partilhar via


Veicule previsões em tempo real com pontos de extremidade do modelo de ML (Visualização)

Importante

Este recurso está em pré-visualização.

O Microsoft Fabric permite-lhe fornecer previsões em tempo real a partir de modelos de ML com endpoints online seguros, escaláveis e fáceis de usar. Estes endpoints estão disponíveis como propriedades incorporadas na maioria dos modelos Fabric — e não requerem qualquer configuração para iniciar implementações totalmente geridas em tempo real.

Você pode ativar, configurar e consultar pontos de extremidade de modelo com uma API REST voltada para o público. Poderá também começar diretamente pela interface do Fabric, recorrendo a uma experiência low-code para ativar os endpoints dos modelos e visualizar previsões instantaneamente.

Captura de ecrã mostrando um modelo de ML em Fabric com uma propriedade de endpoint incorporada para servir previsões em tempo real.

Pré-requisitos

  • Os endpoints do modelo de aprendizagem automática estão ativados por padrão na sua instância. Se o seu administrador quiser desativar esta funcionalidade, pode desligar o switch de inquilino para endpoints de modelos ML no portal de administração Fabric.

Limitações

  • Os endpoints estão atualmente disponíveis para um conjunto limitado de modelos de ML, incluindo Keras, LightGBM, Sklearn e XGBoost.
  • Atualmente, os pontos de extremidade não estão disponíveis para modelos com esquemas baseados em tensores ou sem esquemas.

Observação

Em janeiro de 2026, os endpoints de machine learning suportam agora modelos treinados com AutoML. Esta limitação anterior foi removida.

Comece com os endpoints do modelo

Os modelos de ML no Fabric vêm pré-construídos com endpoints online que podem ser usados para servir previsões em tempo real. Cada versão registada do modelo tem uma URL dedicada ao endpoint, que pode ser encontrada sob o título "Detalhes do endpoint" na interface Fabric. Este URL termina com um subcaminho que designa essa versão específica (por exemplo, /versions/1/score).

Captura de ecrã mostrando as propriedades de um endpoint de modelo ML, que pode ser usado para fornecer previsões em tempo real.

Os pontos de extremidade do modelo têm as seguintes propriedades:

Property Descrição Predefinição
Versão padrão Esta propriedade (Yes ou No) indica se a versão está definida como padrão do modelo para servir previsões reais. Você pode personalizar a versão padrão nas configurações do modelo. No
Situação Esta propriedade indica se o ponto de extremidade está pronto para servir previsões. O status pode ser Inactive, Activating, Active, Deactivating, ou Failed. Apenas pontos de extremidade ativos podem fornecer previsões. Inactive
Suspensão automática Esta propriedade (On ou Off) indica se o endpoint, uma vez ativo, deve reduzir o uso da capacidade para zero na ausência de tráfego. Se a suspensão automática estiver ativada, o endpoint entrará em um estado inativo após cinco minutos sem solicitações de entrada. A primeira chamada para despertar um endpoint ocioso envolve um pequeno atraso. On

Ativar pontos de extremidade do modelo

Podes ativar os endpoints dos modelos diretamente a partir da interface do Fabric. Navegue até à versão que pretende usar para executar previsões em tempo real e selecione "Ativar endpoint de versão" na barra.

Captura de ecrã a mostrar como ativar um endpoint de modelo ML a partir da interface Fabric.

Uma mensagem de aviso mostra que o Fabric prepara o seu endpoint para servir previsões, e o estado do endpoint muda para "a ativar". Em segundo plano, o Fabric inicia a infraestrutura de contentores subjacente para hospedar o seu modelo. Em poucos minutos, seu endpoint estará pronto para atender previsões.

Captura de tela mostrando um ponto de extremidade do modelo de ML que agora está sendo ativado.

Cada endpoint tem um estado que indica se está pronto para servir previsões em tempo real:

Situação Descrição
Inactive O endpoint não está ativado para fornecer previsões em tempo real e não está a consumir capacidade do Fabric.
Activating O endpoint está a ser configurado para servir previsões em tempo real. Nos bastidores, o Fabric configura a infraestrutura de contentores subjacente para alojar o modelo. Em poucos minutos, o ponto de extremidade está ativo.
Active O endpoint está pronto para servir previsões em tempo real. Nos bastidores, a Fabric gere a infraestrutura subjacente, aumentando o uso de recursos com base no tráfego recebido. Maior tráfego resulta numa maior utilização da capacidade do Fabric.
Deactivating O endpoint está a ser desativado, deixando de servir previsões em tempo real nem consumir capacidade de Fabric. Nos bastidores, a Fabric desmonta a infraestrutura de contentores subjacente.

Observação

Os modelos de ML podem suportar endpoints ativos para até cinco versões ao mesmo tempo. Para fornecer previsões de uma sexta versão, deve primeiro desativar um endpoint ativo.

Gerenciar pontos de extremidade de modelo

Para obter uma visão geral dos pontos de extremidade ativos do seu modelo, selecione "Gerenciar pontos de extremidade" na faixa de opções na interface. Cada modelo tem um ponto de extremidade padrão personalizável, que serve previsões de uma versão que você escolher. Você pode atualizar a versão padrão usando o seletor suspenso no painel de configurações.

Captura de ecrã mostrando o URL do endpoint do modelo de machine learning padrão, que pode ser configurado para fornecer previsões de uma versão específica.

Importante

Certifique-se de definir a propriedade padrão para uma versão ativa se você planeja usá-la. Se a propriedade padrão não estiver definida ou estiver definida como uma versão inativa, as chamadas para o ponto de extremidade padrão falharão.

Todas as versões com endpoints ativos estão listadas nas definições de endpoint do modelo. Você pode modificar a propriedade de suspensão automática de cada ponto final alternando o switcher para "On" ou "Off".

Captura de ecrã mostrando como alterar a propriedade de suspensão automática nos pontos de extremidade do modelo de ML.

Sugestão

Os terminais ativos com suspensão automática ativada ficam inativos após cinco minutos sem tráfego, e a primeira chamada para acordá-los envolve uma pequena demora. Talvez você queira desativar essa propriedade para pontos de extremidade em produção.

Consulta de endpoints de modelos para previsões em tempo real

Os endpoints dos modelos estão disponíveis para testes instantâneos com uma experiência de código reduzido na Fabric. Navegue até uma versão com um ponto de extremidade ativo e selecione "Visualizar previsões" na barra de ferramentas na interface. Pode enviar pedidos de amostra para o endpoint — e obter previsões de amostra em tempo real — usando campos de formulário que correspondam à assinatura de entrada do modelo.

Captura de tela mostrando a experiência de visualização interna para obter previsões de amostra de um ponto de extremidade de modelo de ML ativo.

Para preencher os campos do formulário com valores de amostra aleatórios, selecione "Preenchimento automático". Você pode adicionar mais conjuntos de valores de formulário para testar o ponto de extremidade com várias entradas. Selecione "Obter previsões" para enviar ao endpoint sua solicitação de amostra.

Captura de tela mostrando o modo de exibição baseado em formulário para enviar solicitações de amostra para um ponto de extremidade de modelo de ML ativo.

Se preferir formatar solicitações de exemplo como cargas JSON, use o seletor suspenso para alterar a exibição.

Captura de tela mostrando a exibição baseada em JSON para enviar solicitações de amostra para um ponto de extremidade de modelo de ML ativo.

Desativar pontos de extremidade do modelo

Podes desativar os endpoints dos modelos diretamente a partir da interface do Fabric. Navegue até uma versão que você não precisa mais para fornecer previsões em tempo real e selecione "Desativar ponto de extremidade da versão" na faixa de opções na interface.

Captura de ecrã a mostrar como desativar um endpoint de modelo ML a partir da interface Fabric.

Uma mensagem de 'toast' mostra que o Fabric está a desmontar a sua implementação ativa, e o estado do endpoint muda para "Desativar". O endpoint já não consegue fornecer previsões em tempo real a menos que o reative.

Captura de tela mostrando um ponto de extremidade do modelo de ML que agora está sendo desativado.

Podes desativar endpoints para várias versões ao mesmo tempo a partir do painel de definições do modelo. Selecione "Gerenciar endpoints" na faixa de opções na interface e escolha um ou mais endpoints ativos para desativar.

Captura de ecrã a mostrar como desativar múltiplos endpoints de modelos de ML ao mesmo tempo a partir da interface Fabric.

Taxa de consumo

Hospedar pontos finais ativos do modelo consome Unidades de Capacidade de Fabric (CUs). Os endpoints são executados em nós de computação e podem escalar automaticamente até três nós com base no tráfego de entrada. O faturamento é calculado por cada nó enquanto um endpoint está ativo. A tabela abaixo mostra o consumo de CUs para um endpoint ativo de modelo de aprendizagem automática.

Funcionamento Unidade de Medida de Operação Taxa de consumo
ponto final do modelo 1 endpoint de modelo (versão) por segundo por nó 5 segundos CU

A tabela abaixo mostra cenários de exemplo e suas taxas de consumo e custos horários correspondentes.

Cenário Descrição Taxa de consumo Custo por hora
Modelos com endpoints inativos Esses modelos não têm pontos de extremidade de versão ativa e nenhuma utilização de recursos associada. Não implicam custos adicionais. 0 segundos CU 0 Hora CU
Modelos com endpoints ativos, mas ociosos Esses modelos têm um ou mais endpoints de versão ativos, mas, sem tráfego regular, todos foram dimensionados para zero, reduzindo os custos automaticamente. 5 segundos CU 0.42 Horas CU
Modelos com 1 Ponto Final Ativo e Tráfego Baixo Constante Esses modelos têm apenas 1 ponto de extremidade com uma versão ativa fornecendo previsões, mas sem tráfego suficiente para acionar uma ampliação completa. Um nó pode atender a todo o tráfego. Outros endpoints de versão podem estar inativos ou em repouso. 5 segundos CU 5 Horas CU
Modelos com 1 Ponto Final Ativo e Tráfego Alto Constante Esses modelos têm apenas 1 ponto de extremidade de versão ativa servindo previsões, com tráfego suficiente para acionar uma expansão completa. Outros pontos de extremidade de versão podem estar inativos ou ociosos. 15 segundos CU 15 Horas de Créditos Universitários
Modelos com 5 terminais ativos e tráfego elevado constante Esses modelos têm 5 pontos de extremidade de versão ativa (o limite atual) servindo previsões, cada um com tráfego suficiente para acionar uma expansão completa. 75 segundos CU 75 Horas de Créditos Uteis

A aplicação Fabric de Métricas de Capacidade mostra a utilização total de capacidade para operações no endpoint do modelo com o nome "Model Endpoint". Além disso, os usuários podem visualizar um resumo de suas cobranças pelo uso do Model Endpoint no item de faturamento "ML Model Endpoint Capacity Usage".

A operação de ponto de extremidade do modelo é classificada como operações em segundo plano.

As taxas de consumo estão sujeitas a alterações a qualquer momento. A Microsoft faz esforços razoáveis para fornecer aviso por email ou através de notificação dentro do produto. As alterações entrarão em vigor na data indicada nas Notas de Lançamento da Microsoft ou no Blog do Microsoft Fabric. Se qualquer alteração ao endpoint do modelo na Fabric Consumption Rate aumentar de forma significativa as Unidades de Capacidade (UC) necessárias para a utilização, os clientes podem optar pelas opções de cancelamento disponíveis para o método de pagamento selecionado.