Implantar um fluxo para inferência em tempo real (clássico)

Aplica-se somente a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal do Foundry. Saiba mais sobre o novo portal.

Nota

Links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação da Foundry (clássica) que você está exibindo agora.

Aviso

O desenvolvimento de funcionalidades do Prompt Flow terminou em 20 de abril de 2026. O recurso será totalmente desativado em 20 de abril de 2027. Na data de desativação, o Prompt Flow entra no modo somente leitura. Seus fluxos existentes continuarão a operar até essa data.

Ação recomendada: Migre suas cargas de trabalho de Fluxo de Prompt para Microsoft Agent Framework antes de 20 de abril de 2027.

Depois de criar um fluxo de prompts e testá-lo, você pode implantá-lo como um endpoint online. As implantações são hospedadas em um endpoint. Eles podem receber dados de clientes e enviar respostas em tempo real.

Você pode invocar o endpoint para realizar inferência em tempo real em um chat, um copilot ou outro aplicativo de IA generativa. O prompt flow dá suporte à implantação do ponto de extremidade de um fluxo ou de uma execução de teste em massa.

Neste artigo, você aprenderá como implantar um fluxo como um ponto de extremidade online gerenciado para inferência em tempo real.

  • Teste seu fluxo e prepare-o para a implantação.
  • Crie uma implementação online.
  • Conceda permissões ao endpoint.
  • Teste o ponto de extremidade.
  • Consuma o ponto de extremidade.

Pré-requisitos

Importante

Este artigo fornece suporte herdado para projetos baseados em hub. Ele não funcionará para projetos do Foundry. Veja como saber qual tipo de projeto tenho?

Observação de compatibilidade do SSDK: exemplos de código exigem uma versão específica do SDK do Microsoft Foundry. Se você encontrar problemas de compatibilidade, considere a migração de um projeto baseado em hub para um projeto do Foundry.

Para implantar um prompt flow como um ponto de extremidade online, você precisa:

  • Uma assinatura Azure. Se você não tiver uma assinatura do Azure, crie uma conta gratuita.
  • Um projeto do Microsoft Foundry.
  • Um provedor de recursos Microsoft.PolicyInsights registrado na sua assinatura. Para obter mais informações, consulte Registrar um provedor de recursos.

Criar uma implantação online

Depois de criar um fluxo e testá-lo, crie já seu endpoint online para inferência em tempo real.

Para implantar um prompt flow como um ponto de extremidade online no portal do Foundry:

  1. Tenha um fluxo de prompt pronto para implantação. Se você não tiver um, consulte Desenvolver um fluxo de prompt.

  2. Opcional: selecione Chat para testar se o fluxo está funcionando corretamente. Recomendamos que você teste seu fluxo antes da implantação.

  3. Selecione Implantar no editor de fluxo.

    Captura de tela de um editor de fluxo de prompt que mostra o botão Implantar.

  4. Na página Configurações Básicas , forneça as informações necessárias.

    Captura de tela que mostra a página Configurações básicas no assistente de implantação.

  5. Selecione Examinar + Criar. Ou selecione Avançar para prosseguir para as páginas de configurações avançadas não necessárias para este artigo.

  6. Selecione Criar para implantar o prompt flow.

  7. Para exibir o status da implantação, selecione Modelos + endpoints no menu à esquerda. Depois que a implantação for criada com êxito, selecione a implantação para ver mais informações.

    Captura de tela que mostra o estado de implantação em andamento.

  8. Selecione a guia Consumir para ver exemplos de código que você pode usar para consumir o modelo implantado em seu aplicativo.

    Nessa página, você também pode ver o URL do ponto de extremidade que você pode usar para consumir o ponto de extremidade.

    Captura de tela que mostra a página de detalhes da implantação.

  9. Você pode usar o ponto de extremidade REST diretamente ou começar a usar um dos exemplos mostrados aqui.

    Captura de tela que mostra o ponto de extremidade de implantação e os exemplos de código.

Para obter informações sobre como implantar um modelo base, consulte Implantar modelos com o Foundry.

Ajustes e configurações

Arquivo de texto de requisitos

Opcionalmente, você pode especificar os pacotes extras de que precisa em requirements.txt. Você pode encontrar requirements.txt na pasta raiz da pasta de fluxo. Quando você implanta um prompt flow em um ponto de extremidade online gerenciado na interface do usuário, por padrão, a implantação usa o ambiente que foi criado com base na imagem base especificada no flow.dag.yaml e as dependências especificadas no requirements.txt.

A imagem base especificada em flow.dag.yaml é criada com base na imagem base do fluxo de prompt mcr.microsoft.com/azureml/promptflow/promptflow-runtime-stable:<newest_version>. Para ver a versão mais recente, confira esta lista. Se você não especificar a imagem base em flow.dag.yaml, a implantação usará a imagem base padrão mcr.microsoft.com/azureml/promptflow/promptflow-runtime-stable:latest.

Captura de tela que mostra a especificação da imagem base no arquivo yaml bruto do fluxo.

Configurações básicas

Nesta etapa, você definirá as configurações básicas ao selecionar Implantar no editor de fluxo.

Propriedade Descrição
Ponto de acesso Selecione se deseja implantar um novo ponto de extremidade ou atualizar um ponto de extremidade existente.
Se você selecionar Novo, precisará especificar o nome do ponto de extremidade.
Nome da implantação – No mesmo ponto de extremidade, o nome da implantação deve ser exclusivo.
- Se você selecionar um endpoint existente e inserir um nome de implantação existente, essa implantação será substituída pelas novas configurações.
Máquina virtual O tamanho da máquina virtual a ser usado para a implantação.
Contagem de instâncias O número de instâncias a serem usadas para a implantação. Especifique o valor para a carga de trabalho esperada. Para alta disponibilidade, recomendamos que você defina o valor como pelo menos 3. Reservamos mais 20% para executar atualizações.
Coleta de dados de inferência Se você habilitar essa configuração, as entradas e saídas de fluxo serão coletados automaticamente em um ativo de dados Azure Machine Learning. Você pode usá-los para monitoramento posterior.

Depois de concluir as configurações básicas, selecione Examinar + Criar para concluir a criação. Você também pode selecionar Avançar para definir configurações avançadas.

Configurações avançadas: Ponto de extremidade

Você pode especificar as seguintes configurações para o ponto de extremidade.

Captura de tela que mostra as configurações avançadas do ponto de extremidade.

No fluxo de trabalho de configurações avançadas , você também pode especificar marcas de implantação e selecionar um ambiente personalizado.

Captura de tela que mostra as configurações avançadas de implantação.

Tipo de autenticação

Esta configuração identifica o método de autenticação do endpoint. A autenticação baseada em chave fornece uma chave primária e secundária que não expira. Azure Machine Learning autenticação baseada em token fornece um token que é atualizado periodicamente.

Tipo de identidade

O ponto de extremidade precisa acessar recursos do Azure para inferência, como Registro de Contêiner do Azure ou suas conexões de hub do Foundry. É possível permitir que a permissão do ponto de extremidade acesse os recursos do Azure dando permissão à sua identidade gerenciada.

A identidade atribuída pelo sistema é criada após o estabelecimento do endpoint. O usuário cria a identidade atribuída pelo usuário. Para obter mais informações, consulte Identidades Gerenciadas para recursos do Azure.

Sistema atribuído

A opção Impor acesso a segredos de conexão (versão prévia) está habilitada por padrão. Se o seu fluxo usar conexões, o endpoint precisará acessar essas conexões para realizar inferência.

Se você tiver permissão de leitor de segredos de conexão, o ponto de extremidade receberá acesso à função Leitor de Segredos de Conexão do Workspace do Azure Machine Learning para acessar conexões. Se você desabilitar essa opção, precisará conceder essa função à identidade atribuída pelo sistema manualmente ou pedir ajuda ao administrador. Para mais informações, consulte Conceder permissão à identidade do endpoint.

Usuário atribuído

Ao criar a implantação, o Azure tenta transferir a imagem do contêiner do usuário do registro de contêiner do hub do Foundry e monta o modelo do usuário e os artefatos de código no contêiner do usuário a partir da conta de armazenamento do hub.

Se você criar o ponto de extremidade associado com a opção Identidade Atribuída pelo Usuário, conceda as funções a seguir à identidade atribuída pelo usuário antes de criar a implantação. Caso contrário, a implantação falhará.

Scope Papel Por que é necessário
Projeto de fundimento Função Leitor de Segredos de Conexão do Workspace do Azure Machine Learning ou uma função personalizada com Microsoft.MachineLearningServices/workspaces/connections/listsecrets/action Obtém conexões de projeto.
Registro de contêineres de projetos da Foundry ACR Pull Baixa imagens de contêiner.
Armazenamento padrão do projeto de fundição Leitor de Dados do Blob de Armazenamento Carrega um modelo do armazenamento.
Projeto de fundimento Azure Machine Learning Metrics Writer (versão prévia) Depois de implantar o ponto de extremidade, se você quiser monitorar as métricas relacionadas ao ponto de extremidade, como utilização de CPU/GPU/Disco/Memória, conceda essa permissão à identidade.

Opcional.

Para obter mais informações sobre como conceder permissões à identidade do ponto de extremidade, consulte Conceder permissões ao ponto de extremidade.

Importante

Se o fluxo usar conexões de autenticação com base em Microsoft Entra ID, você sempre precisará conceder as funções apropriadas à identidade gerenciada para os recursos correspondentes para que ele possa fazer chamadas de API para esse recurso. Essa configuração é necessária se você usa a identidade atribuída pelo sistema ou a identidade atribuída pelo usuário.

Por exemplo, se a conexão do OpenAI do Azure usar a autenticação baseada no Microsoft Entra ID, você precisará conceder à sua identidade gerenciada do ponto de extremidade a função de Colaborador do OpenAI dos Serviços Cognitivos OpenAI ou Usuário do OpenAI dos Serviços Cognitivos dos recursos do OpenAI do Azure correspondentes.

Configurações avançadas: saídas e conexões

Nesta etapa, você pode exibir todas as saídas de fluxo e especificar quais saídas incluir na resposta do ponto de extremidade que você implantar. Por padrão, todas as saídas de fluxo são selecionadas.

Você também pode especificar as conexões que o ponto de extremidade usa quando ele executa inferência. Por padrão, o ponto de extremidade herda as conexões do fluxo.

Depois de configurar e examinar todas as etapas anteriores, selecione Examinar + Criar para concluir a criação.

O processo de criação do ponto de extremidade deve levar mais de 15 minutos. Os estágios incluem criar um endpoint, registrar um modelo e criar uma implantação.

O progresso da criação da implantação envia uma notificação que começa com a Implantação do prompt flow.

Habilitar o rastreamento ativando o diagnóstico do Application Insights (versão prévia)

Se você ativar esse recurso, os dados de rastreamento e as métricas do sistema durante o tempo de inferência serão coletados no Application Insights vinculado ao workspace. Essas métricas incluem contagem de tokens, latência de fluxo e solicitação de fluxo. Para obter mais informações, consulte Habilitar rastreamento e coletar feedback para uma implementação de fluxo.

Conceder permissões ao endpoint

Importante

Somente o proprietário dos recursos Azure pode conceder permissões adicionando uma atribuição de função. Talvez seja necessário entrar em contato com o proprietário da assinatura Azure. Essa pessoa pode ser sua administradora de TI.

Recomendamos que você conceda funções à identidade atribuída pelo usuário assim que a criação do ponto de extremidade for concluída. Pode levar mais de 15 minutos para que a permissão concedida entre em vigor.

Para conceder as permissões necessárias no portal do Azure, siga estas etapas:

  1. Vá para a página de visão geral do projeto do Foundry no Azure portal.

  2. Selecione Controle de acesso (IAM) e, em seguida, selecione Adicionar atribuição de função.

    Captura de tela que mostra o Controle de acesso com a opção Adicionar atribuição de função realçada.

  3. Selecione Leitor de Segredos de Conexão do Workspace do Azure Machine Learning e selecione Próximo.

    A função Leitor de Segredos do Workspace do Azure Machine Learning é uma função interna que tem permissão para obter conexões de hub.

    Se você quiser usar uma função personalizada, verifique se a função personalizada tem a permissão de Microsoft.MachineLearningServices/workspaces/connections/listsecrets/action. Saiba mais sobre como criar funções personalizadas.

  4. Selecione a identidade gerenciada e selecione os membros:

    • Identidade atribuída pelo sistema: em identidade gerenciada atribuída pelo sistema, selecione o ponto de extremidade online do Machine Learning e pesquise pelo nome do ponto de extremidade.
    • Identidade atribuída pelo usuário: selecione a identidade gerenciada atribuída pelo usuário e pesquise pelo nome de identidade.
  5. Quanto à identidade atribuída pelo usuário, conceda permissões ao registro de contêiner de hub e à conta de armazenamento. Você pode encontrar o registro de contêiner e a conta de armazenamento na página de visão geral do hub no portal do Azure.

    Vá para a página de visão geral do registro de contêineres do hub e selecione Controle de acesso>Adicionar atribuição de função. Atribua ACR Pull à identidade do endpoint.

    Vá para a página de visão geral do armazenamento padrão do hub e selecione controle de acesso>Adicionar atribuição de função. Atribua o Leitor de Dados de Blob de Armazenamento à identidade do ponto de extremidade.

  6. Opcional: para a identidade atribuída pelo usuário, se você quiser monitorar as métricas relacionadas ao ponto de extremidade, como utilização de CPU/GPU/Disco/Memória, será necessário conceder a função de Gravador de métricas do espaço de trabalho do hub à identidade.

Verificar o status do ponto de extremidade

Após a conclusão da implantação, você recebe notificações. Depois que o endpoint e a implantação forem criados com êxito, clique em Exibir detalhes na notificação para acessar a página de detalhes da implantação.

Você também pode ir diretamente para a página Modelo + endpoints no painel esquerdo e selecionar a implantação para verificar o status.

Testar o ponto de extremidade

Na página de detalhes da implantação, selecione a guia Teste .

Para endpoints implantados a partir de um fluxo padrão, você pode inserir valores no editor de formulários ou no editor JSON para testar o endpoint.

Testar o ponto de extremidade implantado de um fluxo de chat

Para pontos de extremidade implantados de um fluxo de chat, você pode testá-lo em uma janela de chat imersiva.

A chat_input mensagem foi definida durante o desenvolvimento do fluxo de chat. Você pode colocar a chat_input mensagem na caixa de entrada. Se o fluxo tiver várias entradas, especifique os valores para outras entradas além da chat_input mensagem no painel Entradas no lado direito.

Consumir o ponto de extremidade

Na página de detalhes da implantação, selecione a guia Consumir. Você pode encontrar o ponto de extremidade REST e a chave/token para consumir seu ponto de extremidade. O código de exemplo também está disponível para você consumir o endpoint em diferentes linguagens de programação.

Captura de tela que mostra o código de exemplo de consumo de pontos de extremidade.

Você precisa inserir valores para RequestBody ou data .api_key Por exemplo, se o fluxo tiver duas entradas location e urlespecificar dados como o exemplo a seguir:

 {
"location": "LA",
"url": "<the_url_to_be_classified>"
}

Limpar recursos

Se você não usar o ponto de extremidade depois de concluir este tutorial, exclua o ponto de extremidade. A exclusão completa pode levar 20 minutos.