Implementar um fluxo para inferência em tempo real (clássico)

Aplica-se apenas a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal da Foundry. Saiba mais sobre o novo portal.

Nota

Os links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação do Foundry (clássico) que está a ver agora.

Aviso

O desenvolvimento da funcionalidade Prompt Flow terminou a 20 de abril de 2026. A rubrica será totalmente retirada a 20 de abril de 2027. Na data de reforma, o Prompt Flow entra em modo apenas de leitura. Os seus fluxos existentes continuarão a funcionar até essa data.

Ação recomendada: Migre as suas cargas de trabalho Prompt Flow para Microsoft Agent Framework antes de 20 de abril de 2027.

Depois de construir um fluxo de prompts e testá-lo, pode implementá-lo como endpoint online. As implementações são alojadas num endpoint. Podem receber dados dos clientes e enviar respostas em tempo real.

Pode invocar o endpoint para inferência em tempo real para chat, um copiloto ou outra aplicação de inteligência artificial generativa. Os fluxos de prompt suportam a implementação do endpoint a partir de um fluxo ou de um teste em massa.

Neste artigo, aprende como implementar um fluxo como um endpoint online gerido para inferência em tempo real.

  • Testa o teu fluxo e prepara-o para implementação.
  • Crie uma implementação online.
  • Conceda permissões ao endpoint.
  • Teste o endpoint.
  • Consumir o endpoint.

Pré-requisitos

Importante

Este artigo fornece suporte legado para projetos baseados em hubs. Não funciona para projetos da Foundry. Veja : Como sei que tipo de projeto tenho?

Nota de compatibilidade SDK: Exemplos de código requerem uma versão específica do Microsoft Foundry SDK. Se encontrar problemas de compatibilidade, considere migrar de um projeto baseado em hub para um projeto Foundry.

Para implementar um fluxo de prompts como endpoint online, precisa de:

  • Uma subscrição do Azure. Se não tiver uma subscrição Azure, crie uma conta free.
  • Um projeto da Microsoft Foundry.
  • Um fornecedor de recursos Microsoft.PolicyInsights registado na sua subscrição. Para mais informações, consulte Registar um fornecedor de recursos.

Criar uma implementação online

Depois de construir um fluxo e testá-lo, crie o seu endpoint online para inferência em tempo real.

Para implementar um fluxo de solicitações como endpoint online no portal Foundry:

  1. Tenha um fluxo rápido pronto para implementação. Se não tiveres um, vê Desenvolver um fluxo de prompts.

  2. Opcional: Selecione Chat para testar se o fluxo está a funcionar corretamente. Recomendamos que teste o seu fluxo antes da implementação.

  3. Selecione Deploy no editor de fluxos.

    Captura de ecrã que mostra o botão Deploy de um editor de fluxo de prompts.

  4. Na página de Definições Básicas , forneça a informação necessária.

    Captura de ecrã que mostra a página de definições básicas no assistente de implementação.

  5. Selecionar Rever + Criar. Ou, selecione Seguinte para avançar nas páginas de definições avançadas que não são necessárias para este artigo.

  6. Selecione Criar para implementar o fluxo de prompts.

  7. Para ver o estado da sua implementação, selecione Modelos + endpoints no painel esquerdo. Depois de a implementação ser criada com sucesso, selecione a implementação para ver mais informações.

    Captura de ecrã que mostra o estado de implementação em progresso.

  8. Selecione o separador Consumir para ver exemplos de código que pode utilizar para consumir o modelo implementado na sua aplicação.

    Nesta página, pode também ver a URL do endpoint que pode usar para consumir o endpoint.

    Captura de ecrã que mostra a página de detalhes da implementação.

  9. Pode usar diretamente o endpoint REST ou começar com um dos exemplos aqui apresentados.

    Captura de ecrã que mostra o endpoint de implementação e exemplos de código.

Para informações sobre como implementar um modelo base, consulte Implementar modelos com Foundry.

Configurações e cenários

Ficheiro de texto de requisitos

Opcionalmente, pode especificar pacotes extra que precisa em requirements.txt. Podes encontrar requirements.txt na pasta raiz da tua pasta de fluxo. Quando implementa um fluxo de prompt para um endpoint online gerido na interface de utilizador, a implementação, por defeito, utiliza o ambiente criado com base na imagem base especificada em flow.dag.yaml e nas dependências especificadas em requirements.txt.

A imagem base especificada em flow.dag.yaml é criada com base na imagem mcr.microsoft.com/azureml/promptflow/promptflow-runtime-stable:<newest_version>base do fluxo de prompts . Para ver a versão mais recente, consulte esta lista. Se não especificar a imagem base em flow.dag.yaml, a implementação usa a imagem mcr.microsoft.com/azureml/promptflow/promptflow-runtime-stable:latestbase padrão .

Captura de ecrã que mostra a especificação da imagem base no ficheiro raw yaml do fluxo.

Configurações básicas

Neste passo, configura as definições básicas ao selecionar Deploy no editor de fluxos.

Propriedade Descrição
Ponto final Selecione se quer implementar um novo endpoint ou atualizar um endpoint existente.
Se selecionares Novo, precisas de especificar o nome do endpoint.
Nome da implantação - No mesmo endpoint, o nome da implementação deve ser único.
- Se selecionar um endpoint existente e inserir um nome de implementação existente, essa implementação é substituída pelas novas configurações.
Máquina virtual O tamanho da máquina virtual a usar para a implementação.
Contagem de instâncias O número de instâncias a usar para a implementação. Especifique o valor da carga de trabalho que espera. Para alta disponibilidade, recomendamos que defina o valor para pelo menos 3. Reservamos mais 20% para realizar melhorias.
Recolha de dados de inferência Se ativar esta configuração, as entradas e saídas de fluxo são recolhidas automaticamente num ativo de dados do Azure Machine Learning. Podes usá-los para monitorização posterior.

Depois de terminares as definições básicas, seleciona Rever + Criar para terminar a criação. Também pode selecionar Seguinte para configurar definições avançadas.

Definições avançadas: Ponto de Extremidade

Pode especificar as seguintes definições para o endpoint.

Captura de ecrã que mostra as definições avançadas do endpoint.

No fluxo de trabalho das definições avançadas , também pode especificar etiquetas de implementação e selecionar um ambiente personalizado.

Captura de ecrã que mostra as definições avançadas de implementação.

Tipo de autenticação

Esta configuração identifica o método de autenticação para o endpoint. A autenticação baseada em chave fornece uma chave primária e uma secundária que não expiram. A autenticação baseada em tokens do Azure Machine Learning fornece um token que atualiza periodicamente.

Tipo de identidade

O endpoint precisa de aceder a recursos do Azure para inferência, como o Azure Container Registry ou as suas ligações do hub Foundry. Pode permitir que o endpoint possa aceder aos recursos do Azure, concedendo permissão à sua identidade gerida.

A identidade atribuída ao sistema é criada depois de o seu endpoint ser criado. O utilizador cria a identidade atribuída pelo utilizador. Para mais informações, consulte Identidades geridas para recursos Azure.

Sistema atribuído

A opção Impor acesso aos segredos de ligação (pré-visualização) está ativada por defeito. Se o fluxo usar ligações, o endpoint precisa de aceder a essas ligações para realizar inferências.

Se tiver permissão de leitura de segredos de ligação, o endpoint recebe acesso ao papel Azure Machine Learning Workspace Connection Secrets Reader para aceder às ligações. Se desativar esta opção, deve atribuir esta função à identidade atribuída pelo sistema manualmente ou pedir ajuda ao seu administrador. Para mais informações, consulte Conceder permissão à identidade do endpoint.

Utilizador atribuído

Quando crias a implementação, o Azure tenta puxar a imagem do contentor do utilizador do registo de contentores do hub Foundry e monta o modelo do utilizador e os artefactos do código no contentor do utilizador a partir da conta de armazenamento do hub.

Se criar o endpoint associado com a opção Identidade Atribuída pelo Utilizador , conceda à identidade atribuída pelo utilizador os seguintes papéis antes de criar a implementação. Caso contrário, a criação da implementação falhará.

Âmbito Função Por que é necessário
Projeto da fundição Leitor de Segredos da Ligação ao Espaço de Trabalho do Azure Machine Learning ou uma função personalizada com Microsoft.MachineLearningServices/workspaces/connections/listsecrets/action Obtém ligações a projetos.
Registo de contentores do projeto de fundição ACR Pull Puxa imagens de contentores.
Armazenamento padrão do projeto Foundry Leitor de Dados de Blob de Armazenamento Carrega um modelo do armazenamento.
Projeto da fundição Azure Machine Learning Metrics Writer (pré-visualização) Depois de implementares o endpoint, se quiseres monitorizar as métricas relacionadas com o endpoint como utilização de CPU/GPU/Disco/Memória, concede esta permissão à identidade.

Opcional.

Para mais informações sobre como conceder permissões à identidade do endpoint, consulte Conceder permissões ao endpoint.

Importante

Se o seu fluxo usar ligações de autenticação baseadas no Microsoft Entra ID, precisa sempre de conceder à identidade gerida funções adequadas para os recursos correspondentes, para que possa fazer chamadas de API para esse recurso. Esta configuração é necessária quer use identidade atribuída ao sistema ou identidade atribuída ao utilizador.

Por exemplo, se a sua ligação Azure OpenAI usar autenticação baseada em Microsoft Entra ID, precisa de conceder à identidade gerida no ponto final o papel de Utilizador dos Serviços Cognitivos OpenAI ou de Colaborador dos Serviços Cognitivos OpenAI dos recursos correspondentes do Azure OpenAI.

Definições avançadas: Saídas e ligações

Neste passo, pode visualizar todas as saídas de fluxo e especificar quais as saídas a incluir na resposta do endpoint que implementa. Por defeito, todas as saídas de fluxo são selecionadas.

Também pode especificar as ligações que o endpoint utiliza quando realiza inferência. Por padrão, o endpoint herda as ligações do fluxo.

Depois de configurar e rever todos os passos anteriores, selecione Review + Criar para terminar a criação.

Espere que a criação do endpoint demore mais de 15 minutos. As fases incluem criar um endpoint, registar um modelo e criar uma implementação.

O progresso da criação da implementação envia uma notificação que começa com a implementação do fluxo de prompts.

Ative o rastreio ativando o diagnóstico Application Insights (pré-visualização)

Se ativar esta capacidade, os dados de rastreio e métricas do sistema durante o tempo de inferência são recolhidos no Application Insights vinculado ao espaço de trabalho. Estas métricas incluem a contagem de tokens, a latência do fluxo e o pedido de fluxo. Para obter mais informações, consulte Ativar o rastreamento e recolher feedback para uma implementação de fluxo.

Conceder permissões ao endpoint

Importante

Só o proprietário dos recursos do Azure pode conceder permissões adicionando uma atribuição de funções. Pode ser necessário contactar o proprietário da subscrição do Azure. Esta pessoa pode ser o seu administrador de TI.

Recomendamos que conceda funções à identidade atribuída ao utilizador assim que a criação do endpoint terminar. Pode demorar mais de 15 minutos até que a autorização concedida entre em vigor.

Para conceder as permissões necessárias no portal Azure, siga estes passos:

  1. Consulte a página de visão geral do projeto Foundry no portal Azure.

  2. Selecione controlo de acesso (IAM) e depois selecione Adicionar atribuição de funções.

    Captura de ecrã que mostra o Controlo de Acesso com Adicionar atribuição de função destacada.

  3. Selecione Leitor de Segredos de Ligação do Espaço de Trabalho do Azure Machine Learning e selecione Seguinte.

    O Azure Machine Learning Workspace Connection Secrets Reader é uma função incorporada que tem permissão para obter conexões de hub.

    Se quiseres usar um cargo personalizado, certifica-te de que o cargo personalizado tem a permissão do Microsoft.MachineLearningServices/workspaces/connections/listsecrets/action. Saiba mais sobre como criar funções personalizadas.

  4. Selecione Identidade Gerida e depois selecione membros:

    • Identidade atribuída ao sistema: Em identidade gerida atribuída ao sistema, selecione endpoint online de aprendizagem automática e pesquise por nome do endpoint.
    • Identidade atribuída pelo utilizador: Selecione Identidade gerida atribuída pelo utilizador e pesquise pelo nome da identidade.
  5. Para identidade atribuída pelo utilizador, conceda permissões ao registo de contentores do hub e à conta de armazenamento. Pode encontrar o registo de contentores e a conta de armazenamento na página de visão geral do hub no portal Azure.

    Vá à página de visão geral do registo de contentores do hub e selecione controlo>de acesso Adicionar atribuição de funções. Atribuir ACR Pull à identidade do endpoint.

    Vai à página de visão geral do armazenamento predefinido do hub e seleciona Controlo de acesso>Adicionar atribuição de função. Atribuir Storage Blob Data Reader à identidade do endpoint.

  6. Opcional: Para identidade atribuída ao utilizador, se quiseres monitorizar as métricas relacionadas com endpoints como utilização de CPU/GPU/Disco/Memória, tens de conceder à identidade o papel de escritor de métricas do Workspace do hub.

Verifique o estado do endpoint

Após o fim da implantação, recebe notificações. Depois de o endpoint e a implementação serem criados com sucesso, selecione Ver detalhes na página de notificação para detalhes da implementação.

Também podes ir diretamente à página Modelo + endpoints no painel esquerdo e selecionar a implementação para verificar o estado.

Testar o ponto final

Na página de detalhes da implementação, selecione o separador Teste.

Para endpoints implementados a partir de fluxo padrão, pode introduzir valores no editor de formulários ou no editor JSON para testar o endpoint.

Teste o endpoint implementado a partir de um fluxo de chat

Para os endpoints implementados a partir de um fluxo de chat, pode testá-los numa janela de chat imersiva.

A chat_input mensagem foi definida durante o desenvolvimento do fluxo do chat. Podes colocar a chat_input mensagem na caixa de entrada. Se o seu flow tiver múltiplas entradas, especifique os valores para outras entradas além da mensagem chat_input no painel Inputs do lado direito.

Consumir o endpoint

Na página de detalhes da implementação, selecione o separador Consumir . Podes encontrar o endpoint REST e a chave/token para consumir o teu endpoint. Código de exemplo também está disponível para utilizar o endpoint em diferentes idiomas.

Captura de ecrã que mostra o código de exemplo dos endpoints de consumo.

Precisa de introduzir valores para RequestBody ou data e api_key. Por exemplo, se o seu fluxo tiver duas entradas, location e url, especifique os dados como o seguinte exemplo:

 {
"location": "LA",
"url": "<the_url_to_be_classified>"
}

Liberar recursos

Se não vais usar o endpoint depois de terminares este tutorial, apaga o endpoint. A eliminação completa pode demorar 20 minutos.