Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Warning
O fluxo de prompts no Microsoft Foundry e no Azure Machine Learning será retirado a 20 de abril de 2027. O fluxo rápido já não é recomendado para novos desenvolvimentos. Migre as aplicações e implementações existentes de fluxo de prompts para o Microsoft Agent Framework antes de 20 de abril de 2027.
As imagens de contentores de fluxo de prompt já não recebem atualizações, incluindo atualizações de segurança e de pacotes. Isto aplica-se a imagens de runtime de fluxo de prompts, incluindo promptflow-runtime, promptflow-runtime-stable, e promptflow-python.
Após 20 de abril de 2027, o fluxo de prompts, incluindo a experiência de autoria web no Microsoft Foundry e Azure Machine Learning, as extensões VS Code e imagens de contentores de fluxo de prompts relacionadas, deixarão de ser suportados nem disponíveis.
Se a sua aplicação depende de implementações de fluxo de prompts ou imagens em tempo de execução, planeie transferir essas cargas de trabalho para alternativas suportadas como Microsoft Agent Framework antes da data de reforma. Para orientações sobre migração, consulte o guia de migração de fluxo de prompts e exemplos de código de migração.
A ferramenta Open Model LLM permite a utilização de vários Modelos Abertos e Modelos Fundamentais, como Falcon e Llama 2, para processamento de linguagem natural em fluxo de prompts Azure Machine Learning.
Atenção
Aviso de Deprecation: A ferramenta Open Model LLM foi obsoleta em favor da ferramenta LLM, que oferece suporte para todos os modelos suportados pela API de inferência de modelos Azure IA proporcionando assim maior flexibilidade.
Aqui está como ele fica em ação na extensão de fluxo de prompts do Visual Studio Code. Neste exemplo, a ferramenta está a ser usada para chamar um endpoint de chat LlaMa-2 e perguntar "O que é CI?".
Esta ferramenta de fluxo de prompts suporta dois tipos diferentes de APIs LLM:
- Chat: Mostrado no exemplo anterior. O tipo de API de chat facilita conversas interativas com entradas e respostas baseadas em texto.
- Completão: O tipo API de Conclusão é usado para gerar conclusãos de texto de resposta única com base na entrada de prompt fornecida.
Visão geral rápida: Como uso a ferramenta Open Model LLM?
- Escolha um modelo do Azure Machine Learning Model Catalog e faça com que seja implementado.
- Liga-te à implementação do modelo.
- Configura as definições da ferramenta Open Model LLM.
- Prepara o enunciado.
- Faz o fluxo.
Pré-requisitos: Implementação do modelo
- Escolhe o modelo que corresponde ao teu cenário do catálogo de modelos Azure Machine Learning.
- Use o botão Deploy para implantar o modelo num endpoint de inferência online Azure Machine Learning.
- Use uma das opções padrão de implementação.
Para saber mais, consulte Deploy foundation models to endpoints for inferencing.
Pré-requisitos: Liga-te ao modelo
Para que o fluxo de prompts utilize o seu modelo implementado, precisa de se ligar a ele. Existem duas formas de se conectar.
Ligações aos pontos finais
Uma vez que o seu fluxo esteja associado a um espaço de trabalho Azure Machine Learning ou Microsoft Foundry, a ferramenta Open Model LLM pode usar os endpoints desse espaço de trabalho.
Usando os espaços de trabalho Azure Machine Learning ou Foundry: Se estiver a usar fluxo de prompts num dos espaços de trabalho baseados em páginas web, os endpoints online disponíveis nesse espaço ativam-se automaticamente.
Usar VS Code ou Code First: Se estiver a usar fluxo de prompts no VS Code ou numa das ofertas Code First, precisa de se ligar ao espaço de trabalho. A ferramenta Open Model LLM utiliza o cliente DefaultAzureCredential azure.identity para autorização. Uma forma é definir valores de credenciais ambientais.
Conexões personalizadas
A ferramenta Open Model LLM utiliza o CustomConnection. O fluxo de prompts suporta dois tipos de ligações:
Workspace - Ligações que são armazenadas como segredos num Azure Machine Learning workspace. Embora estas ligações possam ser usadas, em muitos locais são frequentemente criadas e mantidas na interface do Studio. Para aprender a criar uma ligação personalizada no Studio UI, veja como criar uma ligação personalizada. Ligações locais - Ligações que estão armazenadas localmente na sua máquina. Estas ligações não estão disponíveis na experiência de usuário do Studio, mas podem ser usadas com a extensão VS Code. Para aprender a criar uma Ligação Personalizada local, veja como criar uma ligação local.
As chaves necessárias para definir são:
-
endpoint_url
- Este valor pode ser encontrado no endpoint de Inferência previamente criado.
-
endpoint_api_key
- Certifique-se de definir como valor secreto.
- Este valor pode ser encontrado no endpoint de Inferência previamente criado.
-
model_family
- Valores suportados: LLAMA, DOLLY, GPT2 ou FALCON
- Este valor depende do tipo de implementação que pretendes.
Executar a ferramenta: Entradas
A ferramenta Open Model LLM tem muitos parâmetros, alguns dos quais são necessários. Consulte a tabela seguinte para detalhes, pode comparar estes parâmetros com a captura de ecrã anterior para maior clareza visual.
| Name | Tipo | Description | Obrigatório |
|---|---|---|---|
| api | cadeia (de caracteres) | O modo API que depende do modelo usado e do cenário selecionado. Valores suportados: (Conclusão | Chat) | Sim |
| endpoint_name | cadeia (de caracteres) | Nome de um Endpoint de Inferência Online com um modelo suportado implementado nele. Tem prioridade sobre a ligação. | Sim |
| Temperatura | float | A aleatoriedade do texto gerado. O padrão é 1. | No |
| max_new_tokens | número inteiro | O número máximo de tokens a gerar na conclusão. O padrão é 500. | No |
| top_p | float | A probabilidade de usar a primeira escolha dos tokens gerados. O padrão é 1. | No |
| model_kwargs | dicionário | Esta entrada é usada para fornecer uma configuração específica ao modelo utilizado. Por exemplo, o modelo Llama-02 pode usar {"temperatura":0,4}. Padrão: {} | No |
| nome_da_implementação | cadeia (de caracteres) | O nome da implementação a direcionar no endpoint de Inferência Online. Se nenhum valor for passado, são usadas as definições de tráfego do balanceador de carga de inferência. | No |
| avisar | cadeia (de caracteres) | O prompt de texto que o modelo de linguagem usa para gerar a sua resposta. | Sim |
Saídas
| API | Tipo de Retorno | Description |
|---|---|---|
| Completion | cadeia (de caracteres) | O texto de uma conclusão prevista |
| Chat | cadeia (de caracteres) | O texto de uma resposta na conversa |
Implantação num endpoint online
Quando implementas um fluxo contendo a ferramenta Open Model LLM num endpoint online, há um passo extra para configurar permissões. Durante a implementação através das páginas web, há uma escolha entre tipos de Identidade atribuídos pelo Sistema e Atribuídos pelo Utilizador. De qualquer forma, usando o portal do Azure (ou uma funcionalidade semelhante), adicione o papel de função "Reader" Job à identidade no espaço de trabalho Azure Machine Learning ou no projeto Ai Studio, que está a hospedar o endpoint. A implementação em fluxo rápido pode precisar de ser atualizada.