Ferramenta Open Model LLM

Warning

O fluxo de prompts no Microsoft Foundry e no Azure Machine Learning será retirado a 20 de abril de 2027. O fluxo rápido já não é recomendado para novos desenvolvimentos. Migre as aplicações e implementações existentes de fluxo de prompts para o Microsoft Agent Framework antes de 20 de abril de 2027.

As imagens de contentores de fluxo de prompt já não recebem atualizações, incluindo atualizações de segurança e de pacotes. Isto aplica-se a imagens de runtime de fluxo de prompts, incluindo promptflow-runtime, promptflow-runtime-stable, e promptflow-python.

Após 20 de abril de 2027, o fluxo de prompts, incluindo a experiência de autoria web no Microsoft Foundry e Azure Machine Learning, as extensões VS Code e imagens de contentores de fluxo de prompts relacionadas, deixarão de ser suportados nem disponíveis.

Se a sua aplicação depende de implementações de fluxo de prompts ou imagens em tempo de execução, planeie transferir essas cargas de trabalho para alternativas suportadas como Microsoft Agent Framework antes da data de reforma. Para orientações sobre migração, consulte o guia de migração de fluxo de prompts e exemplos de código de migração.

A ferramenta Open Model LLM permite a utilização de vários Modelos Abertos e Modelos Fundamentais, como Falcon e Llama 2, para processamento de linguagem natural em fluxo de prompts Azure Machine Learning.

Atenção

Aviso de Deprecation: A ferramenta Open Model LLM foi obsoleta em favor da ferramenta LLM, que oferece suporte para todos os modelos suportados pela API de inferência de modelos Azure IA proporcionando assim maior flexibilidade.

Aqui está como ele fica em ação na extensão de fluxo de prompts do Visual Studio Code. Neste exemplo, a ferramenta está a ser usada para chamar um endpoint de chat LlaMa-2 e perguntar "O que é CI?".

Esta ferramenta de fluxo de prompts suporta dois tipos diferentes de APIs LLM:

Chat: Mostrado no exemplo anterior. O tipo de API de chat facilita conversas interativas com entradas e respostas baseadas em texto.
Completão: O tipo API de Conclusão é usado para gerar conclusãos de texto de resposta única com base na entrada de prompt fornecida.

Visão geral rápida: Como uso a ferramenta Open Model LLM?

Escolha um modelo do Azure Machine Learning Model Catalog e faça com que seja implementado.
Liga-te à implementação do modelo.
Configura as definições da ferramenta Open Model LLM.
Prepara o enunciado.
Faz o fluxo.

Pré-requisitos: Implementação do modelo

Escolhe o modelo que corresponde ao teu cenário do catálogo de modelos Azure Machine Learning.
Use o botão Deploy para implantar o modelo num endpoint de inferência online Azure Machine Learning.
- Use uma das opções padrão de implementação.

Para saber mais, consulte Deploy foundation models to endpoints for inferencing.

Pré-requisitos: Liga-te ao modelo

Para que o fluxo de prompts utilize o seu modelo implementado, precisa de se ligar a ele. Existem duas formas de se conectar.

Ligações aos pontos finais

Uma vez que o seu fluxo esteja associado a um espaço de trabalho Azure Machine Learning ou Microsoft Foundry, a ferramenta Open Model LLM pode usar os endpoints desse espaço de trabalho.

Usando os espaços de trabalho Azure Machine Learning ou Foundry: Se estiver a usar fluxo de prompts num dos espaços de trabalho baseados em páginas web, os endpoints online disponíveis nesse espaço ativam-se automaticamente.
Usar VS Code ou Code First: Se estiver a usar fluxo de prompts no VS Code ou numa das ofertas Code First, precisa de se ligar ao espaço de trabalho. A ferramenta Open Model LLM utiliza o cliente DefaultAzureCredential azure.identity para autorização. Uma forma é definir valores de credenciais ambientais.

Conexões personalizadas

A ferramenta Open Model LLM utiliza o CustomConnection. O fluxo de prompts suporta dois tipos de ligações:

Workspace - Ligações que são armazenadas como segredos num Azure Machine Learning workspace. Embora estas ligações possam ser usadas, em muitos locais são frequentemente criadas e mantidas na interface do Studio. Para aprender a criar uma ligação personalizada no Studio UI, veja como criar uma ligação personalizada.
Ligações locais - Ligações que estão armazenadas localmente na sua máquina. Estas ligações não estão disponíveis na experiência de usuário do Studio, mas podem ser usadas com a extensão VS Code. Para aprender a criar uma Ligação Personalizada local, veja como criar uma ligação local.

As chaves necessárias para definir são:

endpoint_url
- Este valor pode ser encontrado no endpoint de Inferência previamente criado.
endpoint_api_key
- Certifique-se de definir como valor secreto.
- Este valor pode ser encontrado no endpoint de Inferência previamente criado.
model_family
- Valores suportados: LLAMA, DOLLY, GPT2 ou FALCON
- Este valor depende do tipo de implementação que pretendes.

Executar a ferramenta: Entradas

A ferramenta Open Model LLM tem muitos parâmetros, alguns dos quais são necessários. Consulte a tabela seguinte para detalhes, pode comparar estes parâmetros com a captura de ecrã anterior para maior clareza visual.

Name	Tipo	Description	Obrigatório
api	cadeia (de caracteres)	O modo API que depende do modelo usado e do cenário selecionado. Valores suportados: (Conclusão \| Chat)	Sim
endpoint_name	cadeia (de caracteres)	Nome de um Endpoint de Inferência Online com um modelo suportado implementado nele. Tem prioridade sobre a ligação.	Sim
Temperatura	float	A aleatoriedade do texto gerado. O padrão é 1.	No
max_new_tokens	número inteiro	O número máximo de tokens a gerar na conclusão. O padrão é 500.	No
top_p	float	A probabilidade de usar a primeira escolha dos tokens gerados. O padrão é 1.	No
model_kwargs	dicionário	Esta entrada é usada para fornecer uma configuração específica ao modelo utilizado. Por exemplo, o modelo Llama-02 pode usar {"temperatura":0,4}. Padrão: {}	No
nome_da_implementação	cadeia (de caracteres)	O nome da implementação a direcionar no endpoint de Inferência Online. Se nenhum valor for passado, são usadas as definições de tráfego do balanceador de carga de inferência.	No
avisar	cadeia (de caracteres)	O prompt de texto que o modelo de linguagem usa para gerar a sua resposta.	Sim

Saídas

API	Tipo de Retorno	Description
Completion	cadeia (de caracteres)	O texto de uma conclusão prevista
Chat	cadeia (de caracteres)	O texto de uma resposta na conversa

Implantação num endpoint online

Quando implementas um fluxo contendo a ferramenta Open Model LLM num endpoint online, há um passo extra para configurar permissões. Durante a implementação através das páginas web, há uma escolha entre tipos de Identidade atribuídos pelo Sistema e Atribuídos pelo Utilizador. De qualquer forma, usando o portal do Azure (ou uma funcionalidade semelhante), adicione o papel de função "Reader" Job à identidade no espaço de trabalho Azure Machine Learning ou no projeto Ai Studio, que está a hospedar o endpoint. A implementação em fluxo rápido pode precisar de ser atualizada.

Comentários

Esta página foi útil?

Last updated on 2026-06-04