Abrir a ferramenta LLM do Modelo

Aviso

O fluxo de prompt em Microsoft Foundry e Azure Machine Learning será desativado em 20 de abril de 2027. O fluxo de prompt não é mais recomendado para o novo desenvolvimento. Migre aplicativos e implantações de fluxo de prompt existentes para o Microsoft Agent Framework antes de 20 de abril de 2027.

As imagens de contêiner de fluxo de prompt não estão mais recebendo atualizações, incluindo atualizações de segurança e pacote. Isso se aplica a imagens de runtime de fluxo de prompt, incluindo promptflow-runtime, promptflow-runtime-stablee promptflow-python.

Após 20 de abril de 2027, o fluxo de prompts, incluindo a experiência de criação da Web em Microsoft Foundry e Azure Machine Learning, as extensões do VS Code e imagens de contêiner de fluxo de prompt relacionadas, não terá mais suporte ou disponibilidade.

Se o aplicativo depender de implantações de fluxo de prompt ou imagens de runtime, planeje mover essas cargas de trabalho para alternativas compatíveis, como Microsoft Agent Framework antes da data de desativação. Para obter diretrizes de migração, consulte o guia de migração de fluxo de prompt e exemplos de código de migração.

A ferramenta Open Model LLM permite a utilização de vários Modelos Abertos e Modelos Fundamentais, como Falcon e Llama 2, para processamento de linguagem natural em Azure Machine Learning fluxo de prompt.

Cuidado

Deprecation notice: A ferramenta Open Model LLM foi preterida em favor da ferramenta LLM, que oferecem suporte a todos os modelos compatíveis com a API de inferência de modelo de IA Azure e, portanto, um provedor de maior flexibilidade.

Veja como ele fica em ação na extensão de fluxo de prompt Visual Studio Code. Neste exemplo, a ferramenta está sendo usada para chamar um ponto de extremidade de chat LlaMa-2 e perguntar "O que é CI?".

Essa ferramenta de fluxo de prompt dá suporte a dois tipos de API LLM diferentes:

Chat: mostrado no exemplo anterior. O tipo de API de chat facilita conversas interativas com entradas e respostas baseadas em texto.
Conclusão: o tipo de API de Conclusão é usado para gerar conclusões de texto de resposta única com base na entrada de prompt fornecida.

Visão geral rápida: como posso usar a ferramenta ABRIR MODELO LLM?

Escolha um modelo no catálogo de modelos de Azure Machine Learning e faça com que ele seja implantado.
Conecte-se à implantação do modelo.
Defina as configurações de ferramenta de llm do modelo aberto.
Prepare o prompt.
Execute o fluxo.

Pré-requisitos: implantação de modelo

Escolha o modelo que correspondeu ao seu cenário no Azure Machine Learning catálogo de modelos.
Use o botão Deploy para implantar o modelo em um ponto de extremidade de inferência online Azure Machine Learning.
- Use uma das opções de implantação padrão.

Para saber mais, confira Implantar modelos de base em pontos de extremidade para inferência.

Pré-requisitos: conectar-se ao modelo

Para que o fluxo de prompt use o modelo implantado, você precisa se conectar a ele. Há duas maneiras de se conectar.

Conexões de endpoint

Depois que o fluxo estiver associado a um workspace Azure Machine Learning ou Microsoft Foundry, a ferramenta ABRIR MODELO LLM poderá usar os pontos de extremidade nesse workspace.

Using Azure Machine Learning ou workspaces do Foundry: se você estiver usando o fluxo de prompt em um dos workspaces de navegadores baseados na página da Web, os pontos de extremidade online disponíveis nesse workspace que serão usados automaticamente.
Usando o VS Code ou o código primeiro: se você estiver usando o fluxo de prompt no VS Code ou uma das ofertas do Code First, precisará se conectar ao workspace. A ferramenta Open Model LLM usa o cliente DefaultAzureCredential azure.identity para autorização. Uma maneira é por meio da configuração de valores de credencial de ambiente.

Conexões personalizadas

A ferramenta Abrir Modelo LLM usa a CustomConnection. O fluxo de prompt dá suporte a dois tipos de conexões:

conexões Workspace – conexões armazenadas como segredos em um workspace Azure Machine Learning. Embora essas conexões possam ser usadas, em muitos lugares, elas geralmente são criadas e mantidas na interface do usuário do Studio. Para saber como criar uma conexão personalizada na interface do usuário do Studio, confira como criar uma conexão personalizada.
Conexões locais – conexões armazenadas localmente em seu computador. Essas conexões não estão disponíveis no UX do Studio, mas podem ser usadas com a extensão vs code. Para saber como criar uma conexão personalizada local, veja como criar uma conexão local.

As chaves necessárias a serem definidas são:

endpoint_url
- Esse valor pode ser encontrado no ponto de extremidade inferência criado anteriormente.
endpoint_api_key
- Certifique-se de defini-lo como um valor secreto.
- Esse valor pode ser encontrado no ponto de extremidade inferência criado anteriormente.
model_family
- Valores com suporte: LLAMA, DOLLY, GPT2 ou FALCON
- Esse valor depende do tipo de implantação que você está direcionando.

Executando a ferramenta: Entradas

A ferramenta OPEN Model LLM tem muitos parâmetros, alguns dos quais são necessários. Consulte a tabela a seguir para obter detalhes, você pode corresponder esses parâmetros à captura de tela anterior para maior clareza visual.

Name	Tipo	Descrição	Obrigatório
api	cadeia	O modo de API que depende do modelo usado e do cenário selecionado. Valores com suporte: (Conclusão \| Chat)	Yes
endpoint_name	cadeia	Nome de um ponto de extremidade de inferência online com um modelo com suporte implantado nele. Tem prioridade sobre a conexão.	Yes
Temperatura	derivar	A aleatoriedade do texto gerado. O padrão é 1.	No
max_new_tokens	inteiro	O número máximo de tokens a serem gerados na conclusão. O padrão é 500.	No
top_p	derivar	A probabilidade de usar a escolha superior dos tokens gerados. O padrão é 1.	No
model_kwargs	dicionário	Essa entrada é usada para fornecer uma configuração específica ao modelo usado. Por exemplo, o modelo Llama-02 pode usar {"temperature":0.4}. Padrão: {}	No
nome_do_desdobramento	cadeia	O nome da implantação a ser direcionada no ponto de extremidade de Inferência Online. Se nenhum valor for passado, as configurações de tráfego do balanceador de carga de inferência serão usadas.	No
solicitação	cadeia	O prompt de texto que o modelo de idioma usa para gerar sua resposta.	Yes

Saídas

API	Tipo de retorno	Descrição
Completion	cadeia	O texto de uma conclusão prevista
Chat	cadeia	O texto de uma resposta int da conversa

Implantando em um ponto de extremidade online

Quando você implanta um fluxo que contém a ferramenta Open Model LLM em um ponto de extremidade online, há uma etapa extra para configurar permissões. Durante a implantação por meio das páginas da Web, há uma opção entre os tipos de Identidade atribuídos pelo sistema e atribuídos pelo usuário. De qualquer forma, usando o portal Azure (ou uma funcionalidade semelhante), adicione a função de função "Leitor" à identidade no workspace Azure Machine Learning ou no projeto do Ai Studio, que está hospedando o ponto de extremidade. A implantação do fluxo de prompt pode precisar ser atualizada.

Comentários

Esta página foi útil?

Last updated on 2026-06-04