Exemplos de inferência de API serverless para modelos Foundry (clássico)

Aplica-se apenas a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal da Foundry. Saiba mais sobre o novo portal.

Nota

Os links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação do Foundry (clássico) que está a ver agora.

O catálogo de modelos Foundry oferece uma grande seleção de modelos Microsoft Foundry de uma vasta gama de fornecedores. Tens várias opções para implementar modelos do catálogo de modelos. Este artigo lista exemplos de inferência para implementações de APIs serverless.

Importante

Os modelos que estão em pré-visualização são marcados como pré-visualização nos seus cartões de modelos no catálogo de modelos.

Para realizar inferências com os modelos, alguns modelos como o TimeGEN-1 da Nixtla e o Cohere Rerank exigem que utilize APIs personalizadas dos fornecedores de modelos. Outros suportam inferência usando a Model Inference API. Pode encontrar mais detalhes sobre modelos individuais ao rever os seus cartões de modelos no catálogo de modelos do portal Foundry.

Cohere

A família de modelos Cohere inclui vários modelos otimizados para diferentes casos de uso, incluindo modelos de reclassificação, completação de chat e embeddings.

Exemplos de inferência: "Cohere command" e "embed"

A tabela seguinte fornece ligações para exemplos de como usar modelos Cohere.

Descrição	Linguagem	Exemplo
Pedidos web	Bash	Comando-R Comando-R+ cohere-embed.ipynb
Azure AI Inference package for C#	C#	Link
Azure AI Inference package for JavaScript	JavaScript	Link
Pacote Azure AI Inference para Python	Python	Link
OpenAI SDK (experimental)	Python	Link
LangChain	Python	Link
Cohere SDK	Python	Comando Embed
LiteLLM SDK	Python	Link

Geração Aumentada de Recuperação (RAG) e exemplos de uso de ferramentas: comando Cohere e embed

Descrição	Pacotes	Exemplo
Crie um índice vetorial local de pesquisa por similaridade IA (FAISS) no Facebook, usando embeddings Cohere - Langchain	`langchain`, `langchain_cohere`	cohere_faiss_langchain_embed.ipynb
Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial local FAISS - Langchain	`langchain`, `langchain_cohere`	command_faiss_langchain.ipynb
Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial de pesquisa de IA - Langchain	`langchain`, `langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial de pesquisa de IA - Cohere SDK	`cohere`, `azure_search_documents`	cohere-aisearch-rag.ipynb
Chamada de ferramenta/função de comando R+, usando LangChain	`cohere`, `langchain`, `langchain_cohere`	command_tools-langchain.ipynb

Reclassificação do Cohere

Para realizar inferências com modelos de reclassificação do Cohere, é obrigatório usar as APIs personalizadas de reclassificação do Cohere. Para mais informações sobre o modelo de reclassificação Cohere e as suas capacidades, veja Cohere rerank.

Preços para os modelos de reclassificação da Cohere

As consultas, que não devem ser confundidas com a consulta de um utilizador, são um medidor de preços que se refere ao custo associado aos tokens usados como entrada para inferir um modelo Cohere Rerank. O Cohere conta uma única unidade de pesquisa como uma consulta com até 100 documentos a classificar. Documentos com mais de 500 tokens (para Cohere-rerank-v3.5) ou com mais de 4096 tokens (para Cohere-rerank-v3-English e Cohere-rerank-v3-multilingue), ao incluir o comprimento da consulta de pesquisa, são divididos em múltiplos blocos, onde cada bloco conta como um único documento.

Consulte a coleção de modelos Cohere no portal Foundry.

Core42

A tabela seguinte fornece links para exemplos de como usar modelos Jais.

Descrição	Linguagem	Exemplo
Pacote Azure AI Inference para C#	C#	Link
Pacote de Inferência da Azure AI para JavaScript	JavaScript	Link
Pacote Azure AI Inference para Python	Python	Link

DeepSeek

A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treino passo a passo, como tarefas de linguagem, raciocínio científico e programação, DeepSeek-V3-0324, um modelo de linguagem Mixture-of-Experts (MoE), entre outros.

A tabela seguinte fornece ligações para exemplos de como utilizar modelos DeepSeek.

Descrição	Linguagem	Exemplo
Pacote Azure AI Inference para Python	Python	Link
Azure AI Inference package for JavaScript	JavaScript	Link
Azure AI Inference package for C#	C#	Link
Pacote de Inference Azure AI para Java	Java	Link

Microsoft

Os modelos da Microsoft incluem vários grupos de modelos, como modelos MAI, modelos Phi, modelos de IA para a saúde e outros. Para ver todos os modelos de Microsoft disponíveis, consulte a coleção de modelos Microsoft no portal Foundry.

A tabela seguinte fornece ligações para exemplos de como usar modelos da Microsoft.

Descrição	Linguagem	Exemplo
pacote Azure AI Inference para C#	C#	Link
Pacote de Inferência do Azure AI para JavaScript	JavaScript	Link
Pacote Azure AI Inference para Python	Python	Link
LangChain	Python	Link
Llama-Index	Python	Link

Consulte a coleção de modelos da Microsoft no portal Foundry.

Mistral AI

A Mistral AI oferece duas categorias de modelos, nomeadamente:

Modelos premium: Incluem Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B, e estão disponíveis como APIs serverless com faturação baseada em tokens pay-as-you-go.
Modelos abertos: Estes incluem Mistral-small-2503, Codestral e Mistral Nemo (disponíveis como APIs serverless com faturação baseada em tokens pay-as-you-go), e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01 (disponíveis para download e execução em endpoints geridos auto-hospedados).

A tabela seguinte fornece links para exemplos de como utilizar modelos de Mistral.

Descrição	Linguagem	Exemplo
Pedido CURL	Bash	Link
Azure AI Inference package for C#	C#	Link
Pacote de Inferência do Azure AI para JavaScript	JavaScript	Link
Pacote Azure AI Inference para Python	Python	Link
Pedidos web em Python	Python	Link
OpenAI SDK (experimental)	Python	Mistral - Exemplo do SDK OpenAI
LangChain	Python	Mistral - Amostra LangChain
Mistral AI	Python	Mistral - Amostra de IA Mistral
LiteLLM	Python	Mistral - Exemplo LiteLLM

Nixtla

O TimeGEN-1 da Nixtla é um modelo generativo pré-treinado de previsão e deteção de anomalias para dados de séries temporais. O TimeGEN-1 pode produzir previsões precisas para novas séries temporais sem treino, usando apenas valores históricos e covariáveis exógenas como entradas.

Para realizar inferências, o TimeGEN-1 exige que utilize a API de inferência personalizada da Nixtla. Para mais informações sobre o modelo TimeGEN-1 e as suas capacidades, consulte Nixtla.

Estima o número de tokens necessários

Antes de criar uma implementação TimeGEN-1, é útil estimar o número de tokens que planeia consumir e pelos quais será faturado. Um token corresponde a um ponto de dados no seu conjunto de dados de entrada ou de saída.

Suponha que tem o seguinte conjunto de dados de séries temporais de entrada:

Unique_id	Carimbo temporal	Variável-alvo	Variável Exógena 1	Variável Exógena 2
BE	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

Para determinar o número de tokens, multiplique o número de linhas (neste exemplo, duas) e o número de colunas usadas para previsão — sem contar as colunas de unique_id e de carimbo temporal (neste exemplo, três) para obter um total de seis tokens.

Dado o seguinte conjunto de dados de saída:

ID único	Carimbo temporal	Variável-alvo prevista
BE	2016-10-22 02:00:00	46.57
BE	2016-10-22 03:00:00	48.57

Também pode determinar o número de tokens contando o número de pontos de dados devolvidos após a previsão de dados. Neste exemplo, o número de tokens é dois.

Estimar preços com base em tokens

Existem quatro medidores de preços que determinam o preço que paga. Estes medidores são os seguintes:

Medidor de Preços	Descrição
Elementos de entrada para inferências em sistemas paygo	Custos associados aos tokens usados como entrada para inferência quando finetune_steps = 0
tokens de saída de inferência paygo	Custos associados aos tokens usados como saída para inferência quando finetune_steps = 0
paygo-finetuned-model-inference-input-tokens	Custos associados aos tokens usados como entrada para inferência quando finetune_steps> 0
paygo-modelo-ajustado-inferência-saída-tokens	Custos associados aos tokens usados como saída para inferência quando finetune_steps> 0

Consulte a coleção de modelos Nixtla no portal Foundry.

Stability AI

Os modelos de IA da Stability implementados através de APIs serverless utilizam a API de Inferência de Modelos na rota /image/generations. Para exemplos de como utilizar modelos de IA de Estabilidade, veja os seguintes exemplos:

Utiliza o SDK da OpenAI com modelos da Stability AI para pedidos de transformação de texto em imagem
Use a biblioteca Requests com modelos da Stability AI para pedidos de conversão de texto em imagem
Utilizar a biblioteca Requests com o Stable Diffusion 3.5 Large para solicitações de imagem-para-imagem
Exemplo de uma resposta de geração de imagem totalmente codificada

Gretel Navigator

O Gretel Navigator emprega uma arquitetura composta de IA especificamente concebida para dados sintéticos, combinando os melhores modelos de linguagem pequena (SLMs) open-source, afinados em mais de 10 domínios industriais. Este sistema criado de raiz cria conjuntos de dados diversos e específicos de domínio, em escalas de centenas a milhões de exemplos. O sistema também preserva relações estatísticas complexas e oferece maior velocidade e precisão em comparação com a criação manual de dados.

Descrição	Linguagem	Exemplo
Azure AI Inference package for JavaScript	JavaScript	Link
Pacote Azure AI Inference para Python	Python	Link

Modelos de implementação como implementações de APIs serverless
Explore Modelos de Fundição
Modelos de Fundição e as suas capacidades
Disponibilidade regional para modelos em implementações de APIs serverless
Segurança de conteúdo para modelos vendidos diretamente pela Azure

Comentários

Esta página foi útil?

Last updated on 2026-05-01