Exemplos de inferência de API serverless para modelos Foundry (clássico)

Aplica-se apenas a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal da Foundry. Saiba mais sobre o novo portal.

Nota

Os links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação do Foundry (clássico) que está a ver agora.

O catálogo de modelos Foundry oferece uma grande seleção de modelos Microsoft Foundry de uma vasta gama de fornecedores. Tens várias opções para implementar modelos do catálogo de modelos. Este artigo lista exemplos de inferência para implementações de APIs serverless.

Importante

Os modelos que estão em pré-visualização são marcados como pré-visualização nos seus cartões de modelos no catálogo de modelos.

Para realizar inferências com os modelos, alguns modelos como o TimeGEN-1 da Nixtla e o Cohere Rerank exigem que utilize APIs personalizadas dos fornecedores de modelos. Outros suportam inferência usando a Model Inference API. Pode encontrar mais detalhes sobre modelos individuais ao rever os seus cartões de modelos no catálogo de modelos do portal Foundry.

Cohere

A família de modelos Cohere inclui vários modelos otimizados para diferentes casos de uso, incluindo modelos de reclassificação, completação de chat e embeddings.

Exemplos de inferência: "Cohere command" e "embed"

A tabela seguinte fornece ligações para exemplos de como usar modelos Cohere.

Descrição Linguagem Exemplo
Pedidos web Bash Comando-RComando-R+
cohere-embed.ipynb
Azure AI Inference package for C# C# Link
Azure AI Inference package for JavaScript JavaScript Link
Pacote Azure AI Inference para Python Python Link
OpenAI SDK (experimental) Python Link
LangChain Python Link
Cohere SDK Python Comando
Embed
LiteLLM SDK Python Link

Geração Aumentada de Recuperação (RAG) e exemplos de uso de ferramentas: comando Cohere e embed

Descrição Pacotes Exemplo
Crie um índice vetorial local de pesquisa por similaridade IA (FAISS) no Facebook, usando embeddings Cohere - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial local FAISS - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial de pesquisa de IA - Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial de pesquisa de IA - Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Chamada de ferramenta/função de comando R+, usando LangChain cohere, langchain, langchain_cohere command_tools-langchain.ipynb

Reclassificação do Cohere

Para realizar inferências com modelos de reclassificação do Cohere, é obrigatório usar as APIs personalizadas de reclassificação do Cohere. Para mais informações sobre o modelo de reclassificação Cohere e as suas capacidades, veja Cohere rerank.

Preços para os modelos de reclassificação da Cohere

As consultas, que não devem ser confundidas com a consulta de um utilizador, são um medidor de preços que se refere ao custo associado aos tokens usados como entrada para inferir um modelo Cohere Rerank. O Cohere conta uma única unidade de pesquisa como uma consulta com até 100 documentos a classificar. Documentos com mais de 500 tokens (para Cohere-rerank-v3.5) ou com mais de 4096 tokens (para Cohere-rerank-v3-English e Cohere-rerank-v3-multilingue), ao incluir o comprimento da consulta de pesquisa, são divididos em múltiplos blocos, onde cada bloco conta como um único documento.

Consulte a coleção de modelos Cohere no portal Foundry.

Core42

A tabela seguinte fornece links para exemplos de como usar modelos Jais.

Descrição Linguagem Exemplo
Pacote Azure AI Inference para C# C# Link
Pacote de Inferência da Azure AI para JavaScript JavaScript Link
Pacote Azure AI Inference para Python Python Link

DeepSeek

A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treino passo a passo, como tarefas de linguagem, raciocínio científico e programação, DeepSeek-V3-0324, um modelo de linguagem Mixture-of-Experts (MoE), entre outros.

A tabela seguinte fornece ligações para exemplos de como utilizar modelos DeepSeek.

Descrição Linguagem Exemplo
Pacote Azure AI Inference para Python Python Link
Azure AI Inference package for JavaScript JavaScript Link
Azure AI Inference package for C# C# Link
Pacote de Inference Azure AI para Java Java Link

Meta

Os modelos e ferramentas Meta Llama são uma coleção de modelos de raciocínio em texto e imagem generativos de IA pré-treinados e afinados. A gama de modelos Meta é escalável para incluir:

  • Pequenos modelos de linguagem (SLMs), como os modelos 1B e 3B Base e Instruct, para inferência em dispositivos locais e na periferia da rede.
  • Modelos de linguagem de tamanho médio e grande (LLMs) como os modelos Base e Instruct 7B, 8B e 70B
  • Modelos de alto rendimento, como o Meta Llama 3.1-405B Instruct, para geração de dados sintéticos e casos de destilação.
  • Modelos de alto desempenho nativos e multimodais, Llama 4 Scout e Llama 4 Maverick, utilizam uma arquitetura de mistura de especialistas para oferecer um desempenho líder de mercado na compreensão de texto e imagem.

A tabela seguinte fornece links para exemplos de como usar modelos Meta Llama.

Descrição Linguagem Exemplo
Pedido CURL Bash Link
Pacote de inferência do Azure AI para C# C# Link
Pacote de Inferência de Azure AI para JavaScript JavaScript Link
Pacote Azure AI Inference para Python Python Link
Pedidos web em Python Python Link
OpenAI SDK (experimental) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Os modelos da Microsoft incluem vários grupos de modelos, como modelos MAI, modelos Phi, modelos de IA para a saúde e outros. Para ver todos os modelos de Microsoft disponíveis, consulte a coleção de modelos Microsoft no portal Foundry.

A tabela seguinte fornece ligações para exemplos de como usar modelos da Microsoft.

Descrição Linguagem Exemplo
pacote Azure AI Inference para C# C# Link
Pacote de Inferência do Azure AI para JavaScript JavaScript Link
Pacote Azure AI Inference para Python Python Link
LangChain Python Link
Llama-Index Python Link

Consulte a coleção de modelos da Microsoft no portal Foundry.

Mistral AI

A Mistral AI oferece duas categorias de modelos, nomeadamente:

  • Modelos premium: Incluem Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B, e estão disponíveis como APIs serverless com faturação baseada em tokens pay-as-you-go.
  • Modelos abertos: Estes incluem Mistral-small-2503, Codestral e Mistral Nemo (disponíveis como APIs serverless com faturação baseada em tokens pay-as-you-go), e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01 (disponíveis para download e execução em endpoints geridos auto-hospedados).

A tabela seguinte fornece links para exemplos de como utilizar modelos de Mistral.

Descrição Linguagem Exemplo
Pedido CURL Bash Link
Azure AI Inference package for C# C# Link
Pacote de Inferência do Azure AI para JavaScript JavaScript Link
Pacote Azure AI Inference para Python Python Link
Pedidos web em Python Python Link
OpenAI SDK (experimental) Python Mistral - Exemplo do SDK OpenAI
LangChain Python Mistral - Amostra LangChain
Mistral AI Python Mistral - Amostra de IA Mistral
LiteLLM Python Mistral - Exemplo LiteLLM

Nixtla

O TimeGEN-1 da Nixtla é um modelo generativo pré-treinado de previsão e deteção de anomalias para dados de séries temporais. O TimeGEN-1 pode produzir previsões precisas para novas séries temporais sem treino, usando apenas valores históricos e covariáveis exógenas como entradas.

Para realizar inferências, o TimeGEN-1 exige que utilize a API de inferência personalizada da Nixtla. Para mais informações sobre o modelo TimeGEN-1 e as suas capacidades, consulte Nixtla.

Estima o número de tokens necessários

Antes de criar uma implementação TimeGEN-1, é útil estimar o número de tokens que planeia consumir e pelos quais será faturado. Um token corresponde a um ponto de dados no seu conjunto de dados de entrada ou de saída.

Suponha que tem o seguinte conjunto de dados de séries temporais de entrada:

Unique_id Carimbo temporal Variável-alvo Variável Exógena 1 Variável Exógena 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Para determinar o número de tokens, multiplique o número de linhas (neste exemplo, duas) e o número de colunas usadas para previsão — sem contar as colunas de unique_id e de carimbo temporal (neste exemplo, três) para obter um total de seis tokens.

Dado o seguinte conjunto de dados de saída:

ID único Carimbo temporal Variável-alvo prevista
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

Também pode determinar o número de tokens contando o número de pontos de dados devolvidos após a previsão de dados. Neste exemplo, o número de tokens é dois.

Estimar preços com base em tokens

Existem quatro medidores de preços que determinam o preço que paga. Estes medidores são os seguintes:

Medidor de Preços Descrição
Elementos de entrada para inferências em sistemas paygo Custos associados aos tokens usados como entrada para inferência quando finetune_steps = 0
tokens de saída de inferência paygo Custos associados aos tokens usados como saída para inferência quando finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Custos associados aos tokens usados como entrada para inferência quando finetune_steps> 0
paygo-modelo-ajustado-inferência-saída-tokens Custos associados aos tokens usados como saída para inferência quando finetune_steps> 0

Consulte a coleção de modelos Nixtla no portal Foundry.

Stability AI

Os modelos de IA da Stability implementados através de APIs serverless utilizam a API de Inferência de Modelos na rota /image/generations. Para exemplos de como utilizar modelos de IA de Estabilidade, veja os seguintes exemplos:

Gretel Navigator

O Gretel Navigator emprega uma arquitetura composta de IA especificamente concebida para dados sintéticos, combinando os melhores modelos de linguagem pequena (SLMs) open-source, afinados em mais de 10 domínios industriais. Este sistema criado de raiz cria conjuntos de dados diversos e específicos de domínio, em escalas de centenas a milhões de exemplos. O sistema também preserva relações estatísticas complexas e oferece maior velocidade e precisão em comparação com a criação manual de dados.

Descrição Linguagem Exemplo
Azure AI Inference package for JavaScript JavaScript Link
Pacote Azure AI Inference para Python Python Link