Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Aplica-se somente a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal do Foundry.
Saiba mais sobre o novo portal.
Nota
Links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação da Foundry (clássica) que você está exibindo agora.
O catálogo de modelos do Foundry oferece uma grande seleção de modelos de Microsoft foundry de uma ampla gama de provedores. Você dispõe de várias opções para implantar modelos a partir do catálogo de modelos. Este artigo lista exemplos de inferência para implantações de API sem servidor.
Importante
Os modelos que estão em versão prévia são marcados como visualização em seus cartões de modelo no catálogo de modelos.
Para executar a inferência com os modelos, alguns modelos, como o TimeGEN-1 da Nixtla e o Cohere rerank, exigem que você use APIs personalizadas dos provedores de modelos. Outros dão suporte à inferência usando a API de Inferência de Modelo. Você pode encontrar mais detalhes sobre modelos individuais examinando seus cartões de modelo no catálogo de modelos do portal do Foundry.
Cohere
A família de modelos Cohere inclui vários modelos otimizados para diferentes casos de uso, incluindo reordenação, completamentos de chat e modelos de incorporação.
Exemplos de inferência: comando coerente e inserção
A tabela a seguir fornece links para exemplos de como usar modelos cohere.
| Descrição | Linguagem | Amostra |
|---|---|---|
| Solicitações da Web | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| Azure pacote de inferência de IA para C# | C# | Link |
| Azure pacote de inferência de IA para JavaScript | JavaScript | Link |
| Azure pacote de inferência de IA para Python | Python | Link |
| SDK do OpenAI (experimental) | Python | Link |
| LangChain | Python | Link |
| Cohere SDK | Python |
Comando Incorporar |
| LiteLLM SDK | Python | Link |
Rag (Geração Aumentada de Recuperação) e exemplos de uso da ferramenta: comando coerente e inserção
| Descrição | Pacotes | Amostra |
|---|---|---|
| Criar um índice de vetor FAISS (pesquisa de similaridade de IA) local do Facebook utilizando embeddings do Cohere - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Usar o comando Cohere R/R+ para responder perguntas a partir de dados no índice de vetores FAISS local – Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Usar o Comando Cohere R/R+ para responder perguntas a partir de dados no índice vetorial de pesquisa em IA – Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Usar o comando Cohere R/R+ para responder a perguntas a partir dos dados no índice vetorial de busca de IA – SDK do Cohere |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| Comando R+ ferramenta/chamada de função, usando LangChain |
cohere
langchain, langchain_cohere |
command_tools-langchain.ipynb |
Cohere reordenamento
Para executar a inferência com modelos reclassificados do Cohere, você precisará usar as APIs de reclassificado personalizadas do Cohere. Para obter mais informações sobre o modelo de reclassificado do Cohere e suas funcionalidades, consulte Cohere rerank.
Preços de modelos reclassificados do Cohere
As consultas, para não serem confundidas com a consulta de um usuário, são um medidor de preços que se refere ao custo associado aos tokens usados como entrada para inferência de um modelo Cohere Rerank. Cohere conta uma única unidade de pesquisa como uma consulta com até 100 documentos a serem classificados. Documentos com mais de 500 tokens (para Cohere-rerank-v3.5) ou mais de 4.096 tokens (para Cohere-rerank-v3-English e Cohere-rerank-v3-multilingual) ao incluir o comprimento da consulta de pesquisa são divididos em várias partes, em que cada parte conta como um único documento.
Consulte a coleção de modelos Cohere no portal do Foundry.
Core42
A tabela a seguir fornece links para exemplos de como usar modelos de Jais.
| Descrição | Linguagem | Amostra |
|---|---|---|
| Azure pacote de inferência de IA para C# | C# | Link |
| Azure pacote de inferência de IA para JavaScript | JavaScript | Link |
| Azure pacote de inferência de IA para Python | Python | Link |
DeepSeek
A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treinamento passo a passo, como linguagem, raciocínio científico e tarefas de codificação, DeepSeek-V3-0324, um modelo de linguagem MoE (Mistura de Especialistas) e muito mais.
A tabela a seguir fornece links para exemplos de como usar modelos DeepSeek.
| Descrição | Linguagem | Amostra |
|---|---|---|
| Azure pacote de inferência de IA para Python | Python | Link |
| Azure pacote de inferência de IA para JavaScript | JavaScript | Link |
| Azure pacote de inferência de IA para C# | C# | Link |
| Azure pacote de inferência de IA para Java | Java | Link |
Meta
Os modelos e ferramentas Meta Llama são uma coleção de modelos de IA generativa e raciocínio de texto e imagem pré-treinados e afinados. O intervalo de meta-modelos é dimensionado para incluir:
- Modelos de linguagem pequenos (SLMs), como os modelos Base e Instruct de 1B e 3B, para inferência no dispositivo e na borda.
- LlMs (modelos de linguagem grande) de tamanho médio, como modelos de base e instrução de 7B, 8B e 70B
- Modelos de alto desempenho, como o Meta Llama 3.1-405B Instruct, para casos de uso de geração de dados sintéticos e destilação.
- Modelos multimodais de alto desempenho, Llama 4 Scout e Llama 4 Maverick, aproveitam uma arquitetura de mistura de especialistas para oferecer desempenho líder do setor na compreensão de textos e imagens.
A tabela a seguir fornece links para exemplos de como usar modelos Meta Llama.
| Descrição | Linguagem | Amostra |
|---|---|---|
| Solicitação CURL | Bash | Link |
| Azure pacote de inferência de IA para C# | C# | Link |
| Azure pacote de inferência de IA para JavaScript | JavaScript | Link |
| Azure pacote de inferência de IA para Python | Python | Link |
| Python solicitações da Web | Python | Link |
| SDK do OpenAI (experimental) | Python | Link |
| LangChain | Python | Link |
| LiteLLM | Python | Link |
Microsoft
Modelos da Microsoft incluem vários grupos de modelos, como modelos MAI, modelos Phi, modelos de IA para a área de saúde e muito mais. Para ver todos os modelos de Microsoft disponíveis, exiba a coleção de modelos Microsoft no portal do Foundry.
A tabela a seguir fornece links para exemplos de como usar modelos Microsoft.
| Descrição | Linguagem | Amostra |
|---|---|---|
| Azure pacote de inferência de IA para C# | C# | Link |
| Azure pacote de inferência de IA para JavaScript | JavaScript | Link |
| Azure pacote de inferência de IA para Python | Python | Link |
| LangChain | Python | Link |
| Llama-Index | Python | Link |
Consulte a coleção de modelos Microsoft no portal do Foundry.
Mistral AI
A IA do Mistral oferece duas categorias de modelos, ou seja:
- Modelos Premium: incluem modelos Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B e estão disponíveis como APIs sem servidor com cobrança baseada em token paga conforme o uso.
- Modelos abertos: incluem Mistral-small-2503, Codestral e Mistral Nemo (que estão disponíveis como APIs sem servidor com cobrança baseada no uso de tokens paga conforme o uso), e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01 (que estão disponíveis para download e execução em endpoints gerenciados e auto-hospedados).
A tabela a seguir fornece links para exemplos de como usar modelos do Mistral.
| Descrição | Linguagem | Amostra |
|---|---|---|
| Solicitação de comando CURL | Bash | Link |
| Azure pacote de inferência de IA para C# | C# | Link |
| Azure pacote de inferência de IA para JavaScript | JavaScript | Link |
| Azure pacote de inferência de IA para Python | Python | Link |
| Requisições Web em Python | Python | Link |
| SDK do OpenAI (experimental) | Python | Exemplo de SDK do Mistral – OpenAI |
| LangChain | Python | Exemplo de Mistral – LangChain |
| Mistral AI | Python | Mistral – Exemplo de IA do Mistral |
| LiteLLM | Python | Exemplo de Mistral – LiteLLM |
Nixtla
O TimeGEN-1 da Nixtla é um modelo gerativo pré-treinado de previsão e detecção de anomalias para dados de séries temporais. O TimeGEN-1 pode produzir previsões precisas para novas séries temporais sem treinamento, usando apenas valores históricos e covariados exógenos como entradas.
Para executar a inferência, o TimeGEN-1 exige que você use a API de inferência personalizada do Nixtla. Para obter mais informações sobre o modelo TimeGEN-1 e suas funcionalidades, consulte Nixtla.
Estimar o número de tokens necessários
Antes de criar uma implantação do TimeGEN-1, é útil estimar o número de tokens que você planeja consumir e pelos quais será cobrado. Um token corresponde a um ponto de dados em seu conjunto de dados de entrada ou conjunto de dados de saída.
Suponha que você tenha o seguinte conjunto de dados de série temporal de entrada:
| Unique_id (ID Único) | Timestamp | Variável de destino | Variável exógena 1 | Variável exógena 2 |
|---|---|---|---|---|
| SER | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253,0 |
| SER | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
Para determinar o número de tokens, multiplique o número de linhas (neste exemplo, duas) e o número de colunas usadas para previsão, sem contar as colunas unique_id e carimbo de data/hora (neste exemplo, três) para obter um total de seis tokens.
Dado o seguinte conjunto de dados de saída:
| Identificador Único | Timestamp | Variável alvo prevista |
|---|---|---|
| SER | 2016-10-22 02:00:00 | 46.57 |
| SER | 2016-10-22 03:00:00 | 48.57 |
Você também pode determinar o número de tokens contando o número de pontos de dados retornados após a previsão de dados. Neste exemplo, o número de tokens é dois.
Estimar preços com base em tokens
Há quatro medidores de preços que determinam o preço que você paga. Esses medidores são os seguintes:
| Medidor de preços | Descrição |
|---|---|
| paygo-inference-input-tokens | Custos associados aos tokens usados como entrada para inferência quando finetune_steps = 0 |
| tokens de saída de inferência paygo | Custos associados aos tokens usados como saída para inferência quando finetune_steps = 0 |
| pagamento modelo aprimorado inferência tokens de entrada | Custos associados aos tokens usados como entrada para inferência quando finetune_steps> 0 |
| paygo-finetuned-model-inference-output-tokens | Custos associados aos tokens usados como saída para inferência quando finetune_steps> 0 |
Consulte a coleção de modelos Nixtla no portal do Foundry.
IA de estabilidade
Modelos de IA de estabilidade implantados por meio da implantação de API sem servidor implementam a API de Inferência de Modelo na rota /image/generations.
Para obter exemplos de como usar modelos de IA de estabilidade, confira os seguintes exemplos:
- Use o SDK do OpenAI com modelos de IA de estabilidade para solicitações de texto em imagem
- Use a biblioteca Requests com os modelos da Stability AI para solicitações de texto para imagem
- Use a biblioteca Requests com Stable Diffusion 3.5 Large para requisições de imagem para imagem
- Example de uma resposta de geração de imagem totalmente codificada
Navegador Gretel
O Gretel Navigator emprega uma arquitetura de IA composta especificamente projetada para dados sintéticos, combinando os principais SLMs (modelos de linguagem de software livre) ajustados em mais de 10 domínios do setor. Esse sistema criado com finalidade cria conjuntos de dados diversos e específicos do domínio em escalas de centenas a milhões de exemplos. O sistema também preserva relações estatísticas complexas e oferece maior velocidade e precisão em comparação com a criação manual de dados.
| Descrição | Linguagem | Amostra |
|---|---|---|
| Azure pacote de inferência de IA para JavaScript | JavaScript | Link |
| Azure pacote de inferência de IA para Python | Python | Link |
Conteúdo relacionado
- Implantar modelos como implantações de API sem servidor
- Explorar modelos de fundição
- Modelos de fundição e suas capacidades
- Disponibilidade de região para modelos em implantações de API sem servidor
- Segurança de conteúdo para modelos vendidos diretamente pela Azure