Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Aplica-se apenas a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal da Foundry.
Saiba mais sobre o novo portal.
Nota
Os links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação do Foundry (clássico) que está a ver agora.
O catálogo de modelos Foundry oferece uma grande seleção de modelos Microsoft Foundry de uma vasta gama de fornecedores. Tens várias opções para implementar modelos do catálogo de modelos. Este artigo lista exemplos de inferência para implementações de APIs serverless.
Importante
Os modelos que estão em pré-visualização são marcados como pré-visualização nos seus cartões de modelos no catálogo de modelos.
Para realizar inferências com os modelos, alguns modelos como o TimeGEN-1 da Nixtla e o Cohere Rerank exigem que utilize APIs personalizadas dos fornecedores de modelos. Outros suportam inferência usando a Model Inference API. Pode encontrar mais detalhes sobre modelos individuais ao rever os seus cartões de modelos no catálogo de modelos do portal Foundry.
Cohere
A família de modelos Cohere inclui vários modelos otimizados para diferentes casos de uso, incluindo modelos de reclassificação, completação de chat e embeddings.
Exemplos de inferência: "Cohere command" e "embed"
A tabela seguinte fornece ligações para exemplos de como usar modelos Cohere.
| Descrição | Linguagem | Exemplo |
|---|---|---|
| Pedidos web | Bash |
Comando-RComando-R+ cohere-embed.ipynb |
| Azure AI Inference package for C# | C# | Link |
| Azure AI Inference package for JavaScript | JavaScript | Link |
| Pacote Azure AI Inference para Python | Python | Link |
| OpenAI SDK (experimental) | Python | Link |
| LangChain | Python | Link |
| Cohere SDK | Python |
Comando Embed |
| LiteLLM SDK | Python | Link |
Geração Aumentada de Recuperação (RAG) e exemplos de uso de ferramentas: comando Cohere e embed
| Descrição | Pacotes | Exemplo |
|---|---|---|
| Crie um índice vetorial local de pesquisa por similaridade IA (FAISS) no Facebook, usando embeddings Cohere - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial local FAISS - Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial de pesquisa de IA - Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Use o Cohere Command R/R+ para responder a perguntas de dados no índice vetorial de pesquisa de IA - Cohere SDK |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| Chamada de ferramenta/função de comando R+, usando LangChain |
cohere, langchain, langchain_cohere |
command_tools-langchain.ipynb |
Reclassificação do Cohere
Para realizar inferências com modelos de reclassificação do Cohere, é obrigatório usar as APIs personalizadas de reclassificação do Cohere. Para mais informações sobre o modelo de reclassificação Cohere e as suas capacidades, veja Cohere rerank.
Preços para os modelos de reclassificação da Cohere
As consultas, que não devem ser confundidas com a consulta de um utilizador, são um medidor de preços que se refere ao custo associado aos tokens usados como entrada para inferir um modelo Cohere Rerank. O Cohere conta uma única unidade de pesquisa como uma consulta com até 100 documentos a classificar. Documentos com mais de 500 tokens (para Cohere-rerank-v3.5) ou com mais de 4096 tokens (para Cohere-rerank-v3-English e Cohere-rerank-v3-multilingue), ao incluir o comprimento da consulta de pesquisa, são divididos em múltiplos blocos, onde cada bloco conta como um único documento.
Consulte a coleção de modelos Cohere no portal Foundry.
Core42
A tabela seguinte fornece links para exemplos de como usar modelos Jais.
| Descrição | Linguagem | Exemplo |
|---|---|---|
| Pacote Azure AI Inference para C# | C# | Link |
| Pacote de Inferência da Azure AI para JavaScript | JavaScript | Link |
| Pacote Azure AI Inference para Python | Python | Link |
DeepSeek
A família de modelos DeepSeek inclui o DeepSeek-R1, que se destaca em tarefas de raciocínio usando um processo de treino passo a passo, como tarefas de linguagem, raciocínio científico e programação, DeepSeek-V3-0324, um modelo de linguagem Mixture-of-Experts (MoE), entre outros.
A tabela seguinte fornece ligações para exemplos de como utilizar modelos DeepSeek.
| Descrição | Linguagem | Exemplo |
|---|---|---|
| Pacote Azure AI Inference para Python | Python | Link |
| Azure AI Inference package for JavaScript | JavaScript | Link |
| Azure AI Inference package for C# | C# | Link |
| Pacote de Inference Azure AI para Java | Java | Link |
Meta
Os modelos e ferramentas Meta Llama são uma coleção de modelos de raciocínio em texto e imagem generativos de IA pré-treinados e afinados. A gama de modelos Meta é escalável para incluir:
- Pequenos modelos de linguagem (SLMs), como os modelos 1B e 3B Base e Instruct, para inferência em dispositivos locais e na periferia da rede.
- Modelos de linguagem de tamanho médio e grande (LLMs) como os modelos Base e Instruct 7B, 8B e 70B
- Modelos de alto rendimento, como o Meta Llama 3.1-405B Instruct, para geração de dados sintéticos e casos de destilação.
- Modelos de alto desempenho nativos e multimodais, Llama 4 Scout e Llama 4 Maverick, utilizam uma arquitetura de mistura de especialistas para oferecer um desempenho líder de mercado na compreensão de texto e imagem.
A tabela seguinte fornece links para exemplos de como usar modelos Meta Llama.
| Descrição | Linguagem | Exemplo |
|---|---|---|
| Pedido CURL | Bash | Link |
| Pacote de inferência do Azure AI para C# | C# | Link |
| Pacote de Inferência de Azure AI para JavaScript | JavaScript | Link |
| Pacote Azure AI Inference para Python | Python | Link |
| Pedidos web em Python | Python | Link |
| OpenAI SDK (experimental) | Python | Link |
| LangChain | Python | Link |
| LiteLLM | Python | Link |
Microsoft
Os modelos da Microsoft incluem vários grupos de modelos, como modelos MAI, modelos Phi, modelos de IA para a saúde e outros. Para ver todos os modelos de Microsoft disponíveis, consulte a coleção de modelos Microsoft no portal Foundry.
A tabela seguinte fornece ligações para exemplos de como usar modelos da Microsoft.
| Descrição | Linguagem | Exemplo |
|---|---|---|
| pacote Azure AI Inference para C# | C# | Link |
| Pacote de Inferência do Azure AI para JavaScript | JavaScript | Link |
| Pacote Azure AI Inference para Python | Python | Link |
| LangChain | Python | Link |
| Llama-Index | Python | Link |
Consulte a coleção de modelos da Microsoft no portal Foundry.
Mistral AI
A Mistral AI oferece duas categorias de modelos, nomeadamente:
- Modelos premium: Incluem Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) e Ministral 3B, e estão disponíveis como APIs serverless com faturação baseada em tokens pay-as-you-go.
- Modelos abertos: Estes incluem Mistral-small-2503, Codestral e Mistral Nemo (disponíveis como APIs serverless com faturação baseada em tokens pay-as-you-go), e Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 e Mistral-7B-v01 (disponíveis para download e execução em endpoints geridos auto-hospedados).
A tabela seguinte fornece links para exemplos de como utilizar modelos de Mistral.
| Descrição | Linguagem | Exemplo |
|---|---|---|
| Pedido CURL | Bash | Link |
| Azure AI Inference package for C# | C# | Link |
| Pacote de Inferência do Azure AI para JavaScript | JavaScript | Link |
| Pacote Azure AI Inference para Python | Python | Link |
| Pedidos web em Python | Python | Link |
| OpenAI SDK (experimental) | Python | Mistral - Exemplo do SDK OpenAI |
| LangChain | Python | Mistral - Amostra LangChain |
| Mistral AI | Python | Mistral - Amostra de IA Mistral |
| LiteLLM | Python | Mistral - Exemplo LiteLLM |
Nixtla
O TimeGEN-1 da Nixtla é um modelo generativo pré-treinado de previsão e deteção de anomalias para dados de séries temporais. O TimeGEN-1 pode produzir previsões precisas para novas séries temporais sem treino, usando apenas valores históricos e covariáveis exógenas como entradas.
Para realizar inferências, o TimeGEN-1 exige que utilize a API de inferência personalizada da Nixtla. Para mais informações sobre o modelo TimeGEN-1 e as suas capacidades, consulte Nixtla.
Estima o número de tokens necessários
Antes de criar uma implementação TimeGEN-1, é útil estimar o número de tokens que planeia consumir e pelos quais será faturado. Um token corresponde a um ponto de dados no seu conjunto de dados de entrada ou de saída.
Suponha que tem o seguinte conjunto de dados de séries temporais de entrada:
| Unique_id | Carimbo temporal | Variável-alvo | Variável Exógena 1 | Variável Exógena 2 |
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
Para determinar o número de tokens, multiplique o número de linhas (neste exemplo, duas) e o número de colunas usadas para previsão — sem contar as colunas de unique_id e de carimbo temporal (neste exemplo, três) para obter um total de seis tokens.
Dado o seguinte conjunto de dados de saída:
| ID único | Carimbo temporal | Variável-alvo prevista |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
Também pode determinar o número de tokens contando o número de pontos de dados devolvidos após a previsão de dados. Neste exemplo, o número de tokens é dois.
Estimar preços com base em tokens
Existem quatro medidores de preços que determinam o preço que paga. Estes medidores são os seguintes:
| Medidor de Preços | Descrição |
|---|---|
| Elementos de entrada para inferências em sistemas paygo | Custos associados aos tokens usados como entrada para inferência quando finetune_steps = 0 |
| tokens de saída de inferência paygo | Custos associados aos tokens usados como saída para inferência quando finetune_steps = 0 |
| paygo-finetuned-model-inference-input-tokens | Custos associados aos tokens usados como entrada para inferência quando finetune_steps> 0 |
| paygo-modelo-ajustado-inferência-saída-tokens | Custos associados aos tokens usados como saída para inferência quando finetune_steps> 0 |
Consulte a coleção de modelos Nixtla no portal Foundry.
Stability AI
Os modelos de IA da Stability implementados através de APIs serverless utilizam a API de Inferência de Modelos na rota /image/generations.
Para exemplos de como utilizar modelos de IA de Estabilidade, veja os seguintes exemplos:
- Utiliza o SDK da OpenAI com modelos da Stability AI para pedidos de transformação de texto em imagem
- Use a biblioteca Requests com modelos da Stability AI para pedidos de conversão de texto em imagem
- Utilizar a biblioteca Requests com o Stable Diffusion 3.5 Large para solicitações de imagem-para-imagem
- Exemplo de uma resposta de geração de imagem totalmente codificada
Gretel Navigator
O Gretel Navigator emprega uma arquitetura composta de IA especificamente concebida para dados sintéticos, combinando os melhores modelos de linguagem pequena (SLMs) open-source, afinados em mais de 10 domínios industriais. Este sistema criado de raiz cria conjuntos de dados diversos e específicos de domínio, em escalas de centenas a milhões de exemplos. O sistema também preserva relações estatísticas complexas e oferece maior velocidade e precisão em comparação com a criação manual de dados.
| Descrição | Linguagem | Exemplo |
|---|---|---|
| Azure AI Inference package for JavaScript | JavaScript | Link |
| Pacote Azure AI Inference para Python | Python | Link |
Conteúdo relacionado
- Modelos de implementação como implementações de APIs serverless
- Explore Modelos de Fundição
- Modelos de Fundição e as suas capacidades
- Disponibilidade regional para modelos em implementações de APIs serverless
- Segurança de conteúdo para modelos vendidos diretamente pela Azure