Modelos de IA generativa
Dica
Consulte a guia Texto e imagens para obter mais detalhes!
A IA generativa e soluções agente são baseadas em modelos de linguagem. Os LLMs (modelos de linguagem grande) formam a base de soluções de IA generativas que podem fornecer uma ampla variedade de respostas. Hoje, existe uma ampla gama de modelos que atendem a necessidades diferentes. Por exemplo, os recursos de IA em um aplicativo de telefone leve podem ser executados melhor em um modelo de linguagem pequeno, enquanto um aplicativo governamental pode exigir um modelo especializado em domínio.
O Microsoft Foundry fornece um ambiente integrado para descobrir, avaliar, implantar e operar modelos de IA generativos. Ele reúne um catálogo de modelos avançado, opções de implantação flexíveis e funcionalidades de governança internas para que as equipes possam criar co-pilotos, agentes e aplicativos habilitados para IA com confiança da empresa.
Observação
Para usar o Microsoft Foundry, você precisa de uma assinatura do Azure. Para utilizar os recursos do Foundry, comece criando um projeto na Foundry. Para obter mais informações, examine Introdução ao Microsoft Foundry.
Descobrir modelos no catálogo de modelos do Foundry
O catálogo de modelos da Foundry é um hub central para descobrir e usar uma ampla seleção de modelos de IA generativos de uma ampla gama de provedores. Na Foundry, você pode filtrar modelos por origem, funcionalidades, tarefas de inferência e muito mais. A Foundry permite que você entenda e compare as funcionalidades do modelo, bem como teste e crie soluções de IA escalonáveis, seguras e responsáveis.
Observação
O portal do Foundry tem uma interface do usuário (interface do usuário) clássica e uma nova interface do usuário. As imagens do portal do Foundry refletem a nova interface do usuário em que ela é relevante.
O catálogo de modelos oferece uma ampla seleção de modelos, incluindo modelos vendidos diretamente pelo Azure ao lado de modelos de parceiros e comunidades de software livre.
Modelos vendidos diretamente pelo Azure: esses modelos são hospedados pela Microsoft nos Termos do Produto da Microsoft. Eles oferecem altos níveis de integração com o Azure, SLAs (contratos de nível de serviço) de nível empresarial, segurança pré-configurada e alinhamento de conformidade.
Modelos de parceiros e da comunidade: inclui modelos de software livre ou hospedados por fornecedores integrados por meio do catálogo. Esses modelos dão suporte a experimentações mais amplas e inovação rápida e geralmente são adequados para tarefas especializadas ou específicas do domínio.
Cada entrada de modelo normalmente inclui:
- Descrições e funcionalidades do modelo (geração de texto, raciocínio, codificação, multimodal, inserções etc.)
- Resultados de benchmark e comparações de desempenho
- Tarefas de inferência com suporte e opções de ajuste fino
- Documentação de IA responsável (fichas de modelo, restrições, advertências)
Famílias de modelos comumente usadas
Entre os mais de mil modelos disponíveis na Foundry, há muitos agrupados por família de modelos. Uma família de modelos refere-se a um grupo de modelos relacionados que compartilham a mesma arquitetura ou linhagem subjacente, mas diferem em tamanho, funcionalidade, especialização ou versão.
Famílias de modelos comumente usadas incluem:
GPT-5.x: otimizado para raciocínio de várias etapas, lógica estruturada, planejamento e fluxos de trabalho agente. Ele funciona bem em cenários que precisam de raciocínio de alta precisão e compreensão de contexto longo, como gerar relatórios técnicos, análise de código ou orquestrar agentes de várias ferramentas. Ele dá suporte a "níveis de pensamento" ajustáveis, permitindo que os desenvolvedores troquem velocidade pela precisão quando necessário.
Claude Opus 4.5 (Antropico): quando você precisa de um modelo de nível de fronteira para agentes sofisticados, raciocínio de código complexo ou tarefas de uso de computador de várias etapas. O Opus 4.5 é descrito como o modelo mais inteligente da Antropic com forte desempenho em codificação, agentes e uso de computador e janelas de contexto/saída grandes, úteis para especificações longas, difusões de vários arquivos ou anotações de pesquisa estendidas.
Mistral Large 3 (IA do Mistral): é um modelo de última geração de uso geral ideal para onde você deseja uma qualidade forte com taxa de transferência eficiente. O modelo funciona bem com rascunhos multilíngues, geração de relatórios de negócios estruturados ou tarefas de agente de latência média que equilibram o custo e o desempenho. O Mistral Large 3 é um modelo geral de "última geração" e faz parte do catálogo selecionado do Foundry, tornando-o uma alternativa prática aos modelos principais quando você deseja alta capacidade com compensações de custo/latência flexíveis.
Observação
Atualmente, o registro é necessário para a família de modelos GPT-5, restringindo sua disponibilidade. Todos os usuários do Foundry podem usar o GPT-4.1, que é ideal para chat em tempo real, suporte ao cliente e aplicativos interativos que devem responder rapidamente e em escala. Ele é otimizado para velocidade, eficiência e inferência com baixa latência, tornando-o melhor do que modelos focados em raciocínio para tarefas de produção em grande escala.
Na Foundry, os modelos fundamentais são modelos grandes e pré-treinados, como GPT, Claude, Mistral e outros, que fornecem capacidades de linguagem geral, raciocínio ou funcionalidades multimodais prontas para uso. Esses modelos podem ser implantados imediatamente ou personalizados por meio de ajuste fino e servem como a camada base para a criação de aplicativos de IA.
Avaliar modelos no Foundry
Escolher o modelo certo no Foundry começa com a compreensão da carga de trabalho, do tipo de tarefa e das restrições.
Selecionar um modelo por tipo de tarefa
| Tarefa | Tipos de modelo recomendados | Detalhes do modelo |
|---|---|---|
| Chat | Chat GPT-5.x, Claude Sonnet/Opus, Mistral-Large-3, DeepSeek V3.1, pequenos modelos de linguagem (SLMs) como Phi-4 ou Llama | Raciocínio forte, ajuste de conversa, segurança |
| Codificação | GPT-5.1-codex, Claude-Sonnet | Suporte para fluxos de agente complexos |
| Resumo | Modelos de raciocínio GPT-5.x, Claude Opus/Sonnet | Compactação de contexto longo de alta qualidade |
| Embeddings | text-embedding-3-small ou outros modelos de inserção | Criado para representações de vetor semântico |
| Multimodal | Phi-4-multimodal-instruct, GPT-5.x chat multimodal, Mistral-Large-3 | Suporte para imagens, áudio e vídeo em conclusões de chat |
| Setor ou domínio específico | Modelos otimizados para o domínio no catálogo | Aplicativos específicos para um setor, como finanças, saúde, jurídico |
Observação
Quando o caso de uso é bem definido, em vez de escolher um modelo no catálogo de modelos, você pode escolher uma ferramenta Foundry. As ferramentas de fundição são alimentadas por modelos predefinidos que fornecem desempenho previsível, conformidade incorporada e rápida geração de valor sem modelagem personalizada.
Avaliar e comparar modelos no Foundry
O catálogo de modelos do Foundry inclui resultados de benchmarking que mostram como os modelos são executados em conjuntos de dados padrão. As pontuações de parâmetro de comparação simplificam a seleção do modelo usando critérios de avaliação consistentes.
Por meio do portal Foundry, você também pode visualizar:
- Tabelas de classificação do modelo: classificam modelos com base em atributos como qualidade, segurança e taxa de transferência. Isso ajuda a identificar o melhor modelo para uma tarefa. Exemplos de tarefas incluem raciocínio, resumo, geração de código.
- Comparações e filtros: comparação de modelo lado a lado por qualidade e precisão, custo, segurança e conformidade e métricas de desempenho. Você pode filtrar por setor, caso de uso, tipo de modelo, licenciamento e muito mais.
Uma maneira comum que você pode avaliar é iniciar no catálogo de modelos do Foundry, escolher um modelo e selecionar Benchmarks → Experimentar com seus próprios dados. Você pode experimentar os prompts e ver se as respostas são as esperadas.
Há várias maneiras de pontuar um modelo no portal do Foundry, incluindo métricas de NLP (Processamento de Linguagem Natural) e métricas de qualidade assistidas por IA. Exemplos de métricas clássicas de qualidade NLP são: acurácia, precisão, revocação e F1. Exemplos de métricas assistidas por IA incluem aterramento, relevância, coerência e fluência e similaridade de GPT. Escolha métricas assistidas por IA para pontuação qualitativa além das métricas tradicionais.
Na Foundry, os avaliadores são componentes usados para medir a qualidade, a segurança e a eficácia das saídas de modelo ou agente de IA. Por exemplo, os avaliadores de segurança podem ser usados para garantir a saída responsável da IA. Eles verificam conteúdo prejudicial ou inseguro, preconceito e injustiça, violência, automutilação ou danos à classe protegida. A Biblioteca de Avaliadores da Foundry oferece avaliadores reutilizáveis para pontuação de qualidade, verificação de segurança e muito mais.
Observação
Por conta própria, os avaliadores do Foundry detectam, verificam e pontuam problemas, mas não os resolvem ativamente.
Desdobrar modelos no ambiente Foundry
Depois de selecionar um modelo, o Foundry fornece mecanismos de implantação flexíveis que permitem personalizar o desempenho, o custo e a governança. A implantação de um modelo usa um modelo de IA e o disponibiliza para uso em produção por meio de um ponto de extremidade estável, escalonável e seguro. A implantação de um modelo configurado transforma o modelo em um serviço que os aplicativos podem chamar, geralmente por meio de uma API. Implantar um modelo configurado ajuda a garantir o desempenho e a confiabilidade consistentes. Ele também permite que os desenvolvedores impeçam o uso não autorizado ou não seguro.
Os parâmetros de implantação que você pode personalizar na Foundry incluem:
- Tipo de implantação: como padrão, lote global e taxa de transferência provisionada regional, determinam onde e como a inferência é processada no Foundry. Os tipos de implantação estão vinculados aos requisitos de taxa de transferência e processamento de dados.
- Versão do modelo
- Limite de taxa de tokens por minuto (TPM)
Observação
Um token é a menor unidade de texto ou dados que um modelo de IA gerativo pode processar. Os modelos dividem a entrada em tokens, como palavras, sub palavras, caracteres ou pontuação, para que possam entender e gerar idioma com eficiência.
Ao implantar um modelo, você pode atribuir a ele uma alocação de Tokens por Minuto (TPM). O TPM determina a velocidade e a escala com que o modelo pode processar entradas e os limites de taxa, como requisições por minuto (RPM). Quando atribui uma alocação de TPM mais alta a uma implantação de modelo, você está aumentando sua capacidade de lidar com o tráfego de tokens por minuto. O TPM inferior reduz a velocidade com que sua implantação tem permissão para consumir tokens entre solicitações.
Os limites diferem por família de modelos, por exemplo:
- Modelos de raciocínio de ponta (por exemplo: DeepSeek R1, Grok, grandes versões do Llama) podem ter limites de TPM elevados.
- Modelos especializados ou de imagem geralmente operam em unidades de capacidade em vez de TPM.
Limitação, em um contexto de computação, significa intencionalmente reduzir ou limitar a quantidade de trabalho de computação que pode ocorrer simultaneamente. É um mecanismo de proteção usado quando um sistema está perto de atingir seus limites de processamento. A limitação restringe temporariamente o uso de recursos para que o sistema possa permanecer estável e responsivo.
As cotas de nível de implantação definem quantos tokens ou solicitações podem ser processados antes da limitação ocorrer. Prompts maiores e configurações de token de saída máxima mais altas consomem mais TPM, levando a erros de limite de taxa se excedidos (abordado em resultados de pesquisa da descrição de limitação). Caso você veja uma limitação de velocidade, diminua o máximo de tokens ou reduza as solicitações simultâneas no código.
Quando você implanta um modelo na Foundry, várias coisas ocorrem:
- Os recursos de computação são alocados: a Foundry atribui o hardware necessário para executar o modelo — CPUs, GPUs, memória, rede e regras de dimensionamento.
- Um endpoint de API é criado: você pode invocar com segurança o modelo por meio da API de Respostas OpenAI, validada por meio de verificações de API de gerenciamento.
- A configuração (como versão do modelo, estilo de resposta, configurações de segurança) está bloqueada
- Monitoramento e log são ativados: as métricas de uso, o desempenho, a latência, os erros e os custos são acompanhados.
Em seguida, saiba como configurar esses modelos no playground do portal do Foundry e usá-los em um aplicativo cliente.