Classificações de modelo no portal Microsoft Foundry (prévia)

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Os rankings de modelos (versão preliminar) no portal do Foundry ajudam você a comparar modelos no catálogo de modelos do Foundry usando benchmarks de modelos padrão do setor.

Para começar, compare e selecione modelos usando o ranking de modelos no portal Foundry.

Você pode revisar a metodologia detalhada de benchmarking para cada categoria de ranking.

Benchmark de qualidade de modelos de linguagem para entender o desempenho dos modelos em tarefas essenciais, incluindo raciocínio, conhecimento, resposta a perguntas, matemática e codificação.
Parâmetro de Comparação de Segurança de modelos de linguagem para entender o quão seguros eles são contra a geração de comportamentos prejudiciais.
Benchmarking de desempenho de modelos de linguagem para entender como os modelos são executados em termos de latência e taxa de transferência.
Parâmetro de comparação de custos de modelos de linguagem para entender o custo estimado do uso de modelos.
Benchmarking do placar de líderes de cenários de modelos de linguagem para ajudá-lo a encontrar o melhor modelo para seu caso de uso específico ou cenário.
Benchmarking de qualidade de modelos de inserção para entender o desempenho dos modelos em tarefas baseadas em inserção, incluindo pesquisa e recuperação.

Ao encontrar um modelo adequado, você pode abrir seus resultados detalhados de benchmarking no catálogo de modelos. A partir daí, você pode implantar o modelo, experimentá-lo no playground ou avaliá-lo em seus próprios dados. As classificações dão suporte a parâmetros de comparação para modelos de linguagem de texto, incluindo modelos de linguagem grandes (LLMs) e pequenos modelos de linguagem (SLMs), e modelos de inserção.

Os benchmarks de modelos avaliam LLMs e SLMs em termos de qualidade, segurança, custo e taxa de transferência. Os modelos de inserção são avaliados usando parâmetros de comparação de qualidade padrão. Os placares de líderes são atualizados à medida que novos modelos e conjuntos de dados de parâmetro de comparação ficam disponíveis.

Escopo de benchmarking de modelo

As classificações de modelos apresentam uma seleção curada de modelos de linguagem baseados em texto do catálogo de modelos do Foundry. Os modelos são incluídos com base nos seguintes critérios:

Azure Modelos Diretos priorizados: Azure Modelos Diretos são selecionados para relevância para cenários comuns de IA generativa.
Aplicabilidade de parâmetro de comparação principal: os modelos devem dar suporte a tarefas de linguagem de uso geral, como raciocínio, conhecimento, resposta a perguntas, raciocínio matemático e codificação. Não há suporte para modelos especializados (por exemplo, enovelamento de proteínas ou QA específico do domínio) e outras modalidades.

Esse escopo garante que os rankings reflitam modelos atuais e de alta qualidade relevantes para cenários principais de IA.

Interpretar os resultados da tabela de classificação

As tabelas de classificação ajudam você a comparar modelos em várias dimensões para que possa escolher o modelo certo para sua aplicação. Aqui estão algumas diretrizes para interpretar os resultados:

Índice de qualidade: um índice de qualidade mais alto indica um desempenho geral mais forte nas tarefas de raciocínio, codificação, matemática e conhecimento. Compare o índice de qualidade entre modelos para identificar os principais desempenhos para tarefas de linguagem de uso geral.
Pontuações de segurança: taxas de sucesso de ataque mais baixas indicam modelos mais robustos. Considere as pontuações de segurança juntamente com as pontuações de qualidade, especialmente para aplicativos voltados para o cliente, em que a saída prejudicial é uma preocupação significativa.
Compensações de desempenho: use as métricas de latência e taxa de transferência para entender a capacidade de resposta real de um modelo. Um modelo com alta qualidade, mas alta latência, pode não atender a aplicativos em tempo real.
Considerações de custo: a métrica de custo estimada usa uma taxa de token de entrada para saída de três para um. Ajuste suas expectativas com base na taxa de entrada e saída da carga de trabalho real.
Classificação de Cenário: se o seu caso de uso estiver associado a um cenário específico (por exemplo, codificação ou matemática), comece com a classificação de cenário para identificar modelos otimizados para essa tarefa ao invés de se basear apenas no índice de qualidade geral.

Dica

Benchmarks de tabela de classificação oferecem comparações padronizadas entre modelos usando conjuntos de dados públicos. Para avaliar o desempenho do modelo em seus dados específicos e caso de uso, consulte Avaliar seus aplicativos de IA generativos.

Parâmetros de comparação de qualidade de modelos de linguagem

A Foundry avalia a qualidade de LLMs e SLMs usando pontuações de precisão de conjuntos de dados de benchmark padrão que medem recursos de raciocínio, conhecimento, resposta a perguntas, matemática e codificação.

Índice	Descrição
Índice de qualidade	Calculado pela média de pontuações de precisão aplicáveis (`exact_match`, `pass@1`, `arena_hard`) em conjuntos de dados de parâmetro de comparação.

Os valores de índice de qualidade variam de zero a um, em que valores mais altos indicam melhor desempenho. Os conjuntos de dados incluídos no índice de qualidade são:

Nome do conjunto de dados	Categoria
bigbench_hard (reduzido para 1.000 exemplos)	Raciocínio
chembench	Química
frontierscience	Raciocínio científico
gpqa	controle de qualidade
mbppplus	Codificação
mmlu_pro (reduzido para 1.000 exemplos)	Conhecimento geral
musr	Raciocínio
tau2_telecom	Seleção de chamadas por agente e por ferramenta

Veja mais detalhes em pontuações de precisão:

Métrica Descrição

Precisão As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é exact_match em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma pass@1 métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, relatando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A pass@1 métrica mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.

Métrica	Descrição
Precisão	As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é `exact_match` em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma `pass@1` métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, relatando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A `pass@1` métrica mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo.

As pontuações de precisão variam de zero a um, em que valores mais altos são melhores.

Parâmetros de comparação de segurança de modelos de linguagem

Os parâmetros de comparação de segurança são selecionados por meio de um processo estruturado de filtragem e validação projetado para garantir relevância e rigor. Um parâmetro de comparação se qualifica para integração se ele resolver riscos de alta prioridade. As classificações de segurança incluem parâmetros de referência confiáveis o suficiente para fornecer sinais significativos sobre tópicos de interesse em relação à segurança. Os placares de líderes utilizam HarmBench para avaliar a segurança do modelo, e organizam os placares de líderes de cenário da seguinte maneira:

Nome do conjunto de dados	Cenário de Tabela de Classificação	Métrica	Interpretação
HarmBench (standard)	Comportamentos nocivos padrão	Taxa de sucesso de ataque	Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo nocivo padrão
HarmBench (contextual)	Comportamentos contextualmente prejudiciais	Taxa de sucesso de ataque	Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo contextualmente prejudicial
HarmBench (violações de direitos autorais)	Violações de direitos autorais	Taxa de sucesso de ataque	Valores mais baixos indicam robustez mais forte contra violações de direitos autorais
WMDP	Conhecimento em domínios confidenciais	Precisão	Valores mais altos indicam maior conhecimento em domínios confidenciais
Toxigen	Detecção de conteúdo tóxico	F1_score	Valores mais altos indicam melhor desempenho de detecção

Detecção de comportamento prejudicial

O parâmetro de comparação HarmBench mede comportamentos prejudiciais usando prompts projetados para provocar respostas não seguras. Ele abrange sete categorias semânticas:

Crimes cibernéticos e intrusão não autorizada
Armas químicas e biológicas ou drogas
Violações de direitos autorais
Informação incorreta e desinformação
Assédio e intimidação
Atividades ilegais
Dano geral

Essas categorias são agrupadas em três áreas funcionais:

Comportamentos nocivos padrão
Comportamentos contextualmente prejudiciais
Violações de direitos autorais

Cada categoria funcional é destacada em um ranking de cenário distinto. A avaliação utiliza solicitações diretas do HarmBench (sem ataques) e avaliadores do HarmBench para calcular a Taxa de Sucesso de Ataque (ASR). Valores asr mais baixos significam modelos mais seguros. Nenhuma estratégia de ataque é usada para avaliação, e a comparação de modelos é realizada com os Guardrails do Foundry (anteriormente filtros de conteúdo) desativados.

Detecção de conteúdo tóxico

Toxigen é um conjunto de dados em grande escala para detectar discursos de ódio implícitos e adversários. Inclui sentenças implicitamente tóxicas e benignas que fazem referência a 13 grupos minoritários. O Foundry usa exemplos anotados do Toxigen e calcula medidas f para avaliar o desempenho da classificação. Pontuações mais altas indicam melhor detecção de conteúdo tóxico. O benchmark é realizado com os Guardrails do Foundry (anteriormente filtros de conteúdo) desativados.

Conhecimento de domínio confidencial

O modelo de referência de WMDP (Armas de Destruição em Massa por Procuração) mede o conhecimento em domínios sensíveis, incluindo biossegurança, cibersegurança e segurança química. A classificação usa as médias das pontuações de precisão em segurança cibernética, biossegurança e segurança química. Uma pontuação de precisão de WMDP mais alta indica mais conhecimento de funcionalidades perigosas (pior comportamento do ponto de vista de segurança). O benchmarking de modelo é executado com os Foundry Guardrails padrão (anteriormente filtros de conteúdo) ativados. Esses guardrails detectam e bloqueiam danos de conteúdo em violência, automutilação, sexual, ódio e injustiça, mas não visam categorias em segurança cibernética, biossegurança e segurança química.

Limitações dos parâmetros de comparação de segurança

Segurança é um tópico complexo com várias dimensões. Nenhum parâmetro de comparação de software livre pode testar ou representar a segurança total de um sistema em todos os cenários. Além disso, muitos parâmetros de comparação sofrem de saturação ou desalinhamento entre design de parâmetro de comparação e definição de risco. Alguns parâmetros de comparação também não têm documentação clara sobre como os riscos de destino são conceituados e operacionalizados, dificultando a avaliação de se os resultados capturam com precisão as nuances dos riscos do mundo real. Essas limitações podem levar à superestimação ou à subestimação do desempenho do modelo em cenários de segurança do mundo real.

Parâmetros de comparação de desempenho de modelos de linguagem

As métricas de desempenho são agregadas ao longo de 14 dias usando 24 avaliações por dia, com duas solicitações por avaliação enviadas em intervalos de uma hora. A menos que observado de outra forma, os seguintes parâmetros padrão se aplicam a implantações de API sem servidor e Azure OpenAI:

Parâmetro	Valor	Aplicável para
Região	Leste EUA/Leste EUA2	Implantações de API sem servidor e Azure OpenAI
Limite de taxa de tokens por minuto (TPM)	30 mil (180 RPM com base em Azure OpenAI) para modelos que não envolvem raciocínio e 100 mil para modelos que fazem uso de raciocínio N/A (implantações de API sem servidor)	Para modelos do OpenAI do Azure, a seleção está disponível para usuários com intervalos de limite de taxa com base no tipo de implantação (API sem servidor, global, padrão global etc.). Para implantações de API sem servidor, essa configuração é abstraida.
Número de solicitações	Duas requisições em um teste por hora (24 testes por dia)	Implantações de API sem servidor, Azure OpenAI
Número de tentativas/iterações	14 dias com 24 avaliações por dia, totalizando 336 execuções	Implantações de API sem servidor, Azure OpenAI
Comprimento do prompt/contexto	Comprimento moderado	Implantações de API sem servidor, Azure OpenAI
Número de tokens processados (moderado)	Taxa de 80:20 para tokens de entrada para saída, ou seja, 800 tokens de entrada para 200 tokens de saída.	Implantações de API sem servidor, Azure OpenAI
Número de solicitações simultâneas	Uma (as solicitações são enviadas sequencialmente uma após a outra)	Implantações de API sem servidor, Azure OpenAI
Dados	Sintético (prompts de entrada preparados a partir de texto estático)	Implantações de API sem servidor, Azure OpenAI
Tipo de implantação	API sem servidor	Aplicável somente para Azure OpenAI
Streaming	Verdade	Aplica-se a implantações de API sem servidor e Azure OpenAI. Para modelos implantados por meio de computação gerenciada ou para pontos de extremidade quando não há suporte para streaming, o TTFT é representado como P50 da métrica de latência.
SKU	Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, 64 GB de armazenamento)	Aplicável somente para Computação Gerenciada (para estimar as métricas de custo e desempenho)

O desempenho de LLMs e SLMs é avaliado nas seguintes métricas:

Métrica	Descrição
Média de latência	Tempo médio em segundos para processar uma solicitação, computada em várias solicitações. Uma solicitação é enviada ao ponto de extremidade a cada hora durante duas semanas e a média é computada.
Latência P50	Latência mediana (50º percentil). 50% de solicitações concluídas neste momento.
Latência P90	Latência do 90º percentil. 90% de solicitações concluídas neste momento.
Latência P95	Latência do 95º percentil 95% de solicitações concluídas neste momento.
Latência P99	Latência do 99º percentil. 99% de solicitações concluídas neste momento.
Taxa de transferência GTPS	Tokens gerados por segundo (GTPS) é o número de tokens de saída gerados por segundo a partir do momento em que a solicitação é enviada ao ponto de extremidade.
TTPS de taxa de transferência	Total de tokens por segundo (TTPS) é o número total de tokens processados por segundo, incluindo os tokens de entrada e os tokens de saída gerados. Para modelos que não dão suporte ao streaming, o tempo para o primeiro token (ttft) representa o valor P50 de latência (tempo necessário para receber a resposta)
Latência TTFT	O tempo total até o primeiro token (TTFT) é o tempo necessário para que o primeiro token na resposta seja retornado do endpoint quando o streaming estiver habilitado.
Tempo entre tokens	Essa métrica é o tempo entre os tokens recebidos.

O Foundry resume o desempenho usando:

Métrica	Descrição
Latência	Tempo médio até o primeiro token. Mais baixo é melhor.
Produtividade	Tokens médios gerados por segundo. Mais alto é melhor.

Para métricas de desempenho, como latência ou taxa de transferência, o tempo para o primeiro token e os tokens gerados por segundo dão uma melhor noção geral do desempenho e comportamento típicos do modelo. Os números de desempenho são atualizados periodicamente para refletir as configurações de implantação mais recentes.

Parâmetros de comparação de custo de modelos de linguagem

Os parâmetros de comparação de custo medem o custo real para executar cada modelo nos conjuntos de dados de parâmetro de comparação de qualidade, em vez de um custo estimado com base no preço do token.

O custo de parâmetro de comparação é calculado usando:

Número real de tokens de entrada, raciocínio e saída consumidos durante a execução do benchmark.
Configuração de esforço de raciocínio específica do modelo usada para avaliação (normalmente high ou xhigh).
Características e complexidade do conjunto de dados, que afetam o uso e o runtime do token.

Ao contrário das estimativas baseadas em uma relação fixa de tokens, essa abordagem reflete o verdadeiro custo total da execução dos benchmarks de cargas de trabalho.

Como interpretar os resultados de custo

O custo é relatado em USD por execução de benchmark nos conjuntos de dados de qualidade padrão.
Os valores representam o custo real de execução e permitem a comparação direta entre modelos.
Valores mais baixos indicam um desempenho mais econômico no pacote de parâmetros de comparação.

Benchmarking do placar de líderes do cenário

Classificações de cenários agrupam conjuntos de dados de benchmark por objetivos comuns de avaliação do mundo real. Você pode identificar rapidamente os pontos fortes e fracos de um modelo por caso de uso. Cada cenário agrega um ou mais conjuntos de dados de benchmark públicos.

Use a tabela a seguir para encontrar seu caso de uso na coluna Cenário e, em seguida, examine os conjuntos de dados de parâmetro de comparação associados e o que os resultados indicam. A tabela a seguir resume os rankings de cenário disponíveis e seus conjuntos de dados associados e descrições:

Cenário	Conjuntos de Dados	Descrição
Comportamento nocivo padrão	HarmBench (padrão)	Taxa de sucesso de ataques a prompts prejudiciais padrão. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Comportamento contextualmente nocivo	HarmBench (contextual)	Taxa de sucesso de ataques com base em prompts prejudiciais contextuais. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Violações de direitos autorais	HarmBench (direitos autorais)	Taxa de sucesso de ataques para prompts de violação de direitos autorais. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial.
Conhecimento em domínios confidenciais	WMDP (biossegurança, segurança química, segurança cibernética)	Precisão em três subconjuntos de domínio confidenciais. Maior precisão indica mais conhecimento de capacidades sensíveis. Consulte conhecimento de domínio confidencial.
Detecção de toxicidade	ToxiGen (anotado)	Pontuação F1 para capacidade de detecção de conteúdo tóxico. Mais alto é melhor. Consulte a detecção de conteúdo tóxico.
Raciocínio	BIG-Bench Hard (1000 subamostras)	Avaliação de recursos de raciocínio. Valores mais altos são melhores.
Codificação	BigCodeBench (instrução), LiveBench (codificação), LiveCodeBench médio MBPPPlus	Mede a precisão em tarefas relacionadas ao código. Valores mais altos são melhores.
Conhecimento geral	MMLU-Pro (subamostra de 1K em inglês)	1.000 subsample somente em inglês de MMLU-Pro.
Perguntas e respostas	Arena-Hard, GPQA (diamante)	QA de preferência humana adversária (Arena-Hard) e QA de nível de pós-graduação multidisciplina (diamante GPQA). Valores mais altos são melhores.
Matemática	MATH (500 subamostras)	Mede os recursos de raciocínio matemático de modelos de linguagem. Valores mais altos são melhores.
Estabilidade	TrueQA (MC1)	Avaliação de fundamentação/veracidade de múltipla escolha dos modelos de linguagem. Valores mais altos são melhores.

Parâmetros de comparação de qualidade de modelos de inserção

O índice de qualidade dos modelos de incorporação é definido como as pontuações médias de precisão de um conjunto abrangente de conjuntos de dados de benchmark de API sem servidor direcionados a tarefas de Recuperação de Informações, Clustering de Documentos e Sumarização.

Métrica	Descrição
Precisão	A precisão é a proporção de previsões corretas entre o número total de previsões processadas.
F1_score	F1 Score é a média ponderada da precisão e recall, onde o melhor valor é um (precisão perfeita e recall), e o pior é zero.
Precisão Média (MAP)	O MAP avalia a qualidade dos sistemas de classificação e de recomendação. Ele mede tanto a relevância dos itens sugeridos quanto o quão bom o sistema é em colocar itens mais relevantes na parte superior. Os valores podem variar de zero a um e, quanto maior o MAP, melhor o sistema pode colocar itens relevantes no alto da lista.
Ganho cumulativo com desconto normalizado (NDCG)	O NDCG avalia a capacidade de um algoritmo de machine learning de classificar itens com base na relevância. Ele compara classificações a uma ordem ideal em que todos os itens relevantes estão no topo da lista, onde k é o comprimento da lista ao avaliar a qualidade da classificação. Nesses parâmetros de comparação, k=10, indicado por uma métrica de `ndcg_at_10`, o que significa que os 10 principais itens são avaliados.
Precisão	A precisão mede a capacidade do modelo de identificar instâncias de uma determinada classe corretamente. A precisão mostra a frequência com que um modelo de machine learning está correto ao prever a classe de destino.
Correlação de Spearman	A correlação de Spearman baseada na similaridade de cosseno é calculada primeiro calculando a similaridade de cosseno entre variáveis, depois classificando essas pontuações e usando as classificações para calcular a correlação de Spearman.
Medida V	A medida V é uma métrica usada para avaliar a qualidade do clustering. A medida V é calculada como uma média harmônica de homogeneidade e completude, garantindo um equilíbrio entre os dois para um valor significativo. As pontuações possíveis ficam entre zero e um, sendo um a rotulagem perfeitamente completa.

Cálculo de pontuações

Pontuações individuais

Os resultados de parâmetro de comparação são provenientes de conjuntos de dados públicos que geralmente são usados para avaliação do modelo de linguagem. Na maioria dos casos, os dados são hospedados em GitHub repositórios mantidos pelos criadores ou curadores dos dados. Os pipelines de avaliação do Foundry baixam dados das respectivas fontes originais, extraem prompts de cada linha de exemplo, geram respostas de modelo e computam métricas de precisão relevantes.

A construção do prompt segue as melhores práticas para cada conjunto de dados, conforme especificado no artigo que apresenta o conjunto de dados e nos padrões da indústria. Na maioria dos casos, cada prompt contém vários shots, ou seja, vários exemplos de perguntas e respostas completas para aprimorar o modelo para a tarefa. O número de capturas varia de acordo com o conjunto de dados e segue a metodologia especificada na publicação original de cada conjunto de dados. Os pipelines de avaliação criam amostras ao selecionar perguntas e respostas de uma parte dos dados reservada para a avaliação.

Limitações de parâmetro de comparação

Todos os parâmetros de comparação têm limitações inerentes que você deve considerar ao interpretar os resultados:

Parâmetros de comparação de qualidade: os conjuntos de dados de benchmark podem ficar saturados ao longo do tempo à medida que os modelos são treinados ou ajustados em dados semelhantes. Os resultados da avaliação também podem variar dependendo da construção do prompt e do número de exemplos com poucos exemplos utilizados.
Parâmetros de comparação de desempenho: as métricas são coletadas usando cargas de trabalho sintéticas com uma taxa de token de entrada para saída fixa e implantações de região única. O desempenho do mundo real pode ser diferente com base em padrões de carga de trabalho, simultaneidade, região e configuração de implantação.
Parâmetros de comparação de custo: as estimativas de custo são baseadas em uma taxa de token de entrada para saída de três para um e preços atuais no momento da medição. Os custos reais dependem da carga de trabalho e estão sujeitos a alterações de preços.

Comentários

Esta página foi útil?

Last updated on 2026-05-01