Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.
Os rankings de modelos (versão preliminar) no portal do Foundry ajudam você a comparar modelos no catálogo de modelos do Foundry usando benchmarks de modelos padrão do setor.
Para começar, compare e selecione modelos usando o ranking de modelos no portal Foundry.
Você pode revisar a metodologia detalhada de benchmarking para cada categoria de ranking.
- Benchmark de qualidade de modelos de linguagem para entender o desempenho dos modelos em tarefas essenciais, incluindo raciocínio, conhecimento, resposta a perguntas, matemática e codificação.
- Parâmetro de Comparação de Segurança de modelos de linguagem para entender o quão seguros eles são contra a geração de comportamentos prejudiciais.
- Benchmarking de desempenho de modelos de linguagem para entender como os modelos são executados em termos de latência e taxa de transferência.
- Parâmetro de comparação de custos de modelos de linguagem para entender o custo estimado do uso de modelos.
- Benchmarking do placar de líderes de cenários de modelos de linguagem para ajudá-lo a encontrar o melhor modelo para seu caso de uso específico ou cenário.
- Benchmarking de qualidade de modelos de inserção para entender o desempenho dos modelos em tarefas baseadas em inserção, incluindo pesquisa e recuperação.
Ao encontrar um modelo adequado, você pode abrir seus resultados detalhados de benchmarking no catálogo de modelos. A partir daí, você pode implantar o modelo, experimentá-lo no playground ou avaliá-lo em seus próprios dados. As classificações dão suporte a parâmetros de comparação para modelos de linguagem de texto, incluindo modelos de linguagem grandes (LLMs) e pequenos modelos de linguagem (SLMs), e modelos de inserção.
Os benchmarks de modelos avaliam LLMs e SLMs em termos de qualidade, segurança, custo e taxa de transferência. Os modelos de inserção são avaliados usando parâmetros de comparação de qualidade padrão. Os placares de líderes são atualizados à medida que novos modelos e conjuntos de dados de parâmetro de comparação ficam disponíveis.
Escopo de benchmarking de modelo
As classificações de modelos apresentam uma seleção curada de modelos de linguagem baseados em texto do catálogo de modelos do Foundry. Os modelos são incluídos com base nos seguintes critérios:
- Azure Modelos Diretos priorizados: Azure Modelos Diretos são selecionados para relevância para cenários comuns de IA generativa.
- Aplicabilidade de parâmetro de comparação principal: os modelos devem dar suporte a tarefas de linguagem de uso geral, como raciocínio, conhecimento, resposta a perguntas, raciocínio matemático e codificação. Não há suporte para modelos especializados (por exemplo, enovelamento de proteínas ou QA específico do domínio) e outras modalidades.
Esse escopo garante que os rankings reflitam modelos atuais e de alta qualidade relevantes para cenários principais de IA.
Interpretar os resultados da tabela de classificação
As tabelas de classificação ajudam você a comparar modelos em várias dimensões para que possa escolher o modelo certo para sua aplicação. Aqui estão algumas diretrizes para interpretar os resultados:
- Índice de qualidade: um índice de qualidade mais alto indica um desempenho geral mais forte nas tarefas de raciocínio, codificação, matemática e conhecimento. Compare o índice de qualidade entre modelos para identificar os principais desempenhos para tarefas de linguagem de uso geral.
- Pontuações de segurança: taxas de sucesso de ataque mais baixas indicam modelos mais robustos. Considere as pontuações de segurança juntamente com as pontuações de qualidade, especialmente para aplicativos voltados para o cliente, em que a saída prejudicial é uma preocupação significativa.
- Compensações de desempenho: use as métricas de latência e taxa de transferência para entender a capacidade de resposta real de um modelo. Um modelo com alta qualidade, mas alta latência, pode não atender a aplicativos em tempo real.
- Considerações de custo: a métrica de custo estimada usa uma taxa de token de entrada para saída de três para um. Ajuste suas expectativas com base na taxa de entrada e saída da carga de trabalho real.
- Classificação de Cenário: se o seu caso de uso estiver associado a um cenário específico (por exemplo, codificação ou matemática), comece com a classificação de cenário para identificar modelos otimizados para essa tarefa ao invés de se basear apenas no índice de qualidade geral.
Dica
Benchmarks de tabela de classificação oferecem comparações padronizadas entre modelos usando conjuntos de dados públicos. Para avaliar o desempenho do modelo em seus dados específicos e caso de uso, consulte Avaliar seus aplicativos de IA generativos.
Parâmetros de comparação de qualidade de modelos de linguagem
A Foundry avalia a qualidade de LLMs e SLMs usando pontuações de precisão de conjuntos de dados de benchmark padrão que medem recursos de raciocínio, conhecimento, resposta a perguntas, matemática e codificação.
| Índice | Descrição |
|---|---|
| Índice de qualidade | Calculado pela média de pontuações de precisão aplicáveis (exact_match, pass@1, arena_hard) em conjuntos de dados de parâmetro de comparação. |
Os valores de índice de qualidade variam de zero a um, em que valores mais altos indicam melhor desempenho. Os conjuntos de dados incluídos no índice de qualidade são:
| Nome do conjunto de dados | Categoria |
|---|---|
| bigbench_hard (reduzido para 1.000 exemplos) | Raciocínio |
| chembench | Química |
| frontierscience | Raciocínio científico |
| gpqa | controle de qualidade |
| mbppplus | Codificação |
| mmlu_pro (reduzido para 1.000 exemplos) | Conhecimento geral |
| musr | Raciocínio |
| tau2_telecom | Seleção de chamadas por agente e por ferramenta |
Veja mais detalhes em pontuações de precisão:
| Métrica | Descrição |
|---|---|
| Precisão | As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis de modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão computada em todos os exemplos no conjunto de dados. A métrica de precisão usada é exact_match em todos os casos, exceto para os conjuntos de dados HumanEval e MBPP que usam uma pass@1 métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, relatando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A pass@1 métrica mede a proporção de soluções de modelo que passam por um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo. |
As pontuações de precisão variam de zero a um, em que valores mais altos são melhores.
Parâmetros de comparação de segurança de modelos de linguagem
Os parâmetros de comparação de segurança são selecionados por meio de um processo estruturado de filtragem e validação projetado para garantir relevância e rigor. Um parâmetro de comparação se qualifica para integração se ele resolver riscos de alta prioridade. As classificações de segurança incluem parâmetros de referência confiáveis o suficiente para fornecer sinais significativos sobre tópicos de interesse em relação à segurança. Os placares de líderes utilizam HarmBench para avaliar a segurança do modelo, e organizam os placares de líderes de cenário da seguinte maneira:
| Nome do conjunto de dados | Cenário de Tabela de Classificação | Métrica | Interpretação |
|---|---|---|---|
| HarmBench (standard) | Comportamentos nocivos padrão | Taxa de sucesso de ataque | Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo nocivo padrão |
| HarmBench (contextual) | Comportamentos contextualmente prejudiciais | Taxa de sucesso de ataque | Valores mais baixos significam melhor robustez contra ataques projetados para provocar conteúdo contextualmente prejudicial |
| HarmBench (violações de direitos autorais) | Violações de direitos autorais | Taxa de sucesso de ataque | Valores mais baixos indicam robustez mais forte contra violações de direitos autorais |
| WMDP | Conhecimento em domínios confidenciais | Precisão | Valores mais altos indicam maior conhecimento em domínios confidenciais |
| Toxigen | Detecção de conteúdo tóxico | F1_score | Valores mais altos indicam melhor desempenho de detecção |
Detecção de comportamento prejudicial
O parâmetro de comparação HarmBench mede comportamentos prejudiciais usando prompts projetados para provocar respostas não seguras. Ele abrange sete categorias semânticas:
- Crimes cibernéticos e intrusão não autorizada
- Armas químicas e biológicas ou drogas
- Violações de direitos autorais
- Informação incorreta e desinformação
- Assédio e intimidação
- Atividades ilegais
- Dano geral
Essas categorias são agrupadas em três áreas funcionais:
- Comportamentos nocivos padrão
- Comportamentos contextualmente prejudiciais
- Violações de direitos autorais
Cada categoria funcional é destacada em um ranking de cenário distinto. A avaliação utiliza solicitações diretas do HarmBench (sem ataques) e avaliadores do HarmBench para calcular a Taxa de Sucesso de Ataque (ASR). Valores asr mais baixos significam modelos mais seguros. Nenhuma estratégia de ataque é usada para avaliação, e a comparação de modelos é realizada com os Guardrails do Foundry (anteriormente filtros de conteúdo) desativados.
Detecção de conteúdo tóxico
Toxigen é um conjunto de dados em grande escala para detectar discursos de ódio implícitos e adversários. Inclui sentenças implicitamente tóxicas e benignas que fazem referência a 13 grupos minoritários. O Foundry usa exemplos anotados do Toxigen e calcula medidas f para avaliar o desempenho da classificação. Pontuações mais altas indicam melhor detecção de conteúdo tóxico. O benchmark é realizado com os Guardrails do Foundry (anteriormente filtros de conteúdo) desativados.
Conhecimento de domínio confidencial
O modelo de referência de WMDP (Armas de Destruição em Massa por Procuração) mede o conhecimento em domínios sensíveis, incluindo biossegurança, cibersegurança e segurança química. A classificação usa as médias das pontuações de precisão em segurança cibernética, biossegurança e segurança química. Uma pontuação de precisão de WMDP mais alta indica mais conhecimento de funcionalidades perigosas (pior comportamento do ponto de vista de segurança). O benchmarking de modelo é executado com os Foundry Guardrails padrão (anteriormente filtros de conteúdo) ativados. Esses guardrails detectam e bloqueiam danos de conteúdo em violência, automutilação, sexual, ódio e injustiça, mas não visam categorias em segurança cibernética, biossegurança e segurança química.
Limitações dos parâmetros de comparação de segurança
Segurança é um tópico complexo com várias dimensões. Nenhum parâmetro de comparação de software livre pode testar ou representar a segurança total de um sistema em todos os cenários. Além disso, muitos parâmetros de comparação sofrem de saturação ou desalinhamento entre design de parâmetro de comparação e definição de risco. Alguns parâmetros de comparação também não têm documentação clara sobre como os riscos de destino são conceituados e operacionalizados, dificultando a avaliação de se os resultados capturam com precisão as nuances dos riscos do mundo real. Essas limitações podem levar à superestimação ou à subestimação do desempenho do modelo em cenários de segurança do mundo real.
Parâmetros de comparação de desempenho de modelos de linguagem
As métricas de desempenho são agregadas ao longo de 14 dias usando 24 avaliações por dia, com duas solicitações por avaliação enviadas em intervalos de uma hora. A menos que observado de outra forma, os seguintes parâmetros padrão se aplicam a implantações de API sem servidor e Azure OpenAI:
| Parâmetro | Valor | Aplicável para |
|---|---|---|
| Região | Leste EUA/Leste EUA2 | Implantações de API sem servidor e Azure OpenAI |
| Limite de taxa de tokens por minuto (TPM) | 30 mil (180 RPM com base em Azure OpenAI) para modelos que não envolvem raciocínio e 100 mil para modelos que fazem uso de raciocínio N/A (implantações de API sem servidor) |
Para modelos do OpenAI do Azure, a seleção está disponível para usuários com intervalos de limite de taxa com base no tipo de implantação (API sem servidor, global, padrão global etc.). Para implantações de API sem servidor, essa configuração é abstraida. |
| Número de solicitações | Duas requisições em um teste por hora (24 testes por dia) | Implantações de API sem servidor, Azure OpenAI |
| Número de tentativas/iterações | 14 dias com 24 avaliações por dia, totalizando 336 execuções | Implantações de API sem servidor, Azure OpenAI |
| Comprimento do prompt/contexto | Comprimento moderado | Implantações de API sem servidor, Azure OpenAI |
| Número de tokens processados (moderado) | Taxa de 80:20 para tokens de entrada para saída, ou seja, 800 tokens de entrada para 200 tokens de saída. | Implantações de API sem servidor, Azure OpenAI |
| Número de solicitações simultâneas | Uma (as solicitações são enviadas sequencialmente uma após a outra) | Implantações de API sem servidor, Azure OpenAI |
| Dados | Sintético (prompts de entrada preparados a partir de texto estático) | Implantações de API sem servidor, Azure OpenAI |
| Tipo de implantação | API sem servidor | Aplicável somente para Azure OpenAI |
| Streaming | Verdade | Aplica-se a implantações de API sem servidor e Azure OpenAI. Para modelos implantados por meio de computação gerenciada ou para pontos de extremidade quando não há suporte para streaming, o TTFT é representado como P50 da métrica de latência. |
| SKU | Standard_NC24ads_A100_v4 (24 núcleos, 220 GB de RAM, 64 GB de armazenamento) | Aplicável somente para Computação Gerenciada (para estimar as métricas de custo e desempenho) |
O desempenho de LLMs e SLMs é avaliado nas seguintes métricas:
| Métrica | Descrição |
|---|---|
| Média de latência | Tempo médio em segundos para processar uma solicitação, computada em várias solicitações. Uma solicitação é enviada ao ponto de extremidade a cada hora durante duas semanas e a média é computada. |
| Latência P50 | Latência mediana (50º percentil). 50% de solicitações concluídas neste momento. |
| Latência P90 | Latência do 90º percentil. 90% de solicitações concluídas neste momento. |
| Latência P95 | Latência do 95º percentil 95% de solicitações concluídas neste momento. |
| Latência P99 | Latência do 99º percentil. 99% de solicitações concluídas neste momento. |
| Taxa de transferência GTPS | Tokens gerados por segundo (GTPS) é o número de tokens de saída gerados por segundo a partir do momento em que a solicitação é enviada ao ponto de extremidade. |
| TTPS de taxa de transferência | Total de tokens por segundo (TTPS) é o número total de tokens processados por segundo, incluindo os tokens de entrada e os tokens de saída gerados. Para modelos que não dão suporte ao streaming, o tempo para o primeiro token (ttft) representa o valor P50 de latência (tempo necessário para receber a resposta) |
| Latência TTFT | O tempo total até o primeiro token (TTFT) é o tempo necessário para que o primeiro token na resposta seja retornado do endpoint quando o streaming estiver habilitado. |
| Tempo entre tokens | Essa métrica é o tempo entre os tokens recebidos. |
O Foundry resume o desempenho usando:
| Métrica | Descrição |
|---|---|
| Latência | Tempo médio até o primeiro token. Mais baixo é melhor. |
| Produtividade | Tokens médios gerados por segundo. Mais alto é melhor. |
Para métricas de desempenho, como latência ou taxa de transferência, o tempo para o primeiro token e os tokens gerados por segundo dão uma melhor noção geral do desempenho e comportamento típicos do modelo. Os números de desempenho são atualizados periodicamente para refletir as configurações de implantação mais recentes.
Parâmetros de comparação de custo de modelos de linguagem
Os parâmetros de comparação de custo medem o custo real para executar cada modelo nos conjuntos de dados de parâmetro de comparação de qualidade, em vez de um custo estimado com base no preço do token.
O custo de parâmetro de comparação é calculado usando:
- Número real de tokens de entrada, raciocínio e saída consumidos durante a execução do benchmark.
- Configuração de esforço de raciocínio específica do modelo usada para avaliação (normalmente
highouxhigh). - Características e complexidade do conjunto de dados, que afetam o uso e o runtime do token.
Ao contrário das estimativas baseadas em uma relação fixa de tokens, essa abordagem reflete o verdadeiro custo total da execução dos benchmarks de cargas de trabalho.
Como interpretar os resultados de custo
- O custo é relatado em USD por execução de benchmark nos conjuntos de dados de qualidade padrão.
- Os valores representam o custo real de execução e permitem a comparação direta entre modelos.
- Valores mais baixos indicam um desempenho mais econômico no pacote de parâmetros de comparação.
Benchmarking do placar de líderes do cenário
Classificações de cenários agrupam conjuntos de dados de benchmark por objetivos comuns de avaliação do mundo real. Você pode identificar rapidamente os pontos fortes e fracos de um modelo por caso de uso. Cada cenário agrega um ou mais conjuntos de dados de benchmark públicos.
Use a tabela a seguir para encontrar seu caso de uso na coluna Cenário e, em seguida, examine os conjuntos de dados de parâmetro de comparação associados e o que os resultados indicam. A tabela a seguir resume os rankings de cenário disponíveis e seus conjuntos de dados associados e descrições:
| Cenário | Conjuntos de Dados | Descrição |
|---|---|---|
| Comportamento nocivo padrão | HarmBench (padrão) | Taxa de sucesso de ataques a prompts prejudiciais padrão. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial. |
| Comportamento contextualmente nocivo | HarmBench (contextual) | Taxa de sucesso de ataques com base em prompts prejudiciais contextuais. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial. |
| Violações de direitos autorais | HarmBench (direitos autorais) | Taxa de sucesso de ataques para prompts de violação de direitos autorais. Mais baixo é melhor. Consulte a detecção de comportamento prejudicial. |
| Conhecimento em domínios confidenciais | WMDP (biossegurança, segurança química, segurança cibernética) | Precisão em três subconjuntos de domínio confidenciais. Maior precisão indica mais conhecimento de capacidades sensíveis. Consulte conhecimento de domínio confidencial. |
| Detecção de toxicidade | ToxiGen (anotado) | Pontuação F1 para capacidade de detecção de conteúdo tóxico. Mais alto é melhor. Consulte a detecção de conteúdo tóxico. |
| Raciocínio | BIG-Bench Hard (1000 subamostras) | Avaliação de recursos de raciocínio. Valores mais altos são melhores. |
| Codificação | BigCodeBench (instrução), LiveBench (codificação), LiveCodeBench médioMBPPPlus | Mede a precisão em tarefas relacionadas ao código. Valores mais altos são melhores. |
| Conhecimento geral | MMLU-Pro (subamostra de 1K em inglês) | 1.000 subsample somente em inglês de MMLU-Pro. |
| Perguntas e respostas | Arena-Hard, GPQA (diamante) | QA de preferência humana adversária (Arena-Hard) e QA de nível de pós-graduação multidisciplina (diamante GPQA). Valores mais altos são melhores. |
| Matemática | MATH (500 subamostras) | Mede os recursos de raciocínio matemático de modelos de linguagem. Valores mais altos são melhores. |
| Estabilidade | TrueQA (MC1) | Avaliação de fundamentação/veracidade de múltipla escolha dos modelos de linguagem. Valores mais altos são melhores. |
Parâmetros de comparação de qualidade de modelos de inserção
O índice de qualidade dos modelos de incorporação é definido como as pontuações médias de precisão de um conjunto abrangente de conjuntos de dados de benchmark de API sem servidor direcionados a tarefas de Recuperação de Informações, Clustering de Documentos e Sumarização.
| Métrica | Descrição |
|---|---|
| Precisão | A precisão é a proporção de previsões corretas entre o número total de previsões processadas. |
| F1_score | F1 Score é a média ponderada da precisão e recall, onde o melhor valor é um (precisão perfeita e recall), e o pior é zero. |
| Precisão Média (MAP) | O MAP avalia a qualidade dos sistemas de classificação e de recomendação. Ele mede tanto a relevância dos itens sugeridos quanto o quão bom o sistema é em colocar itens mais relevantes na parte superior. Os valores podem variar de zero a um e, quanto maior o MAP, melhor o sistema pode colocar itens relevantes no alto da lista. |
| Ganho cumulativo com desconto normalizado (NDCG) | O NDCG avalia a capacidade de um algoritmo de machine learning de classificar itens com base na relevância. Ele compara classificações a uma ordem ideal em que todos os itens relevantes estão no topo da lista, onde k é o comprimento da lista ao avaliar a qualidade da classificação. Nesses parâmetros de comparação, k=10, indicado por uma métrica de ndcg_at_10, o que significa que os 10 principais itens são avaliados. |
| Precisão | A precisão mede a capacidade do modelo de identificar instâncias de uma determinada classe corretamente. A precisão mostra a frequência com que um modelo de machine learning está correto ao prever a classe de destino. |
| Correlação de Spearman | A correlação de Spearman baseada na similaridade de cosseno é calculada primeiro calculando a similaridade de cosseno entre variáveis, depois classificando essas pontuações e usando as classificações para calcular a correlação de Spearman. |
| Medida V | A medida V é uma métrica usada para avaliar a qualidade do clustering. A medida V é calculada como uma média harmônica de homogeneidade e completude, garantindo um equilíbrio entre os dois para um valor significativo. As pontuações possíveis ficam entre zero e um, sendo um a rotulagem perfeitamente completa. |
Cálculo de pontuações
Pontuações individuais
Os resultados de parâmetro de comparação são provenientes de conjuntos de dados públicos que geralmente são usados para avaliação do modelo de linguagem. Na maioria dos casos, os dados são hospedados em GitHub repositórios mantidos pelos criadores ou curadores dos dados. Os pipelines de avaliação do Foundry baixam dados das respectivas fontes originais, extraem prompts de cada linha de exemplo, geram respostas de modelo e computam métricas de precisão relevantes.
A construção do prompt segue as melhores práticas para cada conjunto de dados, conforme especificado no artigo que apresenta o conjunto de dados e nos padrões da indústria. Na maioria dos casos, cada prompt contém vários shots, ou seja, vários exemplos de perguntas e respostas completas para aprimorar o modelo para a tarefa. O número de capturas varia de acordo com o conjunto de dados e segue a metodologia especificada na publicação original de cada conjunto de dados. Os pipelines de avaliação criam amostras ao selecionar perguntas e respostas de uma parte dos dados reservada para a avaliação.
Limitações de parâmetro de comparação
Todos os parâmetros de comparação têm limitações inerentes que você deve considerar ao interpretar os resultados:
- Parâmetros de comparação de qualidade: os conjuntos de dados de benchmark podem ficar saturados ao longo do tempo à medida que os modelos são treinados ou ajustados em dados semelhantes. Os resultados da avaliação também podem variar dependendo da construção do prompt e do número de exemplos com poucos exemplos utilizados.
- Parâmetros de comparação de desempenho: as métricas são coletadas usando cargas de trabalho sintéticas com uma taxa de token de entrada para saída fixa e implantações de região única. O desempenho do mundo real pode ser diferente com base em padrões de carga de trabalho, simultaneidade, região e configuração de implantação.
- Parâmetros de comparação de custo: as estimativas de custo são baseadas em uma taxa de token de entrada para saída de três para um e preços atuais no momento da medição. Os custos reais dependem da carga de trabalho e estão sujeitos a alterações de preços.