Comparar modelos usando a tabela de classificação de modelos (visualização) (clássico)

Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry

Este artigo mostra como simplificar a seleção de modelos no catálogo de modelos do Foundry comparando modelos nos placares de líderes de modelo (versão prévia) disponíveis no portal do Foundry. Essa comparação pode ajudá-lo a tomar decisões informadas sobre quais modelos atendem aos requisitos para seu caso de uso específico ou aplicativo.

Depois de ler este artigo, você pode identificar o melhor modelo para seu cenário comparando pontuações de benchmark e visualizando gráficos de trade-off na classificação de modelos.

Analisar e comparar modelos usando:

  • Ranking de modelos para identificar rapidamente modelos de alto desempenho para as classificações de qualidade, segurança, custo estimado e taxa de transferência
  • Gráficos de compensação para comparar visualmente o desempenho do modelo entre duas métricas, como qualidade versus custo
  • Placares de líderes por cenário para encontrar o placar de líderes de parâmetro de comparação mais relevante para seu cenário específico

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Pré-requisitos

Tabelas de líderes do modelo de acesso

  1. Entre no Microsoft Foundry. Certifique-se de que o alternador New Foundry está desativado. Essas etapas referem-se ao Foundry (clássico).
  2. Se você ainda não estiver em seu projeto, selecione-o.
  3. Selecione o catálogo de modelos no painel esquerdo.
  1. Vá para a seção Rankings de Modelo do catálogo de modelos. Esta seção exibe os três principais líderes de modelos classificados ao longo da qualidade, segurança, custo e desempenho. Selecione qualquer um desses modelos para exibir mais detalhes.

    Captura de tela mostrando modelo selecionado do ponto de entrada das classificações na página inicial do catálogo de modelos.

  2. Na seção Classificação de modelos do catálogo de modelos, selecione Explorar classificações para acessar a página de destino das classificações de modelos e ver o conjunto completo de classificações disponíveis.

    Captura de tela mostrando o ponto de entrada do catálogo de modelos para os quadros de líderes de modelos.

    A página inicial exibe os destaques do ranking para critérios de seleção de modelos. A qualidade é o critério mais comum para a seleção de modelo, seguido por segurança, custo e desempenho.

    Captura de tela mostrando as tabelas de classificação realçadas em qualidade, custo e desempenho.

Gráficos de compensação

O gráfico de compensação permite comparar as compensações visualmente com base nos critérios mais importantes para você.

Por exemplo, suponha que o modelo de maior qualidade não seja o mais barato. Talvez seja necessário fazer compensações entre critérios de qualidade, segurança, custo e taxa de transferência. No gráfico de análise de trade-off, você pode comparar o desempenho dos modelos de acordo com duas métricas de forma rápida.

  1. Selecione o menu suspenso Modelos selecionados para adicionar ou remover modelos do gráfico de compensação.
  2. Selecione a guia Qualidade vs. Segurança, a guia Qualidade vs. Custo e a guia Qualidade vs. Produtividade para exibir esses gráficos para os modelos selecionados.
  3. Selecione Comparar entre métricas para acessar comparações entre mais pares dessas dimensões.

Captura de tela mostrando os gráficos de compensação em qualidade, custo e desempenho.

Exibir placares de líderes por cenário

Suponha que você tenha um cenário que exija determinadas funcionalidades de modelo. Por exemplo, se você estiver criando um chatbot de resposta a perguntas que precise de fortes capacidades de raciocínio e resistência a conteúdo prejudicial, compare modelos em tabelas de classificação específicas de capacidades.

Captura de tela exibindo os placares de classificação de qualidade por cenários.

Depois de explorar os placares de líderes, decida sobre um modelo a ser usado.

Exibir parâmetros de comparação do cartão de modelo

Nota

Os dados de parâmetro de comparação não estão disponíveis para todos os modelos no catálogo. Se um modelo não tiver uma guia Benchmarks , os resultados do benchmark ainda não foram publicados para esse modelo.

  1. Selecione um modelo de acordo com seu gosto e selecione detalhes do modelo. Você pode selecionar o modelo em um dos placares de líderes disponíveis, como o placar de líderes de qualidade na parte superior da página inicial dos placares de líderes do modelo. Para este exemplo, selecione gpt-4o. Essa ação abre a página de visão geral do modelo.

  2. Vá para a guia Benchmarks para verificar os resultados de benchmark para o modelo.

    Captura de tela mostrando a guia benchmarks para gpt-4o.

  3. Selecione Comparar com mais modelos.

  4. Alterne para o modo de exibição Lista para acessar resultados mais detalhados para cada modelo.

    Captura de tela mostrando um exemplo de visão de comparação de benchmark.

Analisar os resultados do parâmetro de comparação

Quando estiver na guia "Parâmetros de comparação" para um modelo específico, você pode coletar informações abrangentes para entender melhor e interpretar os resultados do parâmetro de comparação, incluindo:

  • Pontuações agregadas de alto nível: essas pontuações para qualidade de IA, segurança, custo estimado, latência e taxa de transferência fornecem uma visão geral rápida do desempenho do modelo.

  • Gráficos comparativos: esses gráficos exibem a posição relativa do modelo em comparação com os modelos relacionados.

  • Tabela de comparação de métricas: esta tabela apresenta resultados detalhados para cada métrica.

    Captura de tela mostrando a aba de benchmarks para gpt-4o.

Por padrão, o Foundry exibe um índice médio entre várias métricas e conjuntos de dados para fornecer uma visão geral de alto nível do desempenho do modelo.

Dica

As pontuações de parâmetro de comparação são índices normalizados. Uma pontuação mais alta indica melhor desempenho para métricas de qualidade e segurança. Para custo e taxa de transferência, o custo estimado mais baixo e a taxa de transferência mais alta geralmente são preferenciais. Use os gráficos de compensação para equilibrar esses critérios concorrentes para seu cenário.

Use essas visões para rapidamente avaliar os pontos fortes de um modelo. Para analisar métricas específicas, siga estas etapas:

  1. Selecione o botão expandir no gráfico. O gráfico de comparação pop-up revela informações detalhadas e oferece maior flexibilidade para comparação.

    Captura de tela mostrando o botão expandir para selecionar um gráfico de comparação detalhado.

  2. Selecione a métrica de interesse e escolha conjuntos de dados diferentes, com base em seu cenário específico. Para obter definições mais detalhadas das métricas e descrições dos conjuntos de dados públicos usados para calcular os resultados, selecione Ler mais.

    Captura de tela mostrando o gráfico de comparação com uma métrica e um conjunto de dados específicos.

Avalie os resultados do benchmark com seus dados

As seções anteriores mostraram os resultados do parâmetro de comparação calculados por Microsoft, usando conjuntos de dados públicos. No entanto, você pode tentar regenerar o mesmo conjunto de métricas com seus dados.

  1. Retorne à guia Benchmarks no cartão de modelo.

  2. Selecione Experimentar com seus próprios dados para avaliar o modelo com seus dados. A avaliação em seus dados ajuda você a ver como o modelo é executado em seus cenários específicos.

    Captura de tela mostrando o botão a ser selecionado para avaliar com seus próprios dados.

Solucionando problemas

Questão Resolução
O modelo não aparece no placar classificatório Nem todos os modelos são avaliados. Verifique se há disponibilidade no catálogo de modelos.
Sem Benchmarks no cartão do modelo Os resultados do benchmark ainda não foram publicados para este modelo.
As pontuações de parâmetro de comparação diferem dos meus resultados Os parâmetros de comparação públicos usam conjuntos de dados padronizados e podem não refletir o desempenho em seus dados específicos. Para avaliar um modelo com seus próprios dados, consulte Avaliar aplicativos de IA generativos.
Gráfico de trade-off não mostra pontos de dados Verifique se você tem modelos selecionados no seletor de modelo. Pelo menos dois modelos são necessários para comparações de compensação.
Não é possível comparar mais de três modelos A exibição de comparação lado a lado dá suporte a no máximo três modelos. Desmarque um modelo antes de adicionar outro.
As pontuações de parâmetro de comparação parecem desatualizadas Microsoft atualiza pontuações de parâmetro de comparação periodicamente. Verifique a página de detalhes do modelo para a data de avaliação do parâmetro de comparação.