Compare modelos usando a tabela de classificação de modelos (pré-visualização) (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Este artigo mostra-lhe como otimizar a seleção de modelos no catálogo de modelos da Foundry, comparando modelos nos tabelas de classificação de modelos (pré-visualização) disponíveis no portal da Foundry. Esta comparação pode ajudá-lo a tomar decisões informadas sobre quais modelos correspondem aos requisitos do seu caso de uso ou aplicação particular.

Depois de ler este artigo, pode identificar o melhor modelo para o seu cenário comparando as pontuações dos benchmarks e visualizando gráficos de trade-off no quadro de classificação dos modelos.

Analisar e comparar modelos utilizando:

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

Pré-requisitos

Aceder a tabelas de classificação dos modelos

  1. Iniciar sessão no Microsoft Foundry. Certifica-te de que a opção do New Foundry está desligada. Estes são os passos que se referem à Foundry (clássica).
  2. Se ainda não estás no teu projeto, seleciona-o.
  3. Selecione catálogo de modelos no painel esquerdo.
  1. Vai à secção de tabelas de classificação de modelos no catálogo de modelos. Esta secção apresenta os três principais líderes de modelos classificados em termos de qualidade, segurança, custo e desempenho. Selecione qualquer um destes modelos para ver mais detalhes.

    Captura de ecrã que mostra o modelo selecionado do ponto de entrada dos rankings na página inicial do catálogo de modelos.

  2. Na secção de Quadros de Líderes do catálogo de modelos, selecione Explorar Quadros para ir à página inicial dos quadros de modelos e ver o conjunto completo de quadros disponíveis.

    Captura de ecrã que mostra o ponto de entrada do catálogo de modelos para os rankings de modelos.

    A página inicial mostra os destaques do ranking para critérios de seleção de modelos. A qualidade é o critério mais comum para a seleção do modelo, seguido de segurança, custo e desempenho.

    Captura de ecrã que mostra as tabelas de classificação destacadas em qualidade, custo e desempenho.

Tabelas de trade-off

O gráfico de compensações permite-lhe comparar as compensações visualmente com base nos critérios que são mais importantes para si.

Por exemplo, suponha que o modelo de melhor qualidade não é o mais barato. Pode ser necessário fazer compromissos entre qualidade, segurança, custo e critérios de produtividade. No gráfico de compensação, pode comparar de relance o desempenho dos modelos segundo duas métricas.

  1. Selecione o menu suspenso "Modelos selecionados" para adicionar ou remover modelos do gráfico de trade-off.
  2. Selecione o separador Qualidade vs. Segurança , o separador Qualidade vs. Custo e o separador Qualidade vs. Rendimento para ver esses gráficos dos modelos selecionados.
  3. Selecione Comparar entre métricas para aceder a comparações entre mais pares destas dimensões.

Captura de ecrã que mostra os gráficos de compensação em qualidade, custo e desempenho.

Ver tabelas de classificação por cenário

Suponha que tens um cenário que requer certas capacidades do modelo. Por exemplo, se está a criar um chatbot de resposta a perguntas que precisa de fortes capacidades de raciocínio e resistência a conteúdos prejudiciais, compare modelos em tabelas de classificação específicas por capacidade.

Captura de ecrã a mostrar os rankings de qualidade por cenários.

Depois de explorares as tabelas de classificação, decide qual modelo usar.

Veja benchmarks a partir do cartão modelo

Nota

Os dados de benchmark não estão disponíveis para todos os modelos do catálogo. Se um modelo não tiver um separador de Benchmarks , os resultados desse modelo ainda não foram publicados.

  1. Selecione um modelo ao seu gosto e selecione os detalhes do modelo. Pode selecionar o modelo a partir de uma das tabelas de classificação exibidas, como a tabela de classificação de qualidade no topo da página inicial das tabelas de modelos. Para este exemplo, selecione gpt-4o. Esta ação abre a página de visão geral do modelo.

  2. Vai ao separador Benchmarks para veres os resultados dos benchmarks do modelo.

    Captura de ecrã que mostra o separador de benchmarks do gpt-4o.

  3. Selecionar Comparar com mais modelos.

  4. Mude para a vista de Lista para aceder a resultados mais detalhados para cada modelo.

    Captura de ecrã que mostra um exemplo de vista de comparação de benchmarks.

Analisar os resultados dos benchmarks

Quando está no separador "Benchmarks" de um modelo específico, pode recolher informação extensa para compreender e interpretar melhor os resultados do benchmark, incluindo:

  • Pontuações agregadas de alto nível: Estas pontuações para qualidade da IA, segurança, custo estimado, latência e throughput fornecem uma visão rápida do desempenho do modelo.

  • Gráficos comparativos: Estes gráficos mostram a posição relativa do modelo em comparação com modelos relacionados.

  • Tabela de comparação de métricas: Esta tabela apresenta resultados detalhados para cada métrica.

    Captura de ecrã que mostra o separador de benchmarks do gpt-4o.

Por padrão, o Foundry apresenta um índice médio de várias métricas e conjuntos de dados para fornecer uma visão de alto nível geral do desempenho do modelo.

Dica

As pontuações dos benchmarks são índices normalizados. Uma pontuação mais alta indica melhor desempenho em termos de qualidade e segurança. Em termos de custo e rendimento, geralmente preferem-se custos estimados mais baixos e maior rendimento. Use os gráficos de trade-off para equilibrar estes critérios concorrentes para o seu cenário.

Use estas vistas para avaliar rapidamente os pontos fortes de um modelo. Para aprofundar métricas específicas, siga estes passos:

  1. Selecione o botão expandir no gráfico. O quadro comparativo pop-up revela informações detalhadas e oferece maior flexibilidade para comparação.

    Captura de ecrã mostrando o botão expandir para selecionar um quadro de comparação detalhado.

  2. Selecione a métrica de interesse e escolha diferentes conjuntos de dados, com base no seu cenário específico. Para definições mais detalhadas das métricas e descrições dos conjuntos de dados públicos usados para calcular resultados, selecione Ler mais.

    Captura de ecrã que mostra o quadro comparativo com uma métrica e conjunto de dados específicos.

Avalie os resultados dos benchmarks com os seus dados

As secções anteriores mostraram os resultados dos benchmarks calculados pela Microsoft, utilizando conjuntos de dados públicos. No entanto, pode tentar regenerar o mesmo conjunto de métricas com os seus dados.

  1. Voltar ao separador Benchmarks no cartão de modelos.

  2. Selecione Experimentar com os seus próprios dados para avaliar o modelo com os seus dados. A avaliação dos seus dados ajuda-o a perceber como o modelo se comporta nos seus cenários particulares.

    Captura de ecrã que mostra o botão para selecionar para avaliar com os seus próprios dados.

Resolução de problemas

Problema Resolução
O modelo não aparece na tabela de classificação Nem todos os modelos são avaliados. Consulta o catálogo de modelos para disponibilidade.
Sem aba Benchmarks no cartão do modelo Os resultados dos benchmarks deste modelo ainda não foram publicados.
As pontuações dos benchmarks diferem dos meus resultados Os benchmarks públicos usam conjuntos de dados padronizados e podem não refletir o desempenho nos seus dados específicos. Para avaliar um modelo com os seus próprios dados, consulte Avaliar aplicações de IA generativa.
O gráfico de trade-off não mostra pontos de dados Certifique-se de que tem os modelos selecionados no seletor de modelos. São necessários pelo menos dois modelos para comparações de compensação.
Não se podem comparar mais do que três modelos A vista de comparação lado a lado suporta um máximo de três modelos. Desmarque um modelo antes de adicionar outro.
As pontuações dos benchmarks parecem desatualizadas A Microsoft atualiza periodicamente as pontuações dos benchmarks. Consulte a página de detalhes do modelo para a data de avaliação do benchmark.