Compare modelos usando a tabela de classificação de modelos (pré-visualização)

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

Este artigo mostra-lhe como otimizar a seleção de modelos no catálogo de modelos da Foundry utilizando as tabelas de classificação de modelos (pré-visualização) e as funcionalidades de comparação lado a lado no portal da Foundry. Avalie as pontuações dos benchmarks dos modelos em termos de qualidade, segurança, custo e rendimento para escolher o melhor modelo para o seu cenário.

Depois de ler este artigo, pode identificar o melhor modelo para o seu cenário comparando pontuações de referência, visualizando gráficos de trade-off e avaliando modelos lado a lado.

Analisar e comparar modelos utilizando:

Pré-requisitos

Aceder a tabelas de classificação dos modelos

Use o catálogo de modelos para aceder à tabela de classificação e identificar os modelos com melhor desempenho.

  1. Se ainda não estás no teu projeto, seleciona-o.

  2. Selecione Descobrir na barra de navegação superior para navegar pelo catálogo de modelos. A página de visão geral mostra um resumo da tabela de modelos no topo.

  3. Ordene por diferentes métricas — qualidade, segurança, custo estimado e débito — para visualizar os melhores modelos para cada critério. Selecione qualquer modelo para aceder à sua página de detalhes, ou selecione Ir ao quadro de classificações para ver a lista completa. A página de detalhe do modelo mostra a visão geral do modelo, benchmarks e opções de implementação.

  4. Na página da classificação de modelos, veja os principais modelos em qualidade, segurança, rendimento e custo estimado. Expanda estes gráficos para visualizar visualmente o top 10. Cada gráfico expandido mostra um gráfico de barras com os 10 melhores modelos dessa métrica.

  5. Percorra os gráficos para encontrar o ranking completo dos modelos. Ordena as métricas que mais te interessam e seleciona o nome de um modelo para aceder à sua página de detalhes.

    A tabela de classificação aparece com colunas ordenáveis para qualidade, segurança, taxa de processamento e custo estimado.

  6. Selecione dois ou três modelos para uma comparação detalhada de funcionalidades numa vista lado a lado.

    A vista de comparação aparece, mostrando funcionalidades, desempenho e custo estimado para os modelos selecionados.

Tabelas de trade-off

O gráfico de compensações permite-lhe comparar as compensações visualmente com base nos critérios que são mais importantes para si.

Por exemplo, suponha que o modelo de melhor qualidade não é o mais barato. Pode ser necessário fazer compromissos entre qualidade, segurança, custo e critérios de produtividade. No gráfico de compensação, pode comparar de relance o desempenho dos modelos segundo duas métricas.

Utilize o gráfico de compensações na página de classificação dos modelos para compreender como os modelos conciliam critérios em competição.

  1. Utilize o menu suspenso Comparar qualidade com para alternar entre comparações de custo estimado, rendimento ou segurança.

  2. Adicione ou remova modelos do gráfico de compensação usando o seletor de modelos no lado direito do gráfico.

  3. Passe o rato sobre um ponto de dados para ver as pontuações exatas do modelo selecionado. Modelos mais próximos do canto superior direito do gráfico apresentam bons resultados em ambos os eixos.

Ver tabelas de classificação por cenário

Suponha que tens um cenário que requer certas capacidades do modelo. Por exemplo, se está a criar um chatbot de resposta a perguntas que precisa de fortes capacidades de raciocínio e resistência a conteúdos prejudiciais, compare modelos em tabelas de classificação específicas por capacidade.

  1. Na página de classificações do modelo, role até à secção Classificações por cenário.

  2. Selecione uma categoria de cenário, como Raciocínio, Programação ou Resposta a perguntas.

  3. Revise a lista ordenada de modelos para o cenário selecionado. A tabela de classificação mostra como os modelos se comportam em benchmarks específicos dessa capacidade.

Depois de explorares as tabelas de classificação, decide qual modelo usar.

Comparar modelos

A vista de comparação lado a lado permite-lhe avaliar até três modelos simultaneamente em múltiplas dimensões.

  1. Na tabela de classificação de modelos, selecione dois ou três modelos assinalando as caixas ao lado dos seus nomes.

  2. Selecione Comparar para abrir a vista de comparação lado a lado.

  3. Revise a comparação pelas abas seguintes:

    • Indicadores de desempenho: Qualidade, segurança e pontuações de rendimento a partir de conjuntos de dados públicos
    • Detalhes do modelo: janela de contexto, dados de treino e linguagens suportadas
    • Endpoints suportados: Opções de implementação como API sem servidor e computação administrada
    • Suporte a funcionalidades: Capacidades como chamada de funções, saída estruturada e visão
  4. Para saber mais sobre um modelo específico, selecione Ver detalhes. Se estiver pronto para começar a usar um modelo, selecione Implementar.

Captura de ecrã mostrando a experiência de comparação de modelos no Microsoft Foundry.

Visualizar benchmarks de modelos

Para visualizar benchmarks de um modelo específico, selecione o nome do modelo no quadro de classificação ou procure-o no catálogo de modelos. Na página de detalhes do modelo, selecione o separador Benchmarks .

Nota

Os dados de benchmark não estão disponíveis para todos os modelos do catálogo. Se um modelo não tiver um separador de Benchmarks , os resultados desse modelo ainda não foram publicados. Os resultados de benchmarking realizados pela Microsoft estão disponíveis para modelos selecionados. A informação de benchmarking reportada pelos prestadores é incluída quando disponível.

Quando está no separador Benchmarks de um modelo específico, pode recolher informação extensa para compreender e interpretar melhor os resultados do benchmark:

  • Resultados de benchmarks de dados públicos: Pontuações agregadas de alto nível para qualidade, segurança, custo estimado, latência e throughput da IA, que fornecem uma visão geral rápida do desempenho do modelo.

  • Gráficos comparativos: Estes gráficos mostram a posição relativa do modelo em comparação com modelos relacionados.

  • Tabela de comparação de métricas: Esta tabela apresenta resultados detalhados para cada métrica.

    Captura de ecrã a mostrar a tabela de comparação de métricas no separador de benchmarks.

Por padrão, o Foundry apresenta um índice médio de várias métricas e conjuntos de dados para fornecer uma visão de alto nível geral do desempenho do modelo.

Dica

As pontuações dos benchmarks são índices normalizados. Uma pontuação mais alta indica melhor desempenho em termos de qualidade e segurança. Em termos de custo e rendimento, geralmente preferem-se custos estimados mais baixos e maior rendimento. Use os gráficos de trade-off para equilibrar estes critérios concorrentes para o seu cenário.

Para aceder a resultados de benchmarks para uma métrica e conjunto de dados específicos:

  1. Selecione o botão expandir no gráfico. O quadro comparativo pop-up revela informações detalhadas e oferece maior flexibilidade para comparação.

  2. Selecione a métrica de interesse e escolha diferentes conjuntos de dados, com base no seu cenário específico. Para definições mais detalhadas das métricas e descrições dos conjuntos de dados públicos usados para calcular resultados, selecione Ler mais.

Para comparações de modelos lado a lado, compare modelos para avaliar características, métricas de desempenho e custos estimados em múltiplos modelos.

Nota

A opção Tentar com os seus próprios dados no separador de benchmarks está disponível apenas no Foundry (clássico). Para avaliar um modelo com os seus próprios dados no novo portal, consulte Avaliar aplicações de IA generativa.

Resolução de problemas

Problema Resolução
O modelo não aparece na tabela de classificação Nem todos os modelos são avaliados. Consulta o catálogo de modelos para disponibilidade.
Sem aba Benchmarks no cartão do modelo Os resultados dos benchmarks deste modelo ainda não foram publicados.
As pontuações dos benchmarks diferem dos meus resultados Os benchmarks públicos usam conjuntos de dados padronizados e podem não refletir o desempenho nos seus dados específicos. Para avaliar um modelo com os seus próprios dados, consulte Avaliar aplicações de IA generativa.
O gráfico de trade-off não mostra pontos de dados Certifique-se de que tem os modelos selecionados no seletor de modelos. São necessários pelo menos dois modelos para comparações de compensação.
Não se podem comparar mais do que três modelos A vista de comparação lado a lado suporta um máximo de três modelos. Desmarque um modelo antes de adicionar outro.
As pontuações dos benchmarks parecem desatualizadas A Microsoft atualiza periodicamente as pontuações dos benchmarks. Consulte a página de detalhes do modelo para a data de avaliação do benchmark.