Confrontare i modelli usando il tabellone punteggi del modello (anteprima) (versione classica)

Visualizzazione attuale:Versione del portale Foundry (versione classica) - Passa alla versione per il nuovo portale Foundry

Questo articolo illustra come semplificare la selezione dei modelli nel catalogo dei modelli Foundry confrontando i modelli nelle classifiche dei modelli (anteprima) disponibili nel portale foundry. Questo confronto consente di prendere decisioni informate sui modelli che soddisfano i requisiti per il caso d'uso o l'applicazione specifici.

Dopo aver letto questo articolo, è possibile identificare il modello migliore per il proprio scenario confrontando i punteggi di riferimento e visualizzando i grafici dei compromessi nella classifica dei modelli.

Analizzare e confrontare i modelli usando:

  • Classifica dei modelli per identificare rapidamente i modelli con migliori prestazioni in termini di qualità, sicurezza, costi stimati e produttività.
  • Grafici di compromesso per confrontare visivamente le prestazioni del modello su due metriche, come qualità e costo.
  • Classifiche per scenario per trovare il tabellone punteggi di benchmark più pertinente per lo scenario specifico

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Prerequisiti

Tabellone punteggi del modello di accesso

  1. Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia disattivato. Questi passaggi fanno riferimento a Foundry (versione classica).
  2. Se non sei già nel tuo progetto, selezionalo.
  3. Selezionare Catalogo modelli nel riquadro sinistro.
  1. Passare alla sezione Classifica dei modelli del catalogo dei modelli. In questa sezione vengono visualizzati i primi tre leader del modello classificati in qualità, sicurezza, costi e prestazioni. Selezionare uno di questi modelli per visualizzare altri dettagli.

    Screenshot che mostra il modello selezionato dal punto di ingresso delle classifiche nella home page del catalogo modelli.

  2. Nella sezione Classifiche modelli del catalogo dei modelli selezionare Sfoglia le classifiche per passare alla pagina di destinazione delle classifiche modelli per visualizzare la suite completa di classifiche disponibili.

    Screenshot che mostra il punto di ingresso dal catalogo dei modelli alle classifiche dei modelli.

    Nella home page vengono visualizzate le evidenziazioni del tabellone punteggi per i criteri di selezione del modello. La qualità è il criterio più comune per la selezione del modello, seguito da sicurezza, costi e prestazioni.

    Una schermata che mostra le classifiche evidenziate in qualità, costo e prestazioni.

Grafici dei compromessi

Il grafico dei compromessi consente di confrontare visivamente i propri compromessi in base ai criteri più importanti per te.

Si supponga, ad esempio, che il modello di alta qualità non sia il più economico. Potrebbe essere necessario fare compromessi tra i criteri di qualità, sicurezza, costi e velocità effettiva. Nel grafico di compromesso è possibile confrontare rapidamente le prestazioni dei modelli lungo due metriche.

  1. Selezionare il menu a discesa Modelli selezionati per aggiungere o rimuovere modelli dal grafico di compromesso.
  2. Selezionare la scheda Qualità e sicurezza , qualità e costo e scheda Qualità e velocità effettiva per visualizzare i grafici per i modelli selezionati.
  3. Selezionare Confronta tra le metriche per accedere ai confronti tra più coppie di queste dimensioni.

Screenshot che mostra i grafici di compromesso in qualità, costi e prestazioni.

Visualizzare i tabelloni punteggi per scenario

Si supponga di avere uno scenario che richiede determinate funzionalità del modello. Ad esempio, se si sta creando un chatbot che risponde alle domande che necessita di forti capacità di ragionamento e resistenza ai contenuti dannosi, confrontare i modelli nelle classifiche specifiche delle funzionalità.

Screenshot che mostra i tabelloni della qualità per scenari.

Dopo aver esplorato i tabelloni punteggi, scegliere un modello da usare.

Visualizzare i benchmark dalla scheda del modello

Nota

I dati di benchmark non sono disponibili per tutti i modelli nel catalogo. Se un modello non ha una scheda Benchmark, i risultati del benchmark non sono ancora stati pubblicati per tale modello.

  1. Selezionare un modello a proprio piacimento e selezionare Dettagli modello. È possibile selezionare il modello da una delle classifiche visualizzate, ad esempio la classifica di qualità nella parte superiore della home page dei tabelloni punteggi del modello. Per questo esempio, selezionare gpt-4o. Questa azione apre la pagina di panoramica del modello.

  2. Passare alla scheda Benchmarks (Benchmark) per controllare i risultati del benchmark per il modello.

    Screenshot che mostra la scheda benchmark per gpt-4o.

  3. Selezionare Confronta con altri modelli.

  4. Passare alla visualizzazione Elenco per accedere a risultati più dettagliati per ogni modello.

    Screenshot che mostra un esempio di visualizzazione di confronto del benchmark.

Analizzare i risultati del benchmark

Quando ci si trova nella scheda "Benchmark" per un modello specifico, è possibile raccogliere informazioni complete per comprendere e interpretare meglio i risultati del benchmark, tra cui:

  • Punteggi aggregati di alto livello: questi punteggi per la qualità dell'intelligenza artificiale, la sicurezza, i costi stimati, la latenza e la velocità effettiva offrono una rapida panoramica delle prestazioni del modello.

  • Grafici comparativi: questi grafici visualizzano la posizione relativa del modello rispetto ai modelli correlati.

  • Tabella di confronto delle metriche: questa tabella presenta risultati dettagliati per ogni metrica.

    Screenshot che mostra la scheda benchmark per gpt-4o.

Per impostazione predefinita, Foundry visualizza un indice medio tra varie metriche e set di dati per offrire una panoramica generale delle prestazioni del modello.

Suggerimento

I punteggi di benchmark sono indici normalizzati. Un punteggio più alto indica prestazioni migliori per le metriche di qualità e sicurezza. Per i costi e la velocità effettiva, sono in genere preferibili costi stimati inferiori e velocità effettiva più elevata. Usare i grafici di compromesso per bilanciare questi criteri concorrenti per lo scenario.

Usare queste visualizzazioni per valutare rapidamente i punti di forza di un modello. Per esaminare le metriche specifiche, seguire questa procedura:

  1. Selezionare il pulsante espandi nel grafico. Il grafico di confronto popup rivela informazioni dettagliate e offre maggiore flessibilità per il confronto.

    Screenshot che mostra il pulsante di espansione da selezionare per un grafico di confronto dettagliato.

  2. Selezionare la metrica di interesse e scegliere set di dati diversi, in base allo scenario specifico. Per definizioni più dettagliate delle metriche e delle descrizioni dei set di dati pubblici usati per calcolare i risultati, selezionare Altre informazioni.

    Screenshot che mostra il grafico di confronto con una metrica e un set di dati specifici.

Valutare i risultati del benchmark con i tuoi dati

Le sezioni precedenti hanno mostrato i risultati del benchmark calcolati da Microsoft, usando set di dati pubblici. Tuttavia, è possibile provare a rigenerare lo stesso set di metriche con i dati.

  1. Tornare alla scheda Benchmark nella scheda del modello.

  2. Selezionare Prova con i propri dati per valutare il modello con i dati. La valutazione dei dati consente di visualizzare le prestazioni del modello in scenari specifici.

    Screenshot che mostra il pulsante da selezionare per la valutazione con i propri dati.

Risoluzione dei problemi

Problema Risoluzione
Il modello non viene visualizzato nel tabellone punteggi Non tutti i modelli vengono confrontati. Controllare la disponibilità del catalogo dei modelli.
Nessuna scheda Benchmarks nella scheda modello I risultati del benchmark non sono ancora stati pubblicati per questo modello.
I punteggi di benchmark differiscono dai risultati I benchmark pubblici usano set di dati standardizzati e potrebbero non riflettere le prestazioni sui dati specifici. Per valutare un modello con i propri dati, vedere Valutare le app di intelligenza artificiale generative.
Il grafico dei compromessi non mostra alcun punto dati Assicurarsi di avere selezionato i modelli nel selettore del modello. Sono necessari almeno due modelli per i confronti di compromesso.
Non è possibile confrontare più di tre modelli La visualizzazione di confronto affiancata supporta un massimo di tre modelli. Deselezionare un modello prima di aggiungere un altro.
I punteggi di benchmark sembrano obsoleti Microsoft aggiorna periodicamente i punteggi di benchmark. Controllare la pagina dei dettagli del modello per la data di valutazione del benchmark.