Vergleichen von Modellen mithilfe des Modell-Leaderboards (Vorschau)

Wichtig

In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

In diesem Artikel erfahren Sie, wie Sie die Modellauswahl im Foundry-Modellkatalog mithilfe der Modell-Bestenlisten (Vorschau) und parallelen Vergleichsfunktionen im Foundry-Portal optimieren. Bewerten Sie die Bewertungen von Modell-Benchmarks für Qualität, Sicherheit, Kosten und Durchsatz, um das beste Modell für Ihr Szenario auszuwählen.

Nachdem Sie diesen Artikel gelesen haben, können Sie das beste Modell für Ihr Szenario identifizieren, indem Sie Benchmarkbewertungen vergleichen, Trade-off-Diagramme anzeigen und Modelle nebeneinander auswerten.

Analysieren und Vergleichen von Modellen mithilfe von:

  • Modell-Leaderboard, um schnell leistungsstarke Modelle in den Bestenlisten für Qualität, Sicherheit, geschätzte Kosten und Durchsatz zu identifizieren

  • Trade-off-Diagramme zum visuellen Vergleich der Modellleistung über zwei Metriken hinweg, z. B. Qualität im Vergleich zu Kosten

  • Bestenlisten nach Szenario , um das relevanteste Benchmark-Leaderboard für Ihr spezifisches Szenario zu finden

  • Vergleichen von Modellen zum Auswerten von Features, Leistung und geschätzten Kosten in einer parallelen Ansicht

Voraussetzungen

Access-Modell-Bestenlisten

Verwenden Sie den Modellkatalog, um auf das Bestenlisten zuzugreifen und leistungsstärkste Modelle zu identifizieren.

  1. Wenn Sie noch nicht in Ihrem Projekt arbeiten, wählen Sie es aus.

  2. Wählen Sie " Entdecken" in der oberen Navigationsleiste aus, um den Modellkatalog zu durchsuchen. Auf der Übersichtsseite wird oben ein Überblick über das Modell-Leaderboard angezeigt.

  3. Sortieren Sie nach verschiedenen Metriken – Qualität, Sicherheit, geschätzter Kosten und Durchsatz – um die top-Modelle für jedes Kriterium anzuzeigen. Wählen Sie ein beliebiges Modell aus, um zur Detailseite zu wechseln, oder wählen Sie " Zur Bestenliste wechseln " aus, um die vollständige Liste anzuzeigen. Die Detailseite des Modells zeigt die Übersicht, Benchmarks und Bereitstellungsoptionen des Modells.

  4. Sehen Sie sich auf der Seite " Modell-Bestenliste " die führenden Führungskräfte für Qualität, Sicherheit, Durchsatz und geschätzte Kosten an. Erweitern Sie diese Diagramme, um die obersten 10 visuell anzuzeigen. Jedes erweiterte Diagramm zeigt ein Balkendiagramm der obersten 10 Modelle für diese Metrik.

  5. Scrollen Sie an den Diagrammen vorbei, um das vollständige Modell-Leaderboard zu finden. Sortieren Sie nach den Metriken, die Sie am meisten interessieren, und wählen Sie einen Modellnamen aus, um zur Detailseite zu wechseln.

    Die Ergebnistabelle wird mit sortierbaren Spalten für Qualität, Sicherheit, Durchsatz und geschätzte Kosten angezeigt.

  6. Wählen Sie zwei oder drei Modelle für einen detaillierten Funktionsvergleich in einer nebeneinander angeordneten Ansicht aus.

    Die Vergleichsansicht wird angezeigt, in der Features, Leistung und geschätzte Kosten für ihre ausgewählten Modelle angezeigt werden.

Trade-off-Diagramme

Mit dem Trade-off-Diagramm können Sie Trade-Offs visuell anhand der Kriterien vergleichen, die für Sie am wichtigsten sind.

Angenommen, das Modell der höchsten Qualität ist nicht die billigste. Möglicherweise müssen Sie Kompromisse zwischen Qualität, Sicherheit, Kosten und Durchsatzkriterien treffen. Im Trade-off-Diagramm können Sie auf einen Blick vergleichen, wie Modelle anhand von zwei Metriken abschneiden.

Verwenden Sie das Trade-off-Diagramm auf der Modell-Bestenliste, um zu visualisieren, wie Modelle konkurrierende Kriterien ausgleichen:

  1. Verwenden Sie das Dropdown-Menü "Qualität vergleichen mit", um zwischen geschätzten Kosten, Durchsatz oder Sicherheitsvergleichen zu wechseln.

  2. Fügen Sie Modelle dem Abwägungsdiagramm hinzu oder entfernen Sie sie daraus, indem Sie die Modellauswahl auf der rechten Seite des Diagramms verwenden.

  3. Zeigen Sie mit der Maus auf einen Datenpunkt, um die genauen Bewertungen für das ausgewählte Modell anzuzeigen. Modelle, die sich näher an der oberen rechten Ecke des Diagramms befinden, funktionieren gut auf beiden Achsen.

Anzeigen von Bestenlisten nach Szenario

Angenommen, Sie haben ein Szenario, das bestimmte Modellfunktionen erfordert. Wenn Sie z. B. einen Fragebeantwortungs-Chatbot erstellen, der starke Argumentationsfähigkeiten und Widerstandsfähigkeit gegen schädliche Inhalte benötigt, vergleichen Sie Modelle in fähigkeitsbezogenen Bestenlisten.

  1. Scrollen Sie auf der Modell-Bestenliste-Seite zum Abschnitt Bestenlisten nach Szenario.

  2. Wählen Sie eine Szenariokategorie aus, z. B. "Reasoning", "Coding" oder " Question answering".

  3. Überprüfen Sie die Rangliste der Modelle für Ihr ausgewähltes Szenario. Die Bestenliste zeigt, wie Modelle bei Benchmarks abschneiden, die für diese Fähigkeit spezifisch sind.

Nachdem Sie die Bestenlisten untersucht haben, entscheiden Sie sich für ein Modell zur Verwendung.

Modelle vergleichen

Mit der nebeneinander angeordneten Vergleichsansicht können Sie bis zu drei Modelle gleichzeitig über mehrere Dimensionen auswerten.

  1. Wählen Sie im Modell-Leaderboard zwei oder drei Modelle aus, indem Sie die Kontrollkästchen neben ihren Namen aktivieren.

  2. Wählen Sie "Vergleichen" aus, um die Vergleichsansicht nebeneinander zu öffnen.

  3. Überprüfen Sie den Vergleich auf den folgenden Registerkarten:

    • Leistungs-Benchmarks: Qualitäts-, Sicherheits- und Durchsatzbewertungen aus öffentlichen Datasets
    • Modelldetails: Kontextfenster, Schulungsdaten und unterstützte Sprachen
    • Unterstützte Endpunkte: Bereitstellungsoptionen wie serverlose API und verwaltete Compute
    • Unterstützung von Funktionen: Funktionen wie Funktionsaufrufe, strukturierte Ausgabe und Bildverarbeitung
  4. Wenn Sie mehr über ein bestimmtes Modell erfahren möchten, wählen Sie "Details anzeigen" aus. Wenn Sie mit der Verwendung eines Modells beginnen möchten, wählen Sie "Bereitstellen" aus.

Screenshot, der die Vergleichsmodell-Erfahrung in Microsoft Foundry zeigt.

Modell-Benchmarks anzeigen

Um Benchmarks für ein bestimmtes Modell anzuzeigen, wählen Sie den Modellnamen aus der Bestenliste aus, oder suchen Sie im Modellkatalog danach. Wählen Sie auf der Detailseite des Modells die Registerkarte "Benchmarks " aus.

Hinweis

Benchmarkdaten sind für alle Modelle im Katalog nicht verfügbar. Wenn ein Modell nicht über eine Registerkarte " Benchmarks " verfügt, wurden die Benchmarkergebnisse für dieses Modell noch nicht veröffentlicht. Benchmarking-Ergebnisse, die von Microsoft durchgeführt werden, stehen für ausgewählte Modelle zur Verfügung. Benchmarking-Informationen, die von Anbietern gemeldet werden, sind, sofern verfügbar, enthalten.

Wenn Sie sich auf der Registerkarte "Benchmarks " für ein bestimmtes Modell befinden, können Sie umfangreiche Informationen sammeln, um die Benchmarkergebnisse besser zu verstehen und zu interpretieren:

  • Ergebnisse des öffentlichen Daten-Benchmarks: Allgemeine Aggregierte Bewertungen für KI-Qualität, Sicherheit, geschätzte Kosten, Latenz und Durchsatz, die einen schnellen Überblick über die Leistung des Modells bieten.

  • Vergleichsdiagramme: Diese Diagramme zeigen die relative Position des Modells im Vergleich zu verwandten Modellen an.

  • Metrikvergleichstabelle: Diese Tabelle enthält detaillierte Ergebnisse für jede Metrik.

    Screenshot der Metrikvergleichstabelle auf der Registerkarte

Standardmäßig zeigt Foundry einen durchschnittlichen Index für verschiedene Metriken und Datasets an, um eine allgemeine Übersicht über die Modellleistung bereitzustellen.

Tipp

Benchmarkbewertungen sind normalisierte Indizes. Eine höhere Bewertung zeigt eine bessere Leistung für Qualitäts- und Sicherheitsmetriken an. Für Kosten und Durchsatz werden niedrigere geschätzte Kosten und höherer Durchsatz im Allgemeinen bevorzugt. Verwenden Sie die Kompromissdiagramme , um diese konkurrierenden Kriterien für Ihr Szenario abzuwägen.

So greifen Sie auf Benchmarkergebnisse für eine bestimmte Metrik und ein bestimmtes Dataset zu:

  1. Wählen Sie die Schaltfläche "Erweitern" im Diagramm aus. Das Popupvergleichsdiagramm zeigt detaillierte Informationen an und bietet eine größere Flexibilität für den Vergleich.

  2. Wählen Sie die Metrik des Interesses aus, und wählen Sie verschiedene Datasets basierend auf Ihrem jeweiligen Szenario aus. Ausführlichere Definitionen der Metriken und Beschreibungen der öffentlichen Datasets, die zum Berechnen von Ergebnissen verwendet werden, finden Sie unter "Weitere Informationen".

Vergleichen Sie bei parallelen Modellvergleichen Modelle, um Features, Leistungsmetriken und geschätzte Kosten für mehrere Modelle auszuwerten.

Hinweis

Die Option " Mit eigenen Daten testen" auf der Registerkarte "Benchmarks" ist nur in Foundry (klassisch) verfügbar. Informationen zum Auswerten eines Modells mit ihren eigenen Daten im neuen Portal finden Sie unter Evaluate generative AI Apps.

Problembehandlung

Angelegenheit Auflösung
Das Modell wird nicht in der Bestenliste angezeigt. Nicht alle Modelle sind bewertet. Überprüfen Sie den Modellkatalog auf Verfügbarkeit.
Keine Registerkarte „Benchmarks“ auf der Modellkarte vorhanden. Benchmarkergebnisse wurden für dieses Modell noch nicht veröffentlicht.
Benchmark-Bewertungen unterscheiden sich von meinen Ergebnissen Öffentliche Benchmarks verwenden standardisierte Datasets und spiegeln möglicherweise die Leistung Ihrer spezifischen Daten nicht wider. Informationen zum Auswerten eines Modells mit ihren eigenen Daten finden Sie unter Evaluieren von generativen KI-Apps.
Trade-off-Diagramm zeigt keine Datenpunkte an Stellen Sie sicher, dass in der Modellauswahl Modelle ausgewählt sind. Für Kompromissvergleiche sind mindestens zwei Modelle erforderlich.
Mehr als drei Modelle können nicht verglichen werden Die nebeneinander angeordnete Vergleichsansicht unterstützt maximal drei Modelle. Deaktivieren Sie die Auswahl eines Modells, bevor Sie ein anderes hinzufügen.
Benchmark-Bewertungen scheinen veraltet zu sein. Microsoft aktualisiert benchmark-Bewertungen regelmäßig. Überprüfen Sie die Modelldetailseite auf das Bewertungsdatum des Benchmarks.