Auswählen von Modellen mit Benchmarks
Bevor Sie ein Modell bereitstellen, möchten Sie verstehen, wie es in verschiedenen Dimensionen ausgeführt wird. Modell-Benchmarks bieten objektive, messbare Daten, mit denen Sie Modelle vergleichen und fundierte Auswahlentscheidungen treffen können. Das Microsoft Foundry-Portal bietet umfassende Benchmarking-Tools, die in Qualität, Sicherheit, Kosten und Leistungsmetriken organisiert sind.
Zugriffsmodell-Benchmarks
Sie können Benchmarks auf zwei Arten im Microsoft Foundry-Portal erkunden:
Zeigen Sie im Modellkatalog das Modell-Leaderboard an, um vergleichende Rangfolgen für alle verfügbaren Modelle anzuzeigen. Mit dieser Ansicht können Sie leistungsstärkste Modelle für bestimmte Metriken oder Szenarien identifizieren. Auf der Bestenliste werden top-Modelle nach Qualität, Sicherheit, geschätzten Kosten und Durchsatz bewertet.
Wenn Sie detaillierte Benchmarks für ein bestimmtes Modell anzeigen möchten, öffnen Sie die Modellkarte, und wählen Sie die Registerkarte "Benchmarks " aus. In dieser Ansicht wird gezeigt, wie das einzelne Modell über verschiedene Metriken und Datasets hinweg ausgeführt wird, wobei Vergleichsdiagramme relativ zu ähnlichen Modellen platziert werden.
Qualitäts-Benchmarks
Qualitäts-Benchmarks bewerten, wie gut ein Modell genaue, kohärente und kontextbezogene Antworten generiert. Diese Metriken verwenden öffentliche Datasets und standardisierte Auswertungsmethoden, um Konsistenz zu gewährleisten.
Der Qualitätsindex bietet einen allgemeinen Überblick über die durchschnittlichen Genauigkeitsbewertungen in mehreren Benchmark-Datasets, die die Gründe, Kenntnisse, Frageantworten, mathematische Fähigkeiten und Codierungskompetenzen messen. Höhere Indexwerte deuten auf eine stärkere Gesamtleistung bei allgemeinen Sprachaufgaben hin.
Qualitäts-Benchmarks verwenden Datasets wie:
- Arena-Hard - adversarielle Fragebeantwortung
- BIG-Bench Hard – Denkfähigkeiten
- GPQA - Multidisziplinsfragen auf Graduiertenebene
- HumanEval+ und MBPP+ – Aufgaben zur Codegenerierung
- MATHEMATIK - mathematisches Denken
- MMLU-Pro - Allgemeine Wissensbewertung
- IFEval - Anweisungsbefolgung
Benchmark-Bewertungen sind normalisierte Indizes von Null bis 1, wobei höhere Werte eine bessere Leistung angeben.
Sicherheits-Benchmarks
Sicherheitsmetriken stellen sicher, dass Modelle keine schädlichen, voreingenommenen oder unangemessenen Inhalte generieren. Diese Benchmarks sind für Anwendungen von entscheidender Bedeutung, die Endbenutzern ausgesetzt sind, insbesondere in regulierten Branchen oder kundenorientierten Szenarien.
Microsoft Foundry wertet Modelle in mehreren Sicherheitsdimensionen aus:
Die Erkennung schädlicher Verhaltensweisen verwendet den HarmBench-Benchmark, um zu messen, wie gut Modelle dem Generieren unsicherer Inhalte widerstehen. Die Auswertung berechnet die Angriffserfolgsrate (ATTACK Success Rate, ASR), wobei niedrigere Werte sicherere, stabilere Modelle angeben. HarmBench testet drei Funktionsbereiche:
- Standard schädliche Verhaltensweisen - Cyberkriminalität, illegale Aktivitäten, allgemeiner Schaden
- Kontextbezogenes schädliches Verhalten – Fehlinformationen, Belästigung, Mobbing
- Urheberrechtsverletzungen - Vervielfältigung urheberrechtlich geschützter Materialien
Toxische Inhaltserkennung verwendet das ToxiGen-Dataset, um zu messen, wie gut Modelle adversariale und implizite Hassrede identifizieren. Höhere F1-Bewertungen deuten auf eine bessere Erkennungsleistung in Bezug auf Minderheitengruppen hin.
Vertrauliche Domänenkenntnisse verwendet den WMDP-Benchmark (Proxy für Massenvernichtungswaffen), um Modellwissen in Biosicherheit, Cybersicherheit und chemischer Sicherheit zu messen. Höhere WMDP-Bewertungen deuten auf mehr Wissen über potenziell gefährliche Fähigkeiten hin.
Sicherheitsbewertungen helfen Ihnen, die Modellfestigkeit zu verstehen, besonders wichtig für kundenorientierte Anwendungen, bei denen schädliche Ergebnisse erhebliche Bedenken darstellen.
Kosten-Benchmarks
Wenn Sie die finanziellen Auswirkungen der Modellnutzung verstehen, können Sie die Qualitätsanforderungen mit Budgeteinschränkungen ausgleichen. Kosten-Benchmarks in Microsoft Foundry zeigen Preise für serverlose API-Bereitstellungen und Azure OpenAI-Modelle an.
Kosten pro Eingabetoken zeigen den Preis für die Verarbeitung von 1 Millionen Eingabetoken an (der Text, den Sie an das Modell senden).
Kosten pro Ausgabetoken geben den Preis für das Generieren von 1 Millionen Ausgabetoken an (der Text, den das Modell erzeugt).
Geschätzte Kosten kombinieren Eingabe- und Ausgabekosten mit einem typischen Verhältnis von 3:1 (drei Eingabetoken für jedes Ausgabetoken), sodass Sie eine einzelne Zahl für den Vergleich erhalten. Niedrigere Werte deuten auf kostengünstigere Modelle hin.
Kosten-Benchmarks helfen Ihnen dabei, Modelle zu identifizieren, die die benötigte Qualität zu einem Preispunkt liefern, der den Nutzungsmustern und dem Budget Ihrer Anwendung entspricht.
Leistungsbenchmarks
Leistungsmetriken messen, wie schnell und effizient Modelle auf Anforderungen reagieren. Diese Benchmarks sind für Echtzeitanwendungen wichtig, bei denen die Benutzererfahrung von der Reaktionsfähigkeit abhängt.
Zu den Latenzmessungen gehören:
- Latenzmittelwert – durchschnittliche Zeit in Sekunden zum Verarbeiten einer Anforderung
- Latenz P50 (Median) – 50% der Anfragen werden schneller als diese Zeit abgeschlossen
- Latenz P90 - 90% der Anfragen werden schneller als in dieser Zeit abgeschlossen.
- Latenz P95 - 95 % der Anfragen werden schneller als zu dieser Zeit abgeschlossen
- Latenz P99 - 99% der Anfragen werden in weniger als dieser Zeit abgeschlossen
- Zeit bis zum ersten Token (TTFT) – Zeit bis das erste Token bei Verwendung des Streamings eintrifft
Zu den Durchsatzmessungen gehören:
- Generierte Token pro Sekunde (GTPS) – Ausgabetoken, die pro Sekunde generiert werden
- Gesamttoken pro Sekunde (TTPS) – kombinierte Eingabe- und Ausgabetoken pro Sekunde verarbeitet
- Zeit zwischen Token – Intervall zwischen dem Empfangen aufeinander folgender Token
Das Leaderboard fasst die Leistung mithilfe der mittleren Zeit zum ersten Token zusammen (niedriger ist besser) und die mittleren generierten Token pro Sekunde (höher ist besser). Modelle mit hohem Durchsatz und niedriger Latenz bieten eine bessere Benutzererfahrung in interaktiven Anwendungen. Bei Batchverarbeitungsaufträgen, bei denen die Geschwindigkeit kleiner als die Kosten ist, können Sie andere Faktoren priorisieren.
Verwendung von Bestenlisten und Vergleichsfunktionen
Mit dem Modell-Leaderboard können Sie top-Modelle für bestimmte Metriken anzeigen. Sie können nach Qualität, Sicherheit, geschätzten Kosten und Durchsatz sortieren, um Modelle zu identifizieren, die Ihren Anforderungen am besten entsprechen.
Szenario-Bestenlisten helfen Ihnen bei der Suche nach Modellen, die für bestimmte Anwendungsfälle optimiert sind, z. B. Reasoning, Coding, Mathe, Frageantworten oder Geerdetheit. Wenn Ihre Anwendung einem bestimmten Szenario zugeordnet ist, beginnen Sie mit dem relevanten Szenario-Leaderboard, anstatt sich ausschließlich auf den allgemeinen Qualitätsindex zu verlassen.
Trade-off-Diagramme zeigen zwei Metriken gleichzeitig an, z. B. Qualität im Vergleich zu Kosten oder Qualität im Vergleich zum Durchsatz. Diese Visualisierungen helfen Ihnen dabei, das optimale Gleichgewicht für Ihre Anforderungen zu finden. Verwenden Sie die Dropdownliste, um die Qualität mit Kosten, Durchsatz oder Sicherheit zu vergleichen. Modelle, die sich näher an der oberen rechten Ecke des Diagramms befinden, sind für beide Metriken gut geeignet. Ein Modell, das etwas weniger genau ist, aber deutlich schneller oder billiger ist, kann Ihre Bedürfnisse besser erfüllen.
Mit dem Parallelvergleich können Sie zwei oder drei Modelle aus der Bestenliste auswählen und über mehrere Dimensionen vergleichen:
- Leistungs-Benchmarks (Qualität, Sicherheit, Durchsatz)
- Modelldetails (Kontextfenster, Schulungsdaten, unterstützte Sprachen)
- Unterstützte Endpunkte (Bereitstellungsoptionen)
- Featureunterstützung (Funktionsaufrufe, strukturierte Ausgabe, Vision)
Wählen Sie Modelle aus, indem Sie Kontrollkästchen neben ihren Namen aktivieren und dann "Vergleichen " auswählen, um die detaillierte Vergleichsansicht zu öffnen.