Modellera rankningslistor i Microsoft Foundry-portalen (förhandsversion)

Viktigt

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.

Modellrankningslistor (förhandsversion) i Foundry-portalen hjälper dig att jämföra modeller i Foundry-modellkatalogen med hjälp av modellmått av branschstandard.

Kom igång genom att jämföra och välja modeller med hjälp av modelllistan i Foundry-portalen.

Du kan granska detaljerad benchmarkingmetodik för varje rankningslista:

Kvalitetsmätning av språkmodeller för att förstå hur väl modeller presterar på kärnuppgifter, inklusive resonemang, kunskap, frågesvar, matematik och kodning.
Säkerhetsmätning av språkmodeller för att förstå hur säkra modeller är mot skadlig beteendegenerering.
Prestandamätning av språkmodeller för att förstå hur modeller presterar när det gäller svarstid och dataflöde.
Kostnadsmätning av språkmodeller för att förstå den uppskattade kostnaden för att använda modeller.
Benchmarking av språkmodeller i scenariotabellen som hjälper dig att hitta den bästa modellen för ditt specifika användningsfall eller scenario.
Kvalitetsmätning av inbäddningsmodeller för att förstå hur bra modeller presterar på inbäddningsbaserade uppgifter, inklusive sökning och hämtning.

När du hittar en lämplig modell kan du öppna dess detaljerade prestandaresultat i modellkatalogen. Därifrån kan du distribuera modellen, prova den på lekplatsen eller utvärdera den på dina egna data. Rankningslistorna stöder benchmarking för textspråkmodeller (inklusive stora språkmodeller (LLMs) och små språkmodeller (SLM)) och inbäddningsmodeller.

Modellmått utvärderar LLM:er och SLI:er för kvalitet, säkerhet, kostnad och dataflöde. Inbäddningsmodeller utvärderas med standardkvalitetsmått. Rankningslistorna uppdateras när nya modeller och benchmark-datamängder blir tillgängliga.

Modellmätningsomfång

Modellrankningslistorna har ett kuraterat urval av textbaserade språkmodeller från foundry-modellkatalogen. Modeller ingår baserat på följande kriterier:

Azure Direct Models prioriteras: Azure Direct Models väljs för relevans för vanliga generativa AI-scenarier.
Grundläggande prestandatillämpbarhet: Modeller måste stödja allmänna språkuppgifter som resonemang, kunskap, frågesvar, matematiska resonemang och kodning. Specialiserade modeller (till exempel proteindelegering eller domänspecifik QA) och andra metoder stöds inte.

Det här omfånget säkerställer att rankningslistorna återspeglar aktuella modeller av hög kvalitet som är relevanta för grundläggande AI-scenarier.

Tolka resultat från rankningslistan

Rankningslistorna hjälper dig att jämföra modeller mellan flera dimensioner så att du kan välja rätt modell för ditt användningsfall. Här följer några riktlinjer för att tolka resultaten:

Kvalitetsindex: Ett index av högre kvalitet indikerar starkare övergripande prestanda för resonemang, kodning, matematik och kunskapsuppgifter. Jämför kvalitetsindexet mellan modeller för att identifiera toppmodeller för allmänna språkuppgifter.
Säkerhetspoäng: Lägre frekvens för lyckade attacker indikerar mer robusta modeller. Överväg säkerhetspoäng tillsammans med kvalitetspoäng, särskilt för kundinriktade program där skadliga utdata är ett betydande problem.
Prestandavägningar: Använd måtten för svarstid och dataflöde för att förstå den verkliga svarstiden för en modell. En modell med hög kvalitet men hög svarstid kanske inte passar för realtidsprogram.
Kostnadsöverväganden: Det uppskattade kostnadsmåttet använder ett tokenförhållande mellan tre och ett för indata till utdata. Justera dina förväntningar baserat på den faktiska arbetsbelastningens indata-till-utdata-förhållande.
Scenariorankningslistor: Om ditt användningsfall mappar till ett specifikt scenario (till exempel kodning eller matematik) börjar du med scenariots rankningslista för att hitta modeller som är optimerade för den uppgiften i stället för att enbart förlita sig på det övergripande kvalitetsindexet.

Tips

Benchmarks för rankningslistor ger standardiserade jämförelser mellan modeller med hjälp av offentliga datamängder. Information om hur du utvärderar modellprestanda för specifika data och användningsfall finns i Utvärdera dina generativa AI-appar.

Kvalitetsmått för språkmodeller

Foundry utvärderar kvaliteten på LLM:er och SLI:er med hjälp av noggrannhetspoäng från standarddatauppsättningar för benchmark som mäter resonemang, kunskap, frågesvar, matematik och kodningsfunktioner.

Index	Beskrivning
Kvalitetsindex	Beräknas genom medelvärde av tillämpliga noggrannhetspoäng (`exact_match`, `pass@1`, `arena_hard`) för jämförelsedatauppsättningar.

Kvalitetsindexvärden varierar från noll till ett, där högre värden indikerar bättre prestanda. De datauppsättningar som ingår i kvalitetsindexet är:

Namn på datauppsättning	Kategori
bigbench_hard (nedsamplas till 1 000 exempel)	Resonemang
chembench	Kemi
frontierscience	Vetenskapligt resonemang
gpqa	Kvalitetssäkring
mbppplus	Kodning
mmlu_pro (nedsamplad till 1 000 exempel)	Allmän kunskap
musr	Resonemang
tau2_telecom	Val av agent och verktygsanrop

Se mer information i noggrannhetspoäng:

Metrik Beskrivning

Noggrannhet Noggrannhetspoäng är tillgängliga på datamängden och modellnivåerna. På datamängdsnivå är poängen det genomsnittliga värdet för ett noggrannhetsmått som beräknas över alla exempel i datamängden. Det noggrannhetsmått som används är exact_match i alla fall, förutom de HumanEval - och MBPP-datauppsättningar som använder ett pass@1 mått. Exakt jämförelse jämför modellgenererad text med rätt svar enligt datauppsättningen och rapporterar ett om den genererade texten exakt matchar svaret, annars noll. Måttet pass@1 mäter andelen modelllösningar som klarar en uppsättning enhetstester i en kodgenereringsaktivitet. På modellnivå är noggrannhetspoängen medelvärdet av noggrannheten på datauppsättningsnivå för varje modell.

Metrik	Beskrivning
Noggrannhet	Noggrannhetspoäng är tillgängliga på datamängden och modellnivåerna. På datamängdsnivå är poängen det genomsnittliga värdet för ett noggrannhetsmått som beräknas över alla exempel i datamängden. Det noggrannhetsmått som används är `exact_match` i alla fall, förutom de HumanEval - och MBPP-datauppsättningar som använder ett `pass@1` mått. Exakt jämförelse jämför modellgenererad text med rätt svar enligt datauppsättningen och rapporterar ett om den genererade texten exakt matchar svaret, annars noll. Måttet `pass@1` mäter andelen modelllösningar som klarar en uppsättning enhetstester i en kodgenereringsaktivitet. På modellnivå är noggrannhetspoängen medelvärdet av noggrannheten på datauppsättningsnivå för varje modell.

Noggrannhetspoängen varierar från noll till en, där högre värden är bättre.

Säkerhetsmått för språkmodeller

Säkerhetsmått väljs genom en strukturerad filtrerings- och valideringsprocess som är utformad för att säkerställa både relevans och noggrannhet. Ett riktmärke kvalificerar sig för införande om det tar itu med högprioriterade risker. Säkerhetslistorna innehåller riktmärken som är tillräckligt tillförlitliga för att ge meningsfulla signaler om ämnen av intresse när de relaterar till säkerhet. Rankningslistorna använder HarmBench till proxymodellsäkerhet och organiserar scenariorankningslistor på följande sätt:

Namn på datauppsättning	Scenario med rankningslista	Metrik	Tolkning
HarmBench (standard)	Vanliga skadliga beteenden	Frekvens för lyckade attacker	Lägre värden innebär bättre robusthet mot attacker som utformats för att framkalla skadligt standardinnehåll
HarmBench (kontextuell)	Kontextuellt skadliga beteenden	Frekvens för lyckade attacker	Lägre värden innebär bättre robusthet mot attacker som utformats för att framkalla kontextuellt skadligt innehåll
HarmBench (upphovsrättsbrott)	Upphovsrättsbrott	Frekvens för lyckade attacker	Lägre värden tyder på starkare robusthet mot upphovsrättsbrott
WMDP	Kunskap om känsliga domäner	Noggrannhet	Högre värden indikerar större kunskap om känsliga domäner
Toxigen	Identifiering av giftigt innehåll	F1-poäng	Högre värden indikerar bättre identifieringsprestanda

Identifiering av skadligt beteende

HarmBench-riktmärket mäter skadliga beteenden med hjälp av uppmaningar som utformats för att framkalla osäkra svar. Den omfattar sju semantiska kategorier:

Cyberbrott och obehörigt intrång
Kemiska och biologiska vapen eller droger
Upphovsrättsbrott
Felaktig information och desinformation
Trakasserier och mobbning
Olagliga aktiviteter
Allmän skada

Dessa kategorier är grupperade i tre funktionella områden:

Vanliga skadliga beteenden
Kontextuellt skadliga beteenden
Upphovsrättsbrott

Varje funktionskategori finns i en separat scenario-rankningslista. Utvärderingen använder direkta uppmaningar från HarmBench (inga attacker) och HarmBench-utvärderare för att beräkna attackframgångsfrekvensen (ASR). Lägre ASR-värden innebär säkrare modeller. Inga attackstrategier används för utvärdering och modellmätning utförs med Foundry Guardrails (tidigare innehållsfilter) inaktiverade.

Identifiering av giftigt innehåll

Toxigen är en storskalig datauppsättning för att identifiera kontradiktorisk och implicit hatpropaganda. Den innehåller implicit giftiga och godartade meningar som refererar till 13 minoritetsgrupper. Foundry använder kommenterade Toxigen-exempel och beräknar F1-poäng för att mäta klassificeringsprestanda. Högre poäng indikerar bättre identifiering av giftigt innehåll. Benchmarking utförs med Foundry Guardrails (tidigare innehållsfilter) inaktiverade.

Kunskap om känslig domän

Weapons of Mass Destruction Proxy (WMDP) Benchmark ( Vapen för massförstörelse ) mäter modellkunskap inom känsliga domäner, inklusive biosäkerhet, cybersäkerhet och kemisk säkerhet. Rankningslistan använder genomsnittliga noggrannhetspoäng för cybersäkerhet, biosäkerhet och kemisk säkerhet. En högre WMDP-noggrannhetspoäng anger mer kunskap om farliga funktioner (sämre beteende ur säkerhetssynpunkt). Modellmätning utförs med standardinställningen Foundry Guardrails (tidigare innehållsfilter) på. Dessa skyddsräcken identifierar och blockerar innehållsskador i våld, självskadebeteende, sexuellt, hat och orättvisa, men riktar sig inte mot kategorier inom cybersäkerhet, biosäkerhet och kemisk säkerhet.

Begränsningar för säkerhetsmått

Säkerhet är ett komplext ämne med flera dimensioner. Inget benchmark med öppen källkod kan testa eller representera systemets fullständiga säkerhet i alla scenarier. Dessutom lider många riktmärken av mättnad eller feljustering mellan benchmark-design och riskdefinition. Vissa riktmärken saknar också tydlig dokumentation om hur målrisker konceptualiseras och operationaliseras, vilket gör det svårt att bedöma om resultaten korrekt fångar upp nyanserna i verkliga risker. Dessa begränsningar kan leda till antingen överskattning eller underskattning av modellprestanda i verkliga säkerhetsscenarier.

Prestandamått för språkmodeller

Prestandamått aggregeras under 14 dagar med 24 utvärderingsversioner per dag, med två begäranden per utvärderingsversion som skickas med entimmesintervall. Om inget annat anges gäller följande standardparametrar för både serverlösa API-distributioner och Azure OpenAI:

Parameter	Värde	Gäller för
Regionen	Östra USA/Östra USA 2	serverlösa API-distributioner och Azure OpenAI
Hastighetsgräns för token per minut (TPM)	30k (180 RPM baserat på Azure OpenAI) för icke-resonemang och 100k för resonemangsmodeller N/A (serverlösa API-distributioner)	För Azure OpenAI-modeller är valet tillgängligt för användare med hastighetsbegränsningsintervall baserat på distributionstyp (serverlöst API, global, global standard och så vidare.) För serverlösa API-distributioner är den här inställningen abstrakt.
Antal begäranden	Två förfrågningar i ett försök varje timme (24 försök per dag)	serverlösa API-distributioner Azure OpenAI
Antal tester/körningar	14 dagar med 24 försök per dag för 336 körningar	serverlösa API-distributioner Azure OpenAI
Längd på fråga/kontext	Måttlig längd	serverlösa API-distributioner Azure OpenAI
Antal bearbetade token (måttliga)	80:20-förhållande för indata till utdatatoken, dvs. 800 indatatoken till 200 utdatatoken.	serverlösa API-distributioner Azure OpenAI
Antal samtidiga begäranden	En (begäranden skickas sekventiellt en efter en)	serverlösa API-distributioner Azure OpenAI
Data	Syntetiskt (indataprompter som förberetts från statisk text)	serverlösa API-distributioner Azure OpenAI
Distributionstyp	serverlöst API	Gäller endast för Azure OpenAI
Streaming	Sant	Gäller för serverlösa API-distributioner och Azure OpenAI. För modeller som distribueras via hanterad beräkning eller för slutpunkter när strömning inte stöds representeras TTFT som P50 för svarstidsmått.
SKU	Standard_NC24ads_A100_v4 (24 kärnor, 220 GB RAM-minne, 64 GB lagring)	Gäller endast för hanterad beräkning (för att beräkna kostnads- och prestandamått)

Prestanda för LLM:er och SLI:er utvärderas i följande mått:

Metrik	Beskrivning
Svarstidsmedelvärde	Genomsnittlig tid i sekunder för att bearbeta en begäran, beräknad över flera begäranden. En begäran skickas till slutpunkten varje timme i två veckor och medelvärdet beräknas.
Svarstid P50	Mediansvarstid (50:e percentilen). 50% begäranden har slutförts inom den här tiden.
Svarstid P90	90:e percentilens svarstid. 90% begäranden har slutförts inom denna tid.
Svarstid P95	95:e percentilens svarstid. 95% begäranden har slutförts inom denna tid.
Fördröjning P99	99:e percentilens svarstid. 99% begäranden har slutförts inom denna tid.
GENOMSTRÖMNING GTPS	Genererade token per sekund (GTPS) är antalet utdatatoken som genereras per sekund från den tidpunkt då begäran skickas till slutpunkten.
Genomströmning TTPS	Totalt antal token per sekund (TTPS) är antalet totalt antal token som bearbetas per sekund, inklusive både från indataprompten och genererade utdatatoken. För modeller som inte stöder strömning representerar tid till första token (ttft) P50-värdet för svarstid (tid det tar att ta emot svaret)
TTFT för svarstid	Total tid till första token (TTFT) är den tid det tar för den första token i svaret att returneras från slutpunkten när strömning är aktiverad.
Tid mellan token	Det här måttet är tiden mellan tokener som har mottagits.

Foundry sammanfattar prestanda med hjälp av:

Metrik	Beskrivning
Latens	Genomsnittlig tid till första token. Lägre är bättre.
Genomströmning	Medelgenererade token per sekund. Högre är bättre.

För prestandamått som svarstid eller dataflöde ger tiden till den första token och de genererade token per sekund en bättre övergripande uppfattning om modellens typiska prestanda och beteende. Prestandanummer uppdateras regelbundet för att återspegla de senaste distributionskonfigurationerna.

Kostnadsmått för språkmodeller

Kostnadsmått mäter den faktiska kostnaden för att köra varje modell på datauppsättningarna för kvalitetsriktmärken i stället för en uppskattad kostnad baserat på tokenpriser.

Referenskostnaden beräknas med hjälp av:

Det faktiska antalet indata-, resonemangs- och utdatatoken som förbrukades under benchmark-körningen.
Modellspecifik konfiguration av resonemang som används för utvärdering (vanligtvis high eller xhigh).
Datamängdsegenskaper och komplexitet, som påverkar användning av tokens och körtid.

Till skillnad från uppskattningar baserade på ett fast tokenförhållande återspeglar den här metoden den verkliga kostnaden från slutpunkt till slutpunkt för att köra benchmark-arbetsbelastningarna.

Så här tolkar du kostnadsresultat

Kostnaden rapporteras i USD per benchmark-körning över standardkvalitetsdatauppsättningar.
Värden representerar verklig körningskostnad och möjliggör direkt jämförelse mellan modeller.
Lägre värden indikerar mer kostnadseffektiva prestanda för benchmark-paketet.

Prestandajämförelse för ledartavla i scenarier

Scenario rankningslistor grupperar benchmark-datauppsättningar efter vanliga verkliga utvärderingsmål. Du kan snabbt identifiera en modells styrkor och svagheter genom användningsfall. Varje scenario aggregerar en eller flera offentliga benchmark-datauppsättningar.

Använd följande tabell för att hitta ditt användningsfall i kolumnen Scenario och granska sedan de associerade benchmark-datauppsättningarna och vad resultatet visar. I följande tabell sammanfattas de tillgängliga scenariernas rankningslistor och deras associerade datauppsättningar och beskrivningar:

Scenario	Datamängder	Beskrivning
Standard skadligt beteende	HarmBench (standard)	Frekvens för lyckade attacker på vanliga skadliga uppmaningar. Lägre är bättre. Se Identifiering av skadligt beteende.
Kontextuellt skadligt beteende	HarmBench (kontextuell)	Frekvens för lyckade attacker på kontextuella skadliga uppmaningar. Lägre är bättre. Se Identifiering av skadligt beteende.
Upphovsrättsbrott	HarmBench (copyright)	Frekvens för lyckade attacker för uppmaningar om upphovsrättsbrott. Lägre är bättre. Se Identifiering av skadligt beteende.
Kunskap om känsliga domäner	WMDP (biosäkerhet, kemisk säkerhet, cybersäkerhet)	Noggrannhet i tre känsliga domänunderuppsättningar. Högre noggrannhet indikerar mer kunskap om känsliga funktioner. Se Kunskap om känslig domän.
Toxicitetsdetektering	ToxiGen (kommenterad)	F1-poäng för identifiering av giftigt innehåll. Högre är bättre. Se Identifiering av giftigt innehåll.
Resonemang	BIG-Bench svår (1 000 delurval)	Bedömning av resonemangsfunktioner. Högre värden är bättre.
Kodning	BigCodeBench (instruera), LiveBench (kodning), LiveCodeBench medium MBPPPlus	Mäter noggrannheten för kodrelaterade uppgifter. Högre värden är bättre.
Allmän kunskap	MMLU-Pro (1K engelska delexempel)	1 000 exempel från en engelskspråkig delmängd av MMLU-Pro.
Fråga och svar	Arena-Hard, GPQA (diamant)	Adversarial mänsklig preferens QA (Arena-Hard) och tvärvetenskaplig QA på avancerad nivå (GPQA DIAMANT). Högre värden är bättre.
Matematik	MATEMATIK (500 delexempel)	Mäter matematiska resonemangsfunktioner i språkmodeller. Högre värden är bättre.
Jordning	TruthfulQA (MC1)	Bedömning med flervalsalternativ av språkmodellers grundlighet och sanningsenlighet. Högre värden är bättre.

Kvalitetsmått för inbäddningsmodeller

Kvalitetsindexet för inbäddningsmodeller definieras som de genomsnittliga noggrannhetspoängen för en omfattande uppsättning serverlösa API-benchmark-datauppsättningar som riktar sig till uppgifter för informationshämtning, dokumentklustring och sammanfattning.

Metrik	Beskrivning
Noggrannhet	Noggrannhet är andelen korrekta förutsägelser bland det totala antalet bearbetade förutsägelser.
F1-poäng	F1 Score är det viktade medelvärdet av precisionen och träffsäkerheten, där det bästa värdet är ett (perfekt precision och träffsäkerhet) och det sämsta är noll.
Genomsnittlig precision (MAP)	MAP utvärderar kvaliteten på rangordnings- och rekommendationssystem. Den mäter både relevansen av föreslagna objekt och hur bra systemet är på att placera mer relevanta objekt högst upp. Värden kan variera från noll till en, och ju högre MAP, desto bättre kan systemet placera relevanta objekt högt i listan.
Normaliserad rabatterad ackumulerad vinst (NDCG)	NDCG utvärderar en maskininlärningsalgoritms förmåga att sortera objekt baserat på relevans. Den jämför rangordningen med en idealisk ordning där alla relevanta objekt finns överst i listan, där k är listlängden vid utvärdering av rangordningskvalitet. I dessa riktmärken, k=10, som anges av ett mått på `ndcg_at_10`, vilket innebär att de 10 främsta objekten utvärderas.
Precision	Precision mäter modellens förmåga att identifiera instanser av en viss klass korrekt. Precision visar hur ofta en maskininlärningsmodell är korrekt när målklassen förutsägas.
Spearman-korrelation	Spearman-korrelation baserat på cosininlikitet beräknas genom att först beräkna cosinnigheten mellan variabler, sedan rangordna dessa poäng och använda rangordningen för att beräkna Spearman-korrelationen.
V-mått	V-mått är ett mått som används för att utvärdera klustringskvaliteten. V-mått beräknas som ett harmoniskt medelvärde av homogenitet och fullständighet, vilket säkerställer en balans mellan de två för en meningsfull poäng. Möjliga poäng ligger mellan noll och en, där en är helt komplett etikettering.

Beräkning av poäng

Individuella poäng

Benchmark-resultat kommer från offentliga datauppsättningar som ofta används för utvärdering av språkmodeller. I de flesta fall finns data i GitHub lagringsplatser som underhålls av dataskaparna eller kuratorerna. Foundry-utvärderingspipelines laddar ned data från sina ursprungliga källor, extraherar frågor från varje exempelrad, genererar modellsvar och beräknar sedan relevanta noggrannhetsmått.

"Prompt-konstruktion följer de bästa praxis för varje datauppsättning, enligt det dokument som introducerade datauppsättningen och branschstandarder." I de flesta fall innehåller varje fråga flera bilder, det vill säga flera exempel på fullständiga frågor och svar för att få fram modellen för uppgiften. Antalet bilder varierar beroende på datamängd och följer den metod som anges i varje datauppsättnings ursprungliga publikation. Utvärderingspipelines skapar bilder genom att ta prover på frågor och svar från en del av de data som hålls borta från utvärderingen.

Benchmark-begränsningar

Alla riktmärken har inneboende begränsningar som du bör tänka på när du tolkar resultat:

Kvalitetsmått: Benchmark-datamängder kan bli mättade över tid när modeller tränas eller finjusteras på liknande data. Utvärderingsresultaten kan också variera beroende på snabb konstruktion och antalet exempel med få skott som används.
Prestandamått: Mått samlas in med syntetiska arbetsbelastningar med ett fast tokenförhållande för indata till utdata och distributioner i en region. Verkliga prestanda kan variera beroende på arbetsbelastningsmönster, samtidighet, region och distributionskonfiguration.
Kostnadsmått: Kostnadsuppskattningar baseras på ett tokenförhållande mellan tre och ett för indata till utdata och aktuell prissättning vid tidpunkten för mätningen. Faktiska kostnader beror på din arbetsbelastning och omfattas av prisändringar.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-30