Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt
Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.
Modellrankningslistor (förhandsversion) i Foundry-portalen hjälper dig att jämföra modeller i Foundry-modellkatalogen med hjälp av modellmått av branschstandard.
Kom igång genom att jämföra och välja modeller med hjälp av modelllistan i Foundry-portalen.
Du kan granska detaljerad benchmarkingmetodik för varje rankningslista:
- Kvalitetsmätning av språkmodeller för att förstå hur väl modeller presterar på kärnuppgifter, inklusive resonemang, kunskap, frågesvar, matematik och kodning.
- Säkerhetsmätning av språkmodeller för att förstå hur säkra modeller är mot skadlig beteendegenerering.
- Prestandamätning av språkmodeller för att förstå hur modeller presterar när det gäller svarstid och dataflöde.
- Kostnadsmätning av språkmodeller för att förstå den uppskattade kostnaden för att använda modeller.
- Benchmarking av språkmodeller i scenariotabellen som hjälper dig att hitta den bästa modellen för ditt specifika användningsfall eller scenario.
- Kvalitetsmätning av inbäddningsmodeller för att förstå hur bra modeller presterar på inbäddningsbaserade uppgifter, inklusive sökning och hämtning.
När du hittar en lämplig modell kan du öppna dess detaljerade prestandaresultat i modellkatalogen. Därifrån kan du distribuera modellen, prova den på lekplatsen eller utvärdera den på dina egna data. Rankningslistorna stöder benchmarking för textspråkmodeller (inklusive stora språkmodeller (LLMs) och små språkmodeller (SLM)) och inbäddningsmodeller.
Modellmått utvärderar LLM:er och SLI:er för kvalitet, säkerhet, kostnad och dataflöde. Inbäddningsmodeller utvärderas med standardkvalitetsmått. Rankningslistorna uppdateras när nya modeller och benchmark-datamängder blir tillgängliga.
Modellmätningsomfång
Modellrankningslistorna har ett kuraterat urval av textbaserade språkmodeller från foundry-modellkatalogen. Modeller ingår baserat på följande kriterier:
- Azure Direct Models prioriteras: Azure Direct Models väljs för relevans för vanliga generativa AI-scenarier.
- Grundläggande prestandatillämpbarhet: Modeller måste stödja allmänna språkuppgifter som resonemang, kunskap, frågesvar, matematiska resonemang och kodning. Specialiserade modeller (till exempel proteindelegering eller domänspecifik QA) och andra metoder stöds inte.
Det här omfånget säkerställer att rankningslistorna återspeglar aktuella modeller av hög kvalitet som är relevanta för grundläggande AI-scenarier.
Tolka resultat från rankningslistan
Rankningslistorna hjälper dig att jämföra modeller mellan flera dimensioner så att du kan välja rätt modell för ditt användningsfall. Här följer några riktlinjer för att tolka resultaten:
- Kvalitetsindex: Ett index av högre kvalitet indikerar starkare övergripande prestanda för resonemang, kodning, matematik och kunskapsuppgifter. Jämför kvalitetsindexet mellan modeller för att identifiera toppmodeller för allmänna språkuppgifter.
- Säkerhetspoäng: Lägre frekvens för lyckade attacker indikerar mer robusta modeller. Överväg säkerhetspoäng tillsammans med kvalitetspoäng, särskilt för kundinriktade program där skadliga utdata är ett betydande problem.
- Prestandavägningar: Använd måtten för svarstid och dataflöde för att förstå den verkliga svarstiden för en modell. En modell med hög kvalitet men hög svarstid kanske inte passar för realtidsprogram.
- Kostnadsöverväganden: Det uppskattade kostnadsmåttet använder ett tokenförhållande mellan tre och ett för indata till utdata. Justera dina förväntningar baserat på den faktiska arbetsbelastningens indata-till-utdata-förhållande.
- Scenariorankningslistor: Om ditt användningsfall mappar till ett specifikt scenario (till exempel kodning eller matematik) börjar du med scenariots rankningslista för att hitta modeller som är optimerade för den uppgiften i stället för att enbart förlita sig på det övergripande kvalitetsindexet.
Tips
Benchmarks för rankningslistor ger standardiserade jämförelser mellan modeller med hjälp av offentliga datamängder. Information om hur du utvärderar modellprestanda för specifika data och användningsfall finns i Utvärdera dina generativa AI-appar.
Kvalitetsmått för språkmodeller
Foundry utvärderar kvaliteten på LLM:er och SLI:er med hjälp av noggrannhetspoäng från standarddatauppsättningar för benchmark som mäter resonemang, kunskap, frågesvar, matematik och kodningsfunktioner.
| Index | Beskrivning |
|---|---|
| Kvalitetsindex | Beräknas genom medelvärde av tillämpliga noggrannhetspoäng (exact_match, pass@1, arena_hard) för jämförelsedatauppsättningar. |
Kvalitetsindexvärden varierar från noll till ett, där högre värden indikerar bättre prestanda. De datauppsättningar som ingår i kvalitetsindexet är:
| Namn på datauppsättning | Kategori |
|---|---|
| bigbench_hard (nedsamplas till 1 000 exempel) | Resonemang |
| chembench | Kemi |
| frontierscience | Vetenskapligt resonemang |
| gpqa | Kvalitetssäkring |
| mbppplus | Kodning |
| mmlu_pro (nedsamplad till 1 000 exempel) | Allmän kunskap |
| musr | Resonemang |
| tau2_telecom | Val av agent och verktygsanrop |
Se mer information i noggrannhetspoäng:
| Metrik | Beskrivning |
|---|---|
| Noggrannhet | Noggrannhetspoäng är tillgängliga på datamängden och modellnivåerna. På datamängdsnivå är poängen det genomsnittliga värdet för ett noggrannhetsmått som beräknas över alla exempel i datamängden. Det noggrannhetsmått som används är exact_match i alla fall, förutom de HumanEval - och MBPP-datauppsättningar som använder ett pass@1 mått. Exakt jämförelse jämför modellgenererad text med rätt svar enligt datauppsättningen och rapporterar ett om den genererade texten exakt matchar svaret, annars noll. Måttet pass@1 mäter andelen modelllösningar som klarar en uppsättning enhetstester i en kodgenereringsaktivitet. På modellnivå är noggrannhetspoängen medelvärdet av noggrannheten på datauppsättningsnivå för varje modell. |
Noggrannhetspoängen varierar från noll till en, där högre värden är bättre.
Säkerhetsmått för språkmodeller
Säkerhetsmått väljs genom en strukturerad filtrerings- och valideringsprocess som är utformad för att säkerställa både relevans och noggrannhet. Ett riktmärke kvalificerar sig för införande om det tar itu med högprioriterade risker. Säkerhetslistorna innehåller riktmärken som är tillräckligt tillförlitliga för att ge meningsfulla signaler om ämnen av intresse när de relaterar till säkerhet. Rankningslistorna använder HarmBench till proxymodellsäkerhet och organiserar scenariorankningslistor på följande sätt:
| Namn på datauppsättning | Scenario med rankningslista | Metrik | Tolkning |
|---|---|---|---|
| HarmBench (standard) | Vanliga skadliga beteenden | Frekvens för lyckade attacker | Lägre värden innebär bättre robusthet mot attacker som utformats för att framkalla skadligt standardinnehåll |
| HarmBench (kontextuell) | Kontextuellt skadliga beteenden | Frekvens för lyckade attacker | Lägre värden innebär bättre robusthet mot attacker som utformats för att framkalla kontextuellt skadligt innehåll |
| HarmBench (upphovsrättsbrott) | Upphovsrättsbrott | Frekvens för lyckade attacker | Lägre värden tyder på starkare robusthet mot upphovsrättsbrott |
| WMDP | Kunskap om känsliga domäner | Noggrannhet | Högre värden indikerar större kunskap om känsliga domäner |
| Toxigen | Identifiering av giftigt innehåll | F1-poäng | Högre värden indikerar bättre identifieringsprestanda |
Identifiering av skadligt beteende
HarmBench-riktmärket mäter skadliga beteenden med hjälp av uppmaningar som utformats för att framkalla osäkra svar. Den omfattar sju semantiska kategorier:
- Cyberbrott och obehörigt intrång
- Kemiska och biologiska vapen eller droger
- Upphovsrättsbrott
- Felaktig information och desinformation
- Trakasserier och mobbning
- Olagliga aktiviteter
- Allmän skada
Dessa kategorier är grupperade i tre funktionella områden:
- Vanliga skadliga beteenden
- Kontextuellt skadliga beteenden
- Upphovsrättsbrott
Varje funktionskategori finns i en separat scenario-rankningslista. Utvärderingen använder direkta uppmaningar från HarmBench (inga attacker) och HarmBench-utvärderare för att beräkna attackframgångsfrekvensen (ASR). Lägre ASR-värden innebär säkrare modeller. Inga attackstrategier används för utvärdering och modellmätning utförs med Foundry Guardrails (tidigare innehållsfilter) inaktiverade.
Identifiering av giftigt innehåll
Toxigen är en storskalig datauppsättning för att identifiera kontradiktorisk och implicit hatpropaganda. Den innehåller implicit giftiga och godartade meningar som refererar till 13 minoritetsgrupper. Foundry använder kommenterade Toxigen-exempel och beräknar F1-poäng för att mäta klassificeringsprestanda. Högre poäng indikerar bättre identifiering av giftigt innehåll. Benchmarking utförs med Foundry Guardrails (tidigare innehållsfilter) inaktiverade.
Kunskap om känslig domän
Weapons of Mass Destruction Proxy (WMDP) Benchmark ( Vapen för massförstörelse ) mäter modellkunskap inom känsliga domäner, inklusive biosäkerhet, cybersäkerhet och kemisk säkerhet. Rankningslistan använder genomsnittliga noggrannhetspoäng för cybersäkerhet, biosäkerhet och kemisk säkerhet. En högre WMDP-noggrannhetspoäng anger mer kunskap om farliga funktioner (sämre beteende ur säkerhetssynpunkt). Modellmätning utförs med standardinställningen Foundry Guardrails (tidigare innehållsfilter) på. Dessa skyddsräcken identifierar och blockerar innehållsskador i våld, självskadebeteende, sexuellt, hat och orättvisa, men riktar sig inte mot kategorier inom cybersäkerhet, biosäkerhet och kemisk säkerhet.
Begränsningar för säkerhetsmått
Säkerhet är ett komplext ämne med flera dimensioner. Inget benchmark med öppen källkod kan testa eller representera systemets fullständiga säkerhet i alla scenarier. Dessutom lider många riktmärken av mättnad eller feljustering mellan benchmark-design och riskdefinition. Vissa riktmärken saknar också tydlig dokumentation om hur målrisker konceptualiseras och operationaliseras, vilket gör det svårt att bedöma om resultaten korrekt fångar upp nyanserna i verkliga risker. Dessa begränsningar kan leda till antingen överskattning eller underskattning av modellprestanda i verkliga säkerhetsscenarier.
Prestandamått för språkmodeller
Prestandamått aggregeras under 14 dagar med 24 utvärderingsversioner per dag, med två begäranden per utvärderingsversion som skickas med entimmesintervall. Om inget annat anges gäller följande standardparametrar för både serverlösa API-distributioner och Azure OpenAI:
| Parameter | Värde | Gäller för |
|---|---|---|
| Regionen | Östra USA/Östra USA 2 | serverlösa API-distributioner och Azure OpenAI |
| Hastighetsgräns för token per minut (TPM) | 30k (180 RPM baserat på Azure OpenAI) för icke-resonemang och 100k för resonemangsmodeller N/A (serverlösa API-distributioner) |
För Azure OpenAI-modeller är valet tillgängligt för användare med hastighetsbegränsningsintervall baserat på distributionstyp (serverlöst API, global, global standard och så vidare.) För serverlösa API-distributioner är den här inställningen abstrakt. |
| Antal begäranden | Två förfrågningar i ett försök varje timme (24 försök per dag) | serverlösa API-distributioner Azure OpenAI |
| Antal tester/körningar | 14 dagar med 24 försök per dag för 336 körningar | serverlösa API-distributioner Azure OpenAI |
| Längd på fråga/kontext | Måttlig längd | serverlösa API-distributioner Azure OpenAI |
| Antal bearbetade token (måttliga) | 80:20-förhållande för indata till utdatatoken, dvs. 800 indatatoken till 200 utdatatoken. | serverlösa API-distributioner Azure OpenAI |
| Antal samtidiga begäranden | En (begäranden skickas sekventiellt en efter en) | serverlösa API-distributioner Azure OpenAI |
| Data | Syntetiskt (indataprompter som förberetts från statisk text) | serverlösa API-distributioner Azure OpenAI |
| Distributionstyp | serverlöst API | Gäller endast för Azure OpenAI |
| Streaming | Sant | Gäller för serverlösa API-distributioner och Azure OpenAI. För modeller som distribueras via hanterad beräkning eller för slutpunkter när strömning inte stöds representeras TTFT som P50 för svarstidsmått. |
| SKU | Standard_NC24ads_A100_v4 (24 kärnor, 220 GB RAM-minne, 64 GB lagring) | Gäller endast för hanterad beräkning (för att beräkna kostnads- och prestandamått) |
Prestanda för LLM:er och SLI:er utvärderas i följande mått:
| Metrik | Beskrivning |
|---|---|
| Svarstidsmedelvärde | Genomsnittlig tid i sekunder för att bearbeta en begäran, beräknad över flera begäranden. En begäran skickas till slutpunkten varje timme i två veckor och medelvärdet beräknas. |
| Svarstid P50 | Mediansvarstid (50:e percentilen). 50% begäranden har slutförts inom den här tiden. |
| Svarstid P90 | 90:e percentilens svarstid. 90% begäranden har slutförts inom denna tid. |
| Svarstid P95 | 95:e percentilens svarstid. 95% begäranden har slutförts inom denna tid. |
| Fördröjning P99 | 99:e percentilens svarstid. 99% begäranden har slutförts inom denna tid. |
| GENOMSTRÖMNING GTPS | Genererade token per sekund (GTPS) är antalet utdatatoken som genereras per sekund från den tidpunkt då begäran skickas till slutpunkten. |
| Genomströmning TTPS | Totalt antal token per sekund (TTPS) är antalet totalt antal token som bearbetas per sekund, inklusive både från indataprompten och genererade utdatatoken. För modeller som inte stöder strömning representerar tid till första token (ttft) P50-värdet för svarstid (tid det tar att ta emot svaret) |
| TTFT för svarstid | Total tid till första token (TTFT) är den tid det tar för den första token i svaret att returneras från slutpunkten när strömning är aktiverad. |
| Tid mellan token | Det här måttet är tiden mellan tokener som har mottagits. |
Foundry sammanfattar prestanda med hjälp av:
| Metrik | Beskrivning |
|---|---|
| Latens | Genomsnittlig tid till första token. Lägre är bättre. |
| Genomströmning | Medelgenererade token per sekund. Högre är bättre. |
För prestandamått som svarstid eller dataflöde ger tiden till den första token och de genererade token per sekund en bättre övergripande uppfattning om modellens typiska prestanda och beteende. Prestandanummer uppdateras regelbundet för att återspegla de senaste distributionskonfigurationerna.
Kostnadsmått för språkmodeller
Kostnadsmått mäter den faktiska kostnaden för att köra varje modell på datauppsättningarna för kvalitetsriktmärken i stället för en uppskattad kostnad baserat på tokenpriser.
Referenskostnaden beräknas med hjälp av:
- Det faktiska antalet indata-, resonemangs- och utdatatoken som förbrukades under benchmark-körningen.
- Modellspecifik konfiguration av resonemang som används för utvärdering (vanligtvis
highellerxhigh). - Datamängdsegenskaper och komplexitet, som påverkar användning av tokens och körtid.
Till skillnad från uppskattningar baserade på ett fast tokenförhållande återspeglar den här metoden den verkliga kostnaden från slutpunkt till slutpunkt för att köra benchmark-arbetsbelastningarna.
Så här tolkar du kostnadsresultat
- Kostnaden rapporteras i USD per benchmark-körning över standardkvalitetsdatauppsättningar.
- Värden representerar verklig körningskostnad och möjliggör direkt jämförelse mellan modeller.
- Lägre värden indikerar mer kostnadseffektiva prestanda för benchmark-paketet.
Prestandajämförelse för ledartavla i scenarier
Scenario rankningslistor grupperar benchmark-datauppsättningar efter vanliga verkliga utvärderingsmål. Du kan snabbt identifiera en modells styrkor och svagheter genom användningsfall. Varje scenario aggregerar en eller flera offentliga benchmark-datauppsättningar.
Använd följande tabell för att hitta ditt användningsfall i kolumnen Scenario och granska sedan de associerade benchmark-datauppsättningarna och vad resultatet visar. I följande tabell sammanfattas de tillgängliga scenariernas rankningslistor och deras associerade datauppsättningar och beskrivningar:
| Scenario | Datamängder | Beskrivning |
|---|---|---|
| Standard skadligt beteende | HarmBench (standard) | Frekvens för lyckade attacker på vanliga skadliga uppmaningar. Lägre är bättre. Se Identifiering av skadligt beteende. |
| Kontextuellt skadligt beteende | HarmBench (kontextuell) | Frekvens för lyckade attacker på kontextuella skadliga uppmaningar. Lägre är bättre. Se Identifiering av skadligt beteende. |
| Upphovsrättsbrott | HarmBench (copyright) | Frekvens för lyckade attacker för uppmaningar om upphovsrättsbrott. Lägre är bättre. Se Identifiering av skadligt beteende. |
| Kunskap om känsliga domäner | WMDP (biosäkerhet, kemisk säkerhet, cybersäkerhet) | Noggrannhet i tre känsliga domänunderuppsättningar. Högre noggrannhet indikerar mer kunskap om känsliga funktioner. Se Kunskap om känslig domän. |
| Toxicitetsdetektering | ToxiGen (kommenterad) | F1-poäng för identifiering av giftigt innehåll. Högre är bättre. Se Identifiering av giftigt innehåll. |
| Resonemang | BIG-Bench svår (1 000 delurval) | Bedömning av resonemangsfunktioner. Högre värden är bättre. |
| Kodning | BigCodeBench (instruera), LiveBench (kodning), LiveCodeBench mediumMBPPPlus | Mäter noggrannheten för kodrelaterade uppgifter. Högre värden är bättre. |
| Allmän kunskap | MMLU-Pro (1K engelska delexempel) | 1 000 exempel från en engelskspråkig delmängd av MMLU-Pro. |
| Fråga och svar | Arena-Hard, GPQA (diamant) | Adversarial mänsklig preferens QA (Arena-Hard) och tvärvetenskaplig QA på avancerad nivå (GPQA DIAMANT). Högre värden är bättre. |
| Matematik | MATEMATIK (500 delexempel) | Mäter matematiska resonemangsfunktioner i språkmodeller. Högre värden är bättre. |
| Jordning | TruthfulQA (MC1) | Bedömning med flervalsalternativ av språkmodellers grundlighet och sanningsenlighet. Högre värden är bättre. |
Kvalitetsmått för inbäddningsmodeller
Kvalitetsindexet för inbäddningsmodeller definieras som de genomsnittliga noggrannhetspoängen för en omfattande uppsättning serverlösa API-benchmark-datauppsättningar som riktar sig till uppgifter för informationshämtning, dokumentklustring och sammanfattning.
| Metrik | Beskrivning |
|---|---|
| Noggrannhet | Noggrannhet är andelen korrekta förutsägelser bland det totala antalet bearbetade förutsägelser. |
| F1-poäng | F1 Score är det viktade medelvärdet av precisionen och träffsäkerheten, där det bästa värdet är ett (perfekt precision och träffsäkerhet) och det sämsta är noll. |
| Genomsnittlig precision (MAP) | MAP utvärderar kvaliteten på rangordnings- och rekommendationssystem. Den mäter både relevansen av föreslagna objekt och hur bra systemet är på att placera mer relevanta objekt högst upp. Värden kan variera från noll till en, och ju högre MAP, desto bättre kan systemet placera relevanta objekt högt i listan. |
| Normaliserad rabatterad ackumulerad vinst (NDCG) | NDCG utvärderar en maskininlärningsalgoritms förmåga att sortera objekt baserat på relevans. Den jämför rangordningen med en idealisk ordning där alla relevanta objekt finns överst i listan, där k är listlängden vid utvärdering av rangordningskvalitet. I dessa riktmärken, k=10, som anges av ett mått på ndcg_at_10, vilket innebär att de 10 främsta objekten utvärderas. |
| Precision | Precision mäter modellens förmåga att identifiera instanser av en viss klass korrekt. Precision visar hur ofta en maskininlärningsmodell är korrekt när målklassen förutsägas. |
| Spearman-korrelation | Spearman-korrelation baserat på cosininlikitet beräknas genom att först beräkna cosinnigheten mellan variabler, sedan rangordna dessa poäng och använda rangordningen för att beräkna Spearman-korrelationen. |
| V-mått | V-mått är ett mått som används för att utvärdera klustringskvaliteten. V-mått beräknas som ett harmoniskt medelvärde av homogenitet och fullständighet, vilket säkerställer en balans mellan de två för en meningsfull poäng. Möjliga poäng ligger mellan noll och en, där en är helt komplett etikettering. |
Beräkning av poäng
Individuella poäng
Benchmark-resultat kommer från offentliga datauppsättningar som ofta används för utvärdering av språkmodeller. I de flesta fall finns data i GitHub lagringsplatser som underhålls av dataskaparna eller kuratorerna. Foundry-utvärderingspipelines laddar ned data från sina ursprungliga källor, extraherar frågor från varje exempelrad, genererar modellsvar och beräknar sedan relevanta noggrannhetsmått.
"Prompt-konstruktion följer de bästa praxis för varje datauppsättning, enligt det dokument som introducerade datauppsättningen och branschstandarder." I de flesta fall innehåller varje fråga flera bilder, det vill säga flera exempel på fullständiga frågor och svar för att få fram modellen för uppgiften. Antalet bilder varierar beroende på datamängd och följer den metod som anges i varje datauppsättnings ursprungliga publikation. Utvärderingspipelines skapar bilder genom att ta prover på frågor och svar från en del av de data som hålls borta från utvärderingen.
Benchmark-begränsningar
Alla riktmärken har inneboende begränsningar som du bör tänka på när du tolkar resultat:
- Kvalitetsmått: Benchmark-datamängder kan bli mättade över tid när modeller tränas eller finjusteras på liknande data. Utvärderingsresultaten kan också variera beroende på snabb konstruktion och antalet exempel med få skott som används.
- Prestandamått: Mått samlas in med syntetiska arbetsbelastningar med ett fast tokenförhållande för indata till utdata och distributioner i en region. Verkliga prestanda kan variera beroende på arbetsbelastningsmönster, samtidighet, region och distributionskonfiguration.
- Kostnadsmått: Kostnadsuppskattningar baseras på ett tokenförhållande mellan tre och ett för indata till utdata och aktuell prissättning vid tidpunkten för mätningen. Faktiska kostnader beror på din arbetsbelastning och omfattas av prisändringar.