Inbyggd referens för utvärderare

Important

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry innehåller inbyggda utvärderare för att bedöma kvaliteten, säkerheten och tillförlitligheten hos AI-svar under hela utvecklingslivscykeln. Den här referensen visar alla tillgängliga utvärderare, deras syften och vägledning om hur du väljer rätt för ditt användningsfall. Du kan också skapa anpassade utvärderare som är skräddarsydda för dina specifika utvärderingskriterier.

Utvärderare för generell användning

Evaluator	Purpose
Coherence	Mäter logisk konsekvens och flöde av svar.
Fluency	Mäter kvalitet och läsbarhet för naturligt språk.

Mer information finns i Utvärderare för generell användning.

Utvärderare för textlikhet

Evaluator	Purpose
Similarity	AI-assisterad textlikhetsmätning.
F1 Score	Harmoniskt medelvärde av precision och återkallande i token överlappar mellan svar och grund sanning.
BLEU	Tvåspråkig utvärderingspoäng för översättningskvalitetsmått överlappar i n-gram mellan svars- och grundsanning.
GLEU	Google-BLEU variant för meningsnivåbedömningsmått överlappar i n-gram mellan svar och grundsanning.
ROUGE	Recall-Oriented Student for Gisting Evaluation-mått överlappar i n-gram mellan svar och verklighetsuppfattning.
METEOR	Mått för utvärdering av översättning med explicita ordningsmått överlappar i n-gram mellan svar och grund sanning.

Mer information finns i Utvärderare för textlikhet.

RAG evaluators

Evaluator	Purpose
Retrieval	Mäter hur effektivt systemet hämtar relevant information.
Document Retrieval	Mäter noggrannheten i hämtningsresultatet givet grundsanning.
Groundedness	Mäter hur grundat svaret är i den hämtade kontexten. Returnerar en poäng från 1–5 med hjälp av en modellbaserad bedömning.
Groundedness Pro (förhandsversion)	Mäter om svaret är grundat i den hämtade kontexten med hjälp av Azure AI Innehållsäkerhet-tjänsten. Returnerar ett binärt pass/misslyckas utan att en modelldistribution krävs.
Relevance	Mäter hur relevant svaret är för frågan.
Svars completeness (förhandsversion)	Mäter i vilken utsträckning svaret är fullständigt (saknar inte kritisk information) med avseende på grundsanningen.

Mer information finns i Rag-utvärderare (Retrieveal-augmented Generation).

Risk- och säkerhetsutvärderingar

Evaluator	Purpose
Hat och orättvisa	Identifierar partiskt, diskriminerande eller hatiskt innehåll.
Sexual	Identifierar olämpligt sexuellt innehåll.
Violence	Identifierar våldsamt innehåll eller uppvigling.
Self-Harm	Identifierar innehåll som främjar eller beskriver självskadebeteende.
Protected Materials	Identifierar obehörig användning av upphovsrättsskyddat eller skyddat innehåll.
Indirekt attack (XPIA)	Mäter om svaret föll för ett indirekt jailbreak-försök som injicerats genom hämtad kontext.
Code Vulnerability	Identifierar säkerhetsproblem i genererad kod.
Ungrounded Attributes	Identifierar fabricerad eller hallucinerad information som härleds från användarinteraktioner.
Otillåtna åtgärder (förhandsversion)	Mäter en AI-agents förmåga att delta i beteenden som uttryckligen bryter mot otillåtna åtgärder.
Läckage av känsliga data (förhandsversion)	Mäter en AI-agents sårbarhet för att exponera känslig information.

Mer information finns i Risk- och säkerhetsutvärderingar.

Agent evaluators

Evaluator	Purpose
Uppgiftsefterlevnad (förhandsversion)	Mäter om agenten följer efter identifierade uppgifter enligt systeminstruktioner.
Slutförd aktivitet (förhandsversion)	Mäter om agenten har slutfört den begärda aktiviteten från slutpunkt till slutpunkt.
Avsiktsmatchning (förhandsversion)	Mäter hur korrekt agenten identifierar och hanterar användarens avsikter.
Aktivitetsnavigeringseffektivitet	Avgör om agentens stegsekvens matchar en optimal eller förväntad sökväg för att mäta effektiviteten.
Noggrannhet för verktygsanrop	Mäter den övergripande kvaliteten på verktygsanrop, inklusive urval, parametern korrekthet och effektivitet.
Tool Selection	Mäter om agenten har valt de lämpligaste och effektivaste verktygen för en uppgift.
Precision för verktygsinmatning	Verifierar att alla parametrar för verktygsanrop är korrekta med strikta kriterier, inklusive grundning, typ, format, fullständighet och lämplighet.
Verktygsutdataanvändning	Mäter om agenten korrekt tolkar och använder verktygets utdata kontextuellt i svar och efterföljande anrop.
Verktygsanrop lyckades	Utvärderar om alla verktygsanrop har körts utan tekniska fel.

Mer information finns i Agentutvärderingar.

Azure OpenAI-väghyvlar

Evaluator	Purpose
Model Labeler	Klassificerar innehåll med hjälp av anpassade riktlinjer och etiketter.
String Checker	Utför flexibel textvalidering och mönstermatchning.
Text Similarity	Utvärderar textens kvalitet eller fastställer semantisk närhet.
Model Scorer	Genererar numeriska poäng (anpassat intervall) för innehåll baserat på anpassade riktlinjer.

Mer information finns i Azure OpenAI Graders.

Anpassade utvärderare (förhandsversion)

Förutom inbyggda utvärderare kan du skapa anpassade utvärderare som är skräddarsydda för dina specifika utvärderingskriterier. Med anpassade utvärderare kan du definiera unik bedömningslogik, valideringsregler och kvalitetsmått som överensstämmer med dina affärskrav och programspecifika behov.

Mer information finns i Anpassade utvärderare.

Combining evaluators

Kombinera flera utvärderare för omfattande kvalitetsbedömning:

RAG-program: Hämtning + grundlighet + relevans + innehållssäkerhet
Agentprogram: Verktygsanropsnoggrannhet + uppgiftsefterlevnad + avsiktsmatchning + innehållssäkerhet
Översättningsprogram: BLEU + METEOR + Fluency + Koherens
Alla tillämpningar: Lägg till risk- och säkerhetsbedömare (Hat och Orättvisa, Sexuell, Våld, Self-Harm) för ansvarsfulla AI-metoder

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-30