Inbyggd referens för utvärderare

Important

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry innehåller inbyggda utvärderare för att bedöma kvaliteten, säkerheten och tillförlitligheten hos AI-svar under hela utvecklingslivscykeln. Den här referensen visar alla tillgängliga utvärderare, deras syften och vägledning om hur du väljer rätt för ditt användningsfall. Du kan också skapa anpassade utvärderare som är skräddarsydda för dina specifika utvärderingskriterier.

Utvärderare för generell användning

Evaluator Purpose
Coherence Mäter logisk konsekvens och flöde av svar.
Fluency Mäter kvalitet och läsbarhet för naturligt språk.

Mer information finns i Utvärderare för generell användning.

Utvärderare för textlikhet

Evaluator Purpose
Similarity AI-assisterad textlikhetsmätning.
F1 Score Harmoniskt medelvärde av precision och återkallande i token överlappar mellan svar och grund sanning.
BLEU Tvåspråkig utvärderingspoäng för översättningskvalitetsmått överlappar i n-gram mellan svars- och grundsanning.
GLEU Google-BLEU variant för meningsnivåbedömningsmått överlappar i n-gram mellan svar och grundsanning.
ROUGE Recall-Oriented Student for Gisting Evaluation-mått överlappar i n-gram mellan svar och verklighetsuppfattning.
METEOR Mått för utvärdering av översättning med explicita ordningsmått överlappar i n-gram mellan svar och grund sanning.

Mer information finns i Utvärderare för textlikhet.

RAG evaluators

Evaluator Purpose
Retrieval Mäter hur effektivt systemet hämtar relevant information.
Document Retrieval Mäter noggrannheten i hämtningsresultatet givet grundsanning.
Groundedness Mäter hur grundat svaret är i den hämtade kontexten. Returnerar en poäng från 1–5 med hjälp av en modellbaserad bedömning.
Groundedness Pro (förhandsversion) Mäter om svaret är grundat i den hämtade kontexten med hjälp av Azure AI Innehållsäkerhet-tjänsten. Returnerar ett binärt pass/misslyckas utan att en modelldistribution krävs.
Relevance Mäter hur relevant svaret är för frågan.
Svars completeness (förhandsversion) Mäter i vilken utsträckning svaret är fullständigt (saknar inte kritisk information) med avseende på grundsanningen.

Mer information finns i Rag-utvärderare (Retrieveal-augmented Generation).

Risk- och säkerhetsutvärderingar

Evaluator Purpose
Hat och orättvisa Identifierar partiskt, diskriminerande eller hatiskt innehåll.
Sexual Identifierar olämpligt sexuellt innehåll.
Violence Identifierar våldsamt innehåll eller uppvigling.
Self-Harm Identifierar innehåll som främjar eller beskriver självskadebeteende.
Protected Materials Identifierar obehörig användning av upphovsrättsskyddat eller skyddat innehåll.
Indirekt attack (XPIA) Mäter om svaret föll för ett indirekt jailbreak-försök som injicerats genom hämtad kontext.
Code Vulnerability Identifierar säkerhetsproblem i genererad kod.
Ungrounded Attributes Identifierar fabricerad eller hallucinerad information som härleds från användarinteraktioner.
Otillåtna åtgärder (förhandsversion) Mäter en AI-agents förmåga att delta i beteenden som uttryckligen bryter mot otillåtna åtgärder.
Läckage av känsliga data (förhandsversion) Mäter en AI-agents sårbarhet för att exponera känslig information.

Mer information finns i Risk- och säkerhetsutvärderingar.

Agent evaluators

Evaluator Purpose
Uppgiftsefterlevnad (förhandsversion) Mäter om agenten följer efter identifierade uppgifter enligt systeminstruktioner.
Slutförd aktivitet (förhandsversion) Mäter om agenten har slutfört den begärda aktiviteten från slutpunkt till slutpunkt.
Avsiktsmatchning (förhandsversion) Mäter hur korrekt agenten identifierar och hanterar användarens avsikter.
Aktivitetsnavigeringseffektivitet Avgör om agentens stegsekvens matchar en optimal eller förväntad sökväg för att mäta effektiviteten.
Noggrannhet för verktygsanrop Mäter den övergripande kvaliteten på verktygsanrop, inklusive urval, parametern korrekthet och effektivitet.
Tool Selection Mäter om agenten har valt de lämpligaste och effektivaste verktygen för en uppgift.
Precision för verktygsinmatning Verifierar att alla parametrar för verktygsanrop är korrekta med strikta kriterier, inklusive grundning, typ, format, fullständighet och lämplighet.
Verktygsutdataanvändning Mäter om agenten korrekt tolkar och använder verktygets utdata kontextuellt i svar och efterföljande anrop.
Verktygsanrop lyckades Utvärderar om alla verktygsanrop har körts utan tekniska fel.

Mer information finns i Agentutvärderingar.

Azure OpenAI-väghyvlar

Evaluator Purpose
Model Labeler Klassificerar innehåll med hjälp av anpassade riktlinjer och etiketter.
String Checker Utför flexibel textvalidering och mönstermatchning.
Text Similarity Utvärderar textens kvalitet eller fastställer semantisk närhet.
Model Scorer Genererar numeriska poäng (anpassat intervall) för innehåll baserat på anpassade riktlinjer.

Mer information finns i Azure OpenAI Graders.

Anpassade utvärderare (förhandsversion)

Förutom inbyggda utvärderare kan du skapa anpassade utvärderare som är skräddarsydda för dina specifika utvärderingskriterier. Med anpassade utvärderare kan du definiera unik bedömningslogik, valideringsregler och kvalitetsmått som överensstämmer med dina affärskrav och programspecifika behov.

Mer information finns i Anpassade utvärderare.

Combining evaluators

Kombinera flera utvärderare för omfattande kvalitetsbedömning:

  • RAG-program: Hämtning + grundlighet + relevans + innehållssäkerhet
  • Agentprogram: Verktygsanropsnoggrannhet + uppgiftsefterlevnad + avsiktsmatchning + innehållssäkerhet
  • Översättningsprogram: BLEU + METEOR + Fluency + Koherens
  • Alla tillämpningar: Lägg till risk- och säkerhetsbedömare (Hat och Orättvisa, Sexuell, Våld, Self-Harm) för ansvarsfulla AI-metoder