Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Important
Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.
Microsoft Foundry innehåller inbyggda utvärderare för att bedöma kvaliteten, säkerheten och tillförlitligheten hos AI-svar under hela utvecklingslivscykeln. Den här referensen visar alla tillgängliga utvärderare, deras syften och vägledning om hur du väljer rätt för ditt användningsfall. Du kan också skapa anpassade utvärderare som är skräddarsydda för dina specifika utvärderingskriterier.
Utvärderare för generell användning
| Evaluator | Purpose |
|---|---|
| Coherence | Mäter logisk konsekvens och flöde av svar. |
| Fluency | Mäter kvalitet och läsbarhet för naturligt språk. |
Mer information finns i Utvärderare för generell användning.
Utvärderare för textlikhet
| Evaluator | Purpose |
|---|---|
| Similarity | AI-assisterad textlikhetsmätning. |
| F1 Score | Harmoniskt medelvärde av precision och återkallande i token överlappar mellan svar och grund sanning. |
| BLEU | Tvåspråkig utvärderingspoäng för översättningskvalitetsmått överlappar i n-gram mellan svars- och grundsanning. |
| GLEU | Google-BLEU variant för meningsnivåbedömningsmått överlappar i n-gram mellan svar och grundsanning. |
| ROUGE | Recall-Oriented Student for Gisting Evaluation-mått överlappar i n-gram mellan svar och verklighetsuppfattning. |
| METEOR | Mått för utvärdering av översättning med explicita ordningsmått överlappar i n-gram mellan svar och grund sanning. |
Mer information finns i Utvärderare för textlikhet.
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | Mäter hur effektivt systemet hämtar relevant information. |
| Document Retrieval | Mäter noggrannheten i hämtningsresultatet givet grundsanning. |
| Groundedness | Mäter hur grundat svaret är i den hämtade kontexten. Returnerar en poäng från 1–5 med hjälp av en modellbaserad bedömning. |
| Groundedness Pro (förhandsversion) | Mäter om svaret är grundat i den hämtade kontexten med hjälp av Azure AI Innehållsäkerhet-tjänsten. Returnerar ett binärt pass/misslyckas utan att en modelldistribution krävs. |
| Relevance | Mäter hur relevant svaret är för frågan. |
| Svars completeness (förhandsversion) | Mäter i vilken utsträckning svaret är fullständigt (saknar inte kritisk information) med avseende på grundsanningen. |
Mer information finns i Rag-utvärderare (Retrieveal-augmented Generation).
Risk- och säkerhetsutvärderingar
| Evaluator | Purpose |
|---|---|
| Hat och orättvisa | Identifierar partiskt, diskriminerande eller hatiskt innehåll. |
| Sexual | Identifierar olämpligt sexuellt innehåll. |
| Violence | Identifierar våldsamt innehåll eller uppvigling. |
| Self-Harm | Identifierar innehåll som främjar eller beskriver självskadebeteende. |
| Protected Materials | Identifierar obehörig användning av upphovsrättsskyddat eller skyddat innehåll. |
| Indirekt attack (XPIA) | Mäter om svaret föll för ett indirekt jailbreak-försök som injicerats genom hämtad kontext. |
| Code Vulnerability | Identifierar säkerhetsproblem i genererad kod. |
| Ungrounded Attributes | Identifierar fabricerad eller hallucinerad information som härleds från användarinteraktioner. |
| Otillåtna åtgärder (förhandsversion) | Mäter en AI-agents förmåga att delta i beteenden som uttryckligen bryter mot otillåtna åtgärder. |
| Läckage av känsliga data (förhandsversion) | Mäter en AI-agents sårbarhet för att exponera känslig information. |
Mer information finns i Risk- och säkerhetsutvärderingar.
Agent evaluators
| Evaluator | Purpose |
|---|---|
| Uppgiftsefterlevnad (förhandsversion) | Mäter om agenten följer efter identifierade uppgifter enligt systeminstruktioner. |
| Slutförd aktivitet (förhandsversion) | Mäter om agenten har slutfört den begärda aktiviteten från slutpunkt till slutpunkt. |
| Avsiktsmatchning (förhandsversion) | Mäter hur korrekt agenten identifierar och hanterar användarens avsikter. |
| Aktivitetsnavigeringseffektivitet | Avgör om agentens stegsekvens matchar en optimal eller förväntad sökväg för att mäta effektiviteten. |
| Noggrannhet för verktygsanrop | Mäter den övergripande kvaliteten på verktygsanrop, inklusive urval, parametern korrekthet och effektivitet. |
| Tool Selection | Mäter om agenten har valt de lämpligaste och effektivaste verktygen för en uppgift. |
| Precision för verktygsinmatning | Verifierar att alla parametrar för verktygsanrop är korrekta med strikta kriterier, inklusive grundning, typ, format, fullständighet och lämplighet. |
| Verktygsutdataanvändning | Mäter om agenten korrekt tolkar och använder verktygets utdata kontextuellt i svar och efterföljande anrop. |
| Verktygsanrop lyckades | Utvärderar om alla verktygsanrop har körts utan tekniska fel. |
Mer information finns i Agentutvärderingar.
Azure OpenAI-väghyvlar
| Evaluator | Purpose |
|---|---|
| Model Labeler | Klassificerar innehåll med hjälp av anpassade riktlinjer och etiketter. |
| String Checker | Utför flexibel textvalidering och mönstermatchning. |
| Text Similarity | Utvärderar textens kvalitet eller fastställer semantisk närhet. |
| Model Scorer | Genererar numeriska poäng (anpassat intervall) för innehåll baserat på anpassade riktlinjer. |
Mer information finns i Azure OpenAI Graders.
Anpassade utvärderare (förhandsversion)
Förutom inbyggda utvärderare kan du skapa anpassade utvärderare som är skräddarsydda för dina specifika utvärderingskriterier. Med anpassade utvärderare kan du definiera unik bedömningslogik, valideringsregler och kvalitetsmått som överensstämmer med dina affärskrav och programspecifika behov.
Mer information finns i Anpassade utvärderare.
Combining evaluators
Kombinera flera utvärderare för omfattande kvalitetsbedömning:
- RAG-program: Hämtning + grundlighet + relevans + innehållssäkerhet
- Agentprogram: Verktygsanropsnoggrannhet + uppgiftsefterlevnad + avsiktsmatchning + innehållssäkerhet
- Översättningsprogram: BLEU + METEOR + Fluency + Koherens
- Alla tillämpningar: Lägg till risk- och säkerhetsbedömare (Hat och Orättvisa, Sexuell, Våld, Self-Harm) för ansvarsfulla AI-metoder