Naslaginformatie over ingebouwde evaluators

Important

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure previews voor meer informatie.

Microsoft Foundry bevat ingebouwde evaluators om de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden gedurende de gehele ontwikkelingslevenscyclus te beoordelen. Deze referentie bevat alle beschikbare evaluators, hun doeleinden en richtlijnen voor het selecteren van de juiste voor uw use-case. U kunt ook aangepaste evaluators maken die zijn afgestemd op uw specifieke evaluatiecriteria.

Evaluators voor algemeen gebruik

Evaluator	Purpose
Coherence	Meet logische consistentie en stroom van reacties.
Fluency	Meet de kwaliteit en leesbaarheid van natuurlijke taal.

Zie De evaluators voor algemeen gebruik voor meer informatie.

Tekstuele overeenkomsten-evaluators

Evaluator	Purpose
Similarity	Ai-ondersteunde tekstuele overeenkomsten meten.
F1 Score	Harmonisch gemiddelde van precisie en relevante overeenkomsten in token overlapt tussen reactie en grondwaar.
BLEU	Tweetalige Evaluatie Understudy score voor vertaalkwaliteitsmaatregelen overlapt in n-grammen tussen respons en grond waarheid.
GLEU	Google-BLEU variant voor beoordelingsmetingen op zinsniveau overlapt in n-grammen tussen respons en grondwaarheid.
ROUGE	Recall-Oriented Understudy for Gisting Evaluation-metingen overlappen in n-grammen tussen respons en grond-waarheid.
METEOR	Metrische waarde voor de evaluatie van vertaling met expliciete volgordemetingen overlapt in n-grammen tussen reactie en grondwaar.

Zie Tekstuele gelijkenis-evaluators voor meer informatie.

RAG evaluators

Evaluator	Purpose
Retrieval	Meet hoe effectief het systeem relevante informatie ophaalt.
Document Retrieval	Meet nauwkeurigheid bij het ophalen van resultaten op basis van grondwaar.
Groundedness	Meet hoe geaard het antwoord zich in de opgehaalde context bevindt. Retourneert een score van 1-5 met behulp van een beoordeling op basis van een model.
Groundedness Pro (voorvertoning)	Meet of het antwoord wordt geaard in de opgehaalde context met behulp van de Azure AI Content Veiligheid-service. Retourneert een binaire pass/fail zonder dat een modelimplementatie is vereist.
Relevance	Meet hoe relevant het antwoord is met betrekking tot de query.
Volledigheid van antwoorden (preview)	Metingen in hoeverre het antwoord is voltooid (geen kritieke informatie ontbreekt) met betrekking tot de grondwaar.

Zie Rag-evaluators (Retrieval-augmented Generation) voor meer informatie.

Risico- en veiligheids evaluatoren

Evaluator	Purpose
Haat en oneerlijkheid	Identificeert vooroordelen, discriminerende of haatvolle inhoud.
Sexual	Identificeert ongepaste seksuele inhoud.
Violence	Detecteert gewelddadige inhoud of aansporing.
Self-Harm	Detecteert inhoud die zichzelf promoveert of beschrijft.
Protected Materials	Detecteert onbevoegd gebruik van auteursrechtelijk beschermde of beschermde inhoud.
Indirecte aanval (XPIA)	Meet of het antwoord is gevallen voor een indirecte jailbreakpoging die is geïnjecteerd via opgehaalde context.
Code Vulnerability	Identificeert beveiligingsproblemen in gegenereerde code.
Ungrounded Attributes	Detecteert fabriceerde of hallucineerde informatie die is afgeleid van gebruikersinteracties.
Verboden acties (preview)	Meet de mogelijkheid van een AI-agent om gedrag te ondernemen dat expliciet niet-toegestane acties schendt.
Gevoelige gegevenslekken (preview)	Meet het beveiligingsprobleem van een AI-agent om gevoelige informatie weer te geven.

Zie Risico- en veiligheids evaluatoren voor meer informatie.

Agent evaluators

Evaluator	Purpose
Naleving van taken (preview)	Meet of de agent doorloopt op geïdentificeerde taken volgens systeeminstructies.
Taakvoltooiing (preview)	Meet of de agent de aangevraagde taak end-to-end heeft voltooid.
Intentieomzetting (preview)	Meet hoe nauwkeurig de agent gebruikersintenties identificeert en aanpakt.
Efficiëntie van taaknavigatie	Bepaalt of de reeks stappen van de agent overeenkomt met een optimaal of verwacht pad om de efficiëntie te meten.
Nauwkeurigheid van hulpprogramma-aanroep	Meet de algehele kwaliteit van hulpprogramma-aanroepen, waaronder selectie, parameter correctheid en efficiëntie.
Tool Selection	Meet of de agent de meest geschikte en efficiënte hulpprogramma's voor een taak heeft geselecteerd.
Nauwkeurigheid van hulpmiddelinvoer	Valideert of alle parameters voor de aanroep van het hulpprogramma juist zijn met strikte criteria, waaronder aarding, type, opmaak, volledigheid en geschiktheid.
Uitvoergebruik van hulpprogramma's	Meet of de agent de uitvoer van hulpprogramma's contextueel interpreteert en gebruikt in antwoorden en volgende aanroepen.
Geslaagde aanroep van hulpprogramma	Evalueert of alle hulpprogramma-aanroepen zonder technische fouten zijn uitgevoerd.

Zie Agent-evaluators voor meer informatie.

Azure OpenAI-graders

Evaluator	Purpose
Model Labeler	Classificeert inhoud met behulp van aangepaste richtlijnen en labels.
String Checker	Hiermee worden flexibele tekstvalidaties en patroonkoppelingen uitgevoerd.
Text Similarity	Evalueert de kwaliteit van tekst of bepaalt de semantische nabijheid.
Model Scorer	Hiermee worden numerieke scores (aangepast bereik) gegenereerd voor inhoud op basis van aangepaste richtlijnen.

Zie Azure OpenAI Graders voor meer informatie.

Aangepaste evaluators (preview)

Naast ingebouwde evaluators kunt u aangepaste evaluators maken die zijn afgestemd op uw specifieke evaluatiecriteria. Met aangepaste evaluatoren kunt u unieke scorelogica, validatieregels en kwaliteitsstatistieken definiëren die overeenkomen met uw bedrijfsvereisten en toepassingsspecifieke behoeften.

Zie Aangepaste evaluators voor meer informatie.

Combining evaluators

Voor een uitgebreide kwaliteitsbeoordeling combineert u meerdere evaluators:

RAG-toepassingen: Ophalen + Groundedness + Relevantie + Content Safety
Agenttoepassingen: nauwkeurigheid van hulpprogrammaaanroepen + naleving van taken + intentieomzetting + inhoudsveiligheid
Vertaaltoepassingen: BLEU + METEOR + Fluency + Coherentie
Alle toepassingen: Voeg risico- en veiligheidsbeoordelaars toe (Hate and Unfairness, Sexual, Violence, Self-Harm) voor verantwoorde AI-praktijken

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-30