Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Important
Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure previews voor meer informatie.
Microsoft Foundry bevat ingebouwde evaluators om de kwaliteit, veiligheid en betrouwbaarheid van AI-antwoorden gedurende de gehele ontwikkelingslevenscyclus te beoordelen. Deze referentie bevat alle beschikbare evaluators, hun doeleinden en richtlijnen voor het selecteren van de juiste voor uw use-case. U kunt ook aangepaste evaluators maken die zijn afgestemd op uw specifieke evaluatiecriteria.
Evaluators voor algemeen gebruik
| Evaluator | Purpose |
|---|---|
| Coherence | Meet logische consistentie en stroom van reacties. |
| Fluency | Meet de kwaliteit en leesbaarheid van natuurlijke taal. |
Zie De evaluators voor algemeen gebruik voor meer informatie.
Tekstuele overeenkomsten-evaluators
| Evaluator | Purpose |
|---|---|
| Similarity | Ai-ondersteunde tekstuele overeenkomsten meten. |
| F1 Score | Harmonisch gemiddelde van precisie en relevante overeenkomsten in token overlapt tussen reactie en grondwaar. |
| BLEU | Tweetalige Evaluatie Understudy score voor vertaalkwaliteitsmaatregelen overlapt in n-grammen tussen respons en grond waarheid. |
| GLEU | Google-BLEU variant voor beoordelingsmetingen op zinsniveau overlapt in n-grammen tussen respons en grondwaarheid. |
| ROUGE | Recall-Oriented Understudy for Gisting Evaluation-metingen overlappen in n-grammen tussen respons en grond-waarheid. |
| METEOR | Metrische waarde voor de evaluatie van vertaling met expliciete volgordemetingen overlapt in n-grammen tussen reactie en grondwaar. |
Zie Tekstuele gelijkenis-evaluators voor meer informatie.
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | Meet hoe effectief het systeem relevante informatie ophaalt. |
| Document Retrieval | Meet nauwkeurigheid bij het ophalen van resultaten op basis van grondwaar. |
| Groundedness | Meet hoe geaard het antwoord zich in de opgehaalde context bevindt. Retourneert een score van 1-5 met behulp van een beoordeling op basis van een model. |
| Groundedness Pro (voorvertoning) | Meet of het antwoord wordt geaard in de opgehaalde context met behulp van de Azure AI Content Veiligheid-service. Retourneert een binaire pass/fail zonder dat een modelimplementatie is vereist. |
| Relevance | Meet hoe relevant het antwoord is met betrekking tot de query. |
| Volledigheid van antwoorden (preview) | Metingen in hoeverre het antwoord is voltooid (geen kritieke informatie ontbreekt) met betrekking tot de grondwaar. |
Zie Rag-evaluators (Retrieval-augmented Generation) voor meer informatie.
Risico- en veiligheids evaluatoren
| Evaluator | Purpose |
|---|---|
| Haat en oneerlijkheid | Identificeert vooroordelen, discriminerende of haatvolle inhoud. |
| Sexual | Identificeert ongepaste seksuele inhoud. |
| Violence | Detecteert gewelddadige inhoud of aansporing. |
| Self-Harm | Detecteert inhoud die zichzelf promoveert of beschrijft. |
| Protected Materials | Detecteert onbevoegd gebruik van auteursrechtelijk beschermde of beschermde inhoud. |
| Indirecte aanval (XPIA) | Meet of het antwoord is gevallen voor een indirecte jailbreakpoging die is geïnjecteerd via opgehaalde context. |
| Code Vulnerability | Identificeert beveiligingsproblemen in gegenereerde code. |
| Ungrounded Attributes | Detecteert fabriceerde of hallucineerde informatie die is afgeleid van gebruikersinteracties. |
| Verboden acties (preview) | Meet de mogelijkheid van een AI-agent om gedrag te ondernemen dat expliciet niet-toegestane acties schendt. |
| Gevoelige gegevenslekken (preview) | Meet het beveiligingsprobleem van een AI-agent om gevoelige informatie weer te geven. |
Zie Risico- en veiligheids evaluatoren voor meer informatie.
Agent evaluators
| Evaluator | Purpose |
|---|---|
| Naleving van taken (preview) | Meet of de agent doorloopt op geïdentificeerde taken volgens systeeminstructies. |
| Taakvoltooiing (preview) | Meet of de agent de aangevraagde taak end-to-end heeft voltooid. |
| Intentieomzetting (preview) | Meet hoe nauwkeurig de agent gebruikersintenties identificeert en aanpakt. |
| Efficiëntie van taaknavigatie | Bepaalt of de reeks stappen van de agent overeenkomt met een optimaal of verwacht pad om de efficiëntie te meten. |
| Nauwkeurigheid van hulpprogramma-aanroep | Meet de algehele kwaliteit van hulpprogramma-aanroepen, waaronder selectie, parameter correctheid en efficiëntie. |
| Tool Selection | Meet of de agent de meest geschikte en efficiënte hulpprogramma's voor een taak heeft geselecteerd. |
| Nauwkeurigheid van hulpmiddelinvoer | Valideert of alle parameters voor de aanroep van het hulpprogramma juist zijn met strikte criteria, waaronder aarding, type, opmaak, volledigheid en geschiktheid. |
| Uitvoergebruik van hulpprogramma's | Meet of de agent de uitvoer van hulpprogramma's contextueel interpreteert en gebruikt in antwoorden en volgende aanroepen. |
| Geslaagde aanroep van hulpprogramma | Evalueert of alle hulpprogramma-aanroepen zonder technische fouten zijn uitgevoerd. |
Zie Agent-evaluators voor meer informatie.
Azure OpenAI-graders
| Evaluator | Purpose |
|---|---|
| Model Labeler | Classificeert inhoud met behulp van aangepaste richtlijnen en labels. |
| String Checker | Hiermee worden flexibele tekstvalidaties en patroonkoppelingen uitgevoerd. |
| Text Similarity | Evalueert de kwaliteit van tekst of bepaalt de semantische nabijheid. |
| Model Scorer | Hiermee worden numerieke scores (aangepast bereik) gegenereerd voor inhoud op basis van aangepaste richtlijnen. |
Zie Azure OpenAI Graders voor meer informatie.
Aangepaste evaluators (preview)
Naast ingebouwde evaluators kunt u aangepaste evaluators maken die zijn afgestemd op uw specifieke evaluatiecriteria. Met aangepaste evaluatoren kunt u unieke scorelogica, validatieregels en kwaliteitsstatistieken definiëren die overeenkomen met uw bedrijfsvereisten en toepassingsspecifieke behoeften.
Zie Aangepaste evaluators voor meer informatie.
Combining evaluators
Voor een uitgebreide kwaliteitsbeoordeling combineert u meerdere evaluators:
- RAG-toepassingen: Ophalen + Groundedness + Relevantie + Content Safety
- Agenttoepassingen: nauwkeurigheid van hulpprogrammaaanroepen + naleving van taken + intentieomzetting + inhoudsveiligheid
- Vertaaltoepassingen: BLEU + METEOR + Fluency + Coherentie
- Alle toepassingen: Voeg risico- en veiligheidsbeoordelaars toe (Hate and Unfairness, Sexual, Violence, Self-Harm) voor verantwoorde AI-praktijken