Evaluatieresultaten analyseren met clusteranalyse (preview)

Belangrijk

Items die in dit artikel zijn gemarkeerd (preview) zijn momenteel beschikbaar als openbare preview. Deze preview wordt aangeboden zonder een service level agreement en we raden deze niet aan voor productieworkloads. Bepaalde functies worden mogelijk niet ondersteund of hebben mogelijk beperkte mogelijkheden. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure previews voor meer informatie.

Nadat u een of meer evaluatieuitvoeringen hebt uitgevoerd, kunt u een evaluatieclusteranalyse genereren om inzicht te hebben in uw evaluatieresultaten. Deze analyse biedt een intuïtieve manier om de belangrijkste patronen en fouten in uw evaluatieuitvoeringen te identificeren, samen met aanbevolen volgende stappen om de evaluatiescores te verbeteren.

In dit artikel wordt uitgelegd hoe u een evaluatieclusteranalyse genereert en gebruikt.

Voorwaarden

Een evaluatieclusteranalyse genereren

  1. Selecteer op de detailpagina van de evaluatie een of meer voltooide evaluatieuitvoeringen.
  2. Selecteer Clusteranalyse. Er wordt een installatievenster geopend met de geschatte tijd en het tokengebruik op basis van het aantal voorbeelden in de geselecteerde uitvoeringen.
  3. Selecteer een model in de vervolgkeuzelijst die u wilt gebruiken voor het genereren van de analyse.
  4. Klik op Genereren. De analyse wordt gegenereerd en de clustermap wordt automatisch geopend.

Schermopname van het installatievenster voor clusteranalyse met de vervolgkeuzelijst voor modelselectie en geschatte tokengebruik.

Belangrijk

Het analyseresultaat wordt niet opgeslagen. Als u de pagina verlaat, gaat het resultaat verloren. Als u een kopie wilt bewaren, downloadt u de analyse voordat u weg navigeert.

Clusteranalyse weergeven

Clusteranalyse biedt een intuïtieve visualisatie van prestaties door voorbeelden van evaluatieresultaten te groeperen met vergelijkbare problemen of responspatronen. Het helpt u snel terugkerende fouttypen te identificeren, inzicht te krijgen in de verdeling tussen foutcategorieën en prioriteit te geven aan gebieden voor verbetering.

Schermopname van de pagina clusteranalyse.

Bovenaan de weergave worden samenvattingsstatistieken voor de evaluatieuitvoering weergegeven:

  • Totaal aantal voorbeelden : totaal aantal geëvalueerde antwoorden (bijvoorbeeld 48).
  • Clusters : het aantal automatisch geïdentificeerde clusters (bijvoorbeeld 2).
  • Geslaagd/mislukt : uitsplitsing van geslaagde versus problematische steekproeven.
  • Avg Score : de algehele gemiddelde kwaliteitsscore voor de uitvoering.

Opmerking

Beweeg de muisaanwijzer over een punt of clusterlabel om gedetailleerde informatie weer te geven, inclusief voorbeeldantwoorden en feedback van evaluator. Selecteer deze optie om het detailvenster te openen.

Visualisatie

Elke punt vertegenwoordigt een voorbeeld uit uw evaluatiegegevensset. Puntjes worden gegroepeerd op semantische gelijkenis, met behulp van clustering op basis van insluiten van modeluitvoer en feedbacksignalen.

  • Kleur: Geeft de clustertoewijzing aan (bijvoorbeeld ontoereikend eindantwoord of onjuist antwoord).
  • Positie: Voorbeelden die dichter bij elkaar staan, delen vergelijkbare kenmerken of problemen.

Detailvenster

Cluster

Als u een cluster selecteert, wordt een zijpaneel geopend dat het volgende omvat:

  • Geselecteerd cluster: naam van de groep met problemen op het hoogste niveau.
  • Aantal vermeldingen: het totale aantal voorbeelden in dit cluster.
  • Subclusters: uitsplitsing van gerelateerde subcategorieën.
  • Beschrijving: automatisch gegenereerde diagnostische samenvatting waarin de waarschijnlijke oorzaak of het kenmerkpatroon wordt uitgelegd
  • Aanbevelingen: Voorgestelde volgende stappen voor risicobeperking of agentverbetering.

Schermopname van een geselecteerd cluster met het zijpaneel geopend.

Subcluster

Als u een subcluster selecteert, wordt een zijpaneel geopend dat het volgende omvat:

  • Cluster: geeft het bovenliggende cluster aan waartoe dit subcluster behoort (bijvoorbeeld inadequate_final_answer).
  • Geselecteerde subcluster: de specifieke subset die wordt onderzocht (bijvoorbeeld invalid_or_missing_api_key).
  • Aantal vermeldingen: het aantal afzonderlijke steekproeven dat is gegroepeerd onder dit subcluster.
  • Tabbladen
    • Analyse: biedt samenvattingsstatistieken, score gemiddelden en kwalitatieve inzichten (indien beschikbaar).
    • Invoeren: Vermeldt elk voorbeeld (entry-ID) in het subcluster met hun afzonderlijke scores, zoals vloeiendheid, gegrondheid of nauwkeurigheid.

Schermopname van een geselecteerd subcluster met het zijpaneel geopend.

Vermeldings-id

Als u een punt/item-id selecteert, wordt een zijpaneel geopend dat het volgende omvat:

  • Clusterhiërarchie
    • Geeft het volledige pad weer van waar deze vermelding bij hoort: Cluster → Subcluster → Vermeldings-id, bijvoorbeeld inadequate_final_answer → invalid_or_missing_api_key → Vermeldings-id: 17-vloeiendheid.
  • Tabbladen
  • Gesprek: toont de interactie met volledige tekst voor het geselecteerde voorbeeld:
    • Contextsamenvatting (indien van toepassing): elke achtergrond of voorafgaande context die in de evaluatie wordt gebruikt.
    • Query: de vraag van het model of de gebruiker (bijvoorbeeld 'Hoe kan ik een FSA-terugbetalingsclaim indienen?').
    • Antwoord: de gegenereerde uitvoer van het model voor die query.
  • Metagegevens: bevat aanvullende evaluatie-informatie, zoals scores, evaluators, tijdstempels, agent-id's en tracerings-id's.

Schermopname van Invoer-ID-selectie met geopend zijpaneel.

Filterpaneel

Met het filterpaneel aan de rechterkant van de weergave clusteranalyse kunt u aanpassen hoe clusters worden weergegeven voor gerichte inspectie.

  • Kleur volgens
    • Hiermee kunt u aanpassen hoe de voorbeelden zijn gecodeerd in de visualisatie.
    • De volgende opties zijn doorgaans:
      • Cluster – groepeer samples op categorie van probleem op het hoogste niveau.
      • Subcluster: kleurenvoorbeelden op gedetailleerdere subcategorieën binnen elk cluster.
      • Of evaluatieresultaat, evaluatietype, score en agent-ID.

Schermopname van het filterpaneel van de clusteranalyse.

  • Geavanceerd filteren
    • Biedt hulpprogramma's voor het richten van de visualisatie op specifieke subsets van gegevens.
    • U kunt filters definiëren op basis van metagegevens of evaluatiekenmerken.
      • Parameter selecteren: kies op welk veld u wilt filteren (bijvoorbeeld score, evaluatortype, tijdstempel).
      • Gelijk aan/ Bevat / Niet gelijk - Definieer de voorwaarde voor filteren.
      • Waarde selecteren: kies of voer de specifieke waarde in die u wilt vergelijken.
      • Filter toevoegen: de voorwaarde toepassen om de weergave dynamisch bij te werken.

Schermopname van het geavanceerde filteren van de clusteranalyse.

De analyse downloaden

Als u de analyse offline wilt weergeven, selecteert u downloaden om een kopie van de analyse in CSV-indeling op te halen en weer te geven in andere toepassingen.

Opmerking

Het analyseresultaat wordt niet opgeslagen. Als u de pagina verlaat, gaat het analyseresultaat verloren.

Volgende stappen

Gebruik de inzichten van clusteranalyse om het volgende te doen:

  • Prompts verfijnen : werk de instructies van uw agent bij om terugkerende foutpatronen te verhelpen die in de clusters zijn geïdentificeerd.
  • Opnieuw trainen of verfijnen : gebruik geïdentificeerde foutcategorieën als signaal voor het verfijnen van gegevens curatie.
  • Opnieuw evalueren : nadat u wijzigingen hebt aangebracht, voert u een nieuwe evaluatie uit en genereert u een nieuwe clusteranalyse om de resultaten te vergelijken. Zie Evaluaties uitvoeren vanuit de SDK.

Probleemoplossing

Symptoom Waarschijnlijke oorzaak Fix
Knop Clusteranalyse is niet beschikbaar Er zijn geen voltooide evaluatieuitvoeringen geselecteerd Selecteer ten minste één voltooide evaluatieuitvoering op de pagina met evaluatiedetails voordat u Clusteranalyse selecteert.
Er worden geen modellen weergegeven in het generatievenster Er worden geen modellen geïmplementeerd in het project Implementeer een model in uw project. Zie Modelimplementaties maken.
Genereren van analyse mislukt of er treedt een time-out op Gegevensvolume te groot of servicebeperking Verminder het aantal geselecteerde evaluatieuitvoeringen of probeer het later opnieuw.
Analyse verdwijnt wanneer je weg navigeert Resultaten blijven niet behouden Voer clusteranalyse opnieuw uit en download de resultaten voordat u weg navigeert.