Analysera utvärderingsresultat med klusteranalys (förhandsversion)

Viktigt

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.

När du har kört en eller flera utvärderingskörningar kan du generera en utvärderingsklusteranalys för att förstå dina utvärderingsresultat. Den här analysen ger ett intuitivt sätt att identifiera de främsta mönstren och felen i dina utvärderingskörningar, tillsammans med rekommenderade nästa steg för att förbättra utvärderarpoängen.

Den här artikeln beskriver hur du genererar och interagerar med en utvärderingsklusteranalys.

Förutsättningar

Ett Foundry-projekt.
En eller flera slutförda utvärderingskörningar.
En distribuerad modell i projektet som ska användas för klusteranalysgenerering. Mer information finns i Skapa modelldistributioner.

Generera en utvärderingsklusteranalys

På sidan med utvärderingsinformation väljer du en eller flera slutförda utvärderingskörningar.
Välj Klusteranalys. Ett installationsfönster öppnas som visar den uppskattade tiden och tokenanvändningen baserat på antalet exempel i de valda körningarna.
Välj en modell i listrutan som ska användas för att generera analysen.
Välj Generera. Analysen genereras och klusterkartan öppnas automatiskt.

Viktigt

Analysresultatet lagras inte. Om du lämnar sidan går resultatet förlorat. Om du vill behålla en kopia laddar du ned analysen innan du navigerar bort.

Visa klusteranalys

Klusteranalys ger en intuitiv visualisering av prestanda genom att gruppera utvärderingsresultatexempel med liknande problem eller svarsmönster. Det hjälper dig att snabbt identifiera återkommande feltyper, förstå fördelningen mellan felkategorier och prioritera förbättringsområden.

Överst i vyn visas sammanfattningsstatistik för utvärderingskörningen:

Totalt antal exempel – Totalt antal utvärderade svar (till exempel 48).
Kluster – Antal automatiskt identifierade kluster (till exempel 2).
Godkänd/misslyckad – Uppdelning av lyckade kontra problematiska exempel.
Genomsnittlig poäng – den totala genomsnittliga kvalitetspoängen för körningen.

Observera

Hovra över en punkt- eller klusteretikett för att visa detaljerad information, inklusive exempelsvar och feedback från utvärderaren. Välj för att öppna detaljpanelen.

Visualisering

Varje punkt representerar ett exempel från din utvärderingsdatauppsättning. Punkter grupperas efter semantisk likhet med hjälp av inbäddningsbaserad klustring av modellutdata och feedbacksignaler.

Färg: Anger klustertilldelningen (till exempel otillräckligt slutligt svar eller felaktigt svar).
Position: Exempel som är närmare varandra delar liknande egenskaper eller problem.

Detaljpanel

Kluster

Om du väljer ett kluster öppnas en sidopanel som innehåller:

Valt kluster – Namnet på problemgruppen på den översta nivån.
Antal poster – Totalt antal exempel i det här klustret.
Undermappar – Uppdelning av relaterade underkategorier.
Beskrivning – Automatiskt genererad diagnostisk sammanfattning som förklarar den troliga orsaken eller det karakteristiska mönstret
Rekommendationer: Föreslagna nästa steg för riskminimering eller agentförbättring.

subkluster

Om du väljer ett undercluster öppnas en sidopanel som innehåller:

Kluster – Anger det överordnade kluster som denna underkluster tillhör (till exempel inadequate_final_answer).
Vald underkluster – den specifika delmängd som undersöks (till exempel invalid_or_missing_api_key).
Antal poster – antal enskilda exempel grupperade under den här underklustern.
Flikar
- Analys – Ger sammanfattningsstatistik, poängsnitt och kvalitativa insikter (när det är tillgängligt).
- Poster – visar varje exempel (post-ID) i underrutan med sina individuella poäng, till exempel flyt, grund eller noggrannhet.

Inläggs-ID

Om du väljer ett punkt-/post-ID öppnas en sidopanel som innehåller:

Klusterhierarki
- Visar den fullständiga sökvägen där denna post tillhör: Kluster → Subkluster → post-ID Till exempel inadequate_final_answer → invalid_or_missing_api_key → post-ID: 17-fluency.
Flikar
Konversation – Visar fulltextinteraktionen för det valda exemplet:
- Kontextsammanfattning (om tillämpligt) – Bakgrund eller föregående kontext som används i utvärderingen.
- Fråga – Modellprompten eller användarfrågan (till exempel "Hur skickar jag ett FSA-ersättningsanspråk?").
- Svar – modellens genererade utdata för den frågan.
Metadata – innehåller ytterligare utvärderingsinformation som poäng, utvärderare, tidsstämplar, agent-ID:t och spårnings-ID:t.

Med filterpanelen till höger i klusteranalysvyn kan du anpassa hur kluster visas för riktad inspektion.

Sortera efter färg
- Gör att du kan justera hur exemplen färgkodas i visualiseringen.
- Alternativen omfattar vanligtvis:
  - Kluster – Färgar exempel efter problemkategori på den översta nivån.
  - Underkluster – Färgar prover med mer detaljerade underkategorier i varje kluster.
  - Eller utvärderingsresultat, utvärderingstyp, poäng och agent-ID.

Avancerad filtrering
- Innehåller verktyg för att fokusera visualiseringen på specifika delmängder av data.
- Du kan definiera filter baserat på metadata eller utvärderingsattribut.
  - Välj Parameter – Välj vilket fält som ska filtreras på (till exempel poäng, utvärderartyp, tidsstämpel).
  - Lika med/Innehåller/Inte lika med – Definiera villkoret för filtrering.
  - Välj Värde – Välj eller ange det specifika värde som ska matchas.
  - Lägg till filter – Använd villkoret för att uppdatera vyn dynamiskt.

Ladda ned analysen

Om du vill visa analysen offline väljer du Ladda ned för att hämta en kopia av analysen i CSV-format och visa den i andra program.

Observera

Analysresultatet lagras inte. Om du lämnar sidan går analysresultatet förlorat.

Nästa steg

Använd insikterna från klusteranalys för att:

Förfina prompter – Uppdatera agentens instruktioner för att hantera återkommande felmönster som identifieras i klustren.
Träna om eller finjustera – Använd identifierade felkategorier som signal för finjustering av datakuration.
Utvärdera igen – När du har gjort ändringar kör du en ny utvärdering och genererar en ny klusteranalys för att jämföra resultat. Se Köra utvärderingar från SDK.

Felsökning

Symptom	Sannolik orsak	Åtgärda
Knappen Klusteranalys är inte tillgänglig	Inga slutförda utvärderingskörningar har valts	Välj minst en slutförd utvärderingskörning på sidan med utvärderingsinformation innan du väljer Klusteranalys.
Inga modeller visas i generationsfönstret	Inga modeller distribueras i projektet	Distribuera en modell i projektet. Se Skapa modelldistributioner.
Analysgenereringen misslyckas eller överskrider tidsgränsen	För stor datavolym eller tjänstbegränsning	Minska antalet valda utvärderingskörningar eller försök igen senare.
Analysen försvinner när man navigerar bort	Resultaten sparas inte	Kör klusteranalysen igen och ladda ned resultaten innan du navigerar bort.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-30