Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt
Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller har begränsade funktioner. Mer information finns i Supplemental Terms of Use for Microsoft Azure Previews.
När du har kört en eller flera utvärderingskörningar kan du generera en utvärderingsklusteranalys för att förstå dina utvärderingsresultat. Den här analysen ger ett intuitivt sätt att identifiera de främsta mönstren och felen i dina utvärderingskörningar, tillsammans med rekommenderade nästa steg för att förbättra utvärderarpoängen.
Den här artikeln beskriver hur du genererar och interagerar med en utvärderingsklusteranalys.
Förutsättningar
- Ett Foundry-projekt.
- En eller flera slutförda utvärderingskörningar.
- En distribuerad modell i projektet som ska användas för klusteranalysgenerering. Mer information finns i Skapa modelldistributioner.
Generera en utvärderingsklusteranalys
- På sidan med utvärderingsinformation väljer du en eller flera slutförda utvärderingskörningar.
- Välj Klusteranalys. Ett installationsfönster öppnas som visar den uppskattade tiden och tokenanvändningen baserat på antalet exempel i de valda körningarna.
- Välj en modell i listrutan som ska användas för att generera analysen.
- Välj Generera. Analysen genereras och klusterkartan öppnas automatiskt.
Viktigt
Analysresultatet lagras inte. Om du lämnar sidan går resultatet förlorat. Om du vill behålla en kopia laddar du ned analysen innan du navigerar bort.
Visa klusteranalys
Klusteranalys ger en intuitiv visualisering av prestanda genom att gruppera utvärderingsresultatexempel med liknande problem eller svarsmönster. Det hjälper dig att snabbt identifiera återkommande feltyper, förstå fördelningen mellan felkategorier och prioritera förbättringsområden.
Överst i vyn visas sammanfattningsstatistik för utvärderingskörningen:
- Totalt antal exempel – Totalt antal utvärderade svar (till exempel 48).
- Kluster – Antal automatiskt identifierade kluster (till exempel 2).
- Godkänd/misslyckad – Uppdelning av lyckade kontra problematiska exempel.
- Genomsnittlig poäng – den totala genomsnittliga kvalitetspoängen för körningen.
Observera
Hovra över en punkt- eller klusteretikett för att visa detaljerad information, inklusive exempelsvar och feedback från utvärderaren. Välj för att öppna detaljpanelen.
Visualisering
Varje punkt representerar ett exempel från din utvärderingsdatauppsättning. Punkter grupperas efter semantisk likhet med hjälp av inbäddningsbaserad klustring av modellutdata och feedbacksignaler.
- Färg: Anger klustertilldelningen (till exempel otillräckligt slutligt svar eller felaktigt svar).
- Position: Exempel som är närmare varandra delar liknande egenskaper eller problem.
Detaljpanel
Kluster
Om du väljer ett kluster öppnas en sidopanel som innehåller:
- Valt kluster – Namnet på problemgruppen på den översta nivån.
- Antal poster – Totalt antal exempel i det här klustret.
- Undermappar – Uppdelning av relaterade underkategorier.
- Beskrivning – Automatiskt genererad diagnostisk sammanfattning som förklarar den troliga orsaken eller det karakteristiska mönstret
- Rekommendationer: Föreslagna nästa steg för riskminimering eller agentförbättring.
subkluster
Om du väljer ett undercluster öppnas en sidopanel som innehåller:
- Kluster – Anger det överordnade kluster som denna underkluster tillhör (till exempel inadequate_final_answer).
- Vald underkluster – den specifika delmängd som undersöks (till exempel invalid_or_missing_api_key).
- Antal poster – antal enskilda exempel grupperade under den här underklustern.
- Flikar
- Analys – Ger sammanfattningsstatistik, poängsnitt och kvalitativa insikter (när det är tillgängligt).
- Poster – visar varje exempel (post-ID) i underrutan med sina individuella poäng, till exempel flyt, grund eller noggrannhet.
Inläggs-ID
Om du väljer ett punkt-/post-ID öppnas en sidopanel som innehåller:
- Klusterhierarki
- Visar den fullständiga sökvägen där denna post tillhör: Kluster → Subkluster → post-ID Till exempel inadequate_final_answer → invalid_or_missing_api_key → post-ID: 17-fluency.
- Flikar
- Konversation – Visar fulltextinteraktionen för det valda exemplet:
- Kontextsammanfattning (om tillämpligt) – Bakgrund eller föregående kontext som används i utvärderingen.
- Fråga – Modellprompten eller användarfrågan (till exempel "Hur skickar jag ett FSA-ersättningsanspråk?").
- Svar – modellens genererade utdata för den frågan.
- Metadata – innehåller ytterligare utvärderingsinformation som poäng, utvärderare, tidsstämplar, agent-ID:t och spårnings-ID:t.
Filterpanel
Med filterpanelen till höger i klusteranalysvyn kan du anpassa hur kluster visas för riktad inspektion.
- Sortera efter färg
- Gör att du kan justera hur exemplen färgkodas i visualiseringen.
- Alternativen omfattar vanligtvis:
- Kluster – Färgar exempel efter problemkategori på den översta nivån.
- Underkluster – Färgar prover med mer detaljerade underkategorier i varje kluster.
- Eller utvärderingsresultat, utvärderingstyp, poäng och agent-ID.
- Avancerad filtrering
- Innehåller verktyg för att fokusera visualiseringen på specifika delmängder av data.
- Du kan definiera filter baserat på metadata eller utvärderingsattribut.
- Välj Parameter – Välj vilket fält som ska filtreras på (till exempel poäng, utvärderartyp, tidsstämpel).
- Lika med/Innehåller/Inte lika med – Definiera villkoret för filtrering.
- Välj Värde – Välj eller ange det specifika värde som ska matchas.
- Lägg till filter – Använd villkoret för att uppdatera vyn dynamiskt.
Ladda ned analysen
Om du vill visa analysen offline väljer du Ladda ned för att hämta en kopia av analysen i CSV-format och visa den i andra program.
Observera
Analysresultatet lagras inte. Om du lämnar sidan går analysresultatet förlorat.
Nästa steg
Använd insikterna från klusteranalys för att:
- Förfina prompter – Uppdatera agentens instruktioner för att hantera återkommande felmönster som identifieras i klustren.
- Träna om eller finjustera – Använd identifierade felkategorier som signal för finjustering av datakuration.
- Utvärdera igen – När du har gjort ändringar kör du en ny utvärdering och genererar en ny klusteranalys för att jämföra resultat. Se Köra utvärderingar från SDK.
Felsökning
| Symptom | Sannolik orsak | Åtgärda |
|---|---|---|
| Knappen Klusteranalys är inte tillgänglig | Inga slutförda utvärderingskörningar har valts | Välj minst en slutförd utvärderingskörning på sidan med utvärderingsinformation innan du väljer Klusteranalys. |
| Inga modeller visas i generationsfönstret | Inga modeller distribueras i projektet | Distribuera en modell i projektet. Se Skapa modelldistributioner. |
| Analysgenereringen misslyckas eller överskrider tidsgränsen | För stor datavolym eller tjänstbegränsning | Minska antalet valda utvärderingskörningar eller försök igen senare. |
| Analysen försvinner när man navigerar bort | Resultaten sparas inte | Kör klusteranalysen igen och ladda ned resultaten innan du navigerar bort. |