Muistiinpano
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää kirjautua sisään tai vaihtaa hakemistoa.
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää vaihtaa hakemistoa.
Kun olet tulkinnut arviointipisteet ja tunnistanut tarkastelualueet, määritä, miksi yksittäiset testitapaukset epäonnistuivat ja kenen on toimittava.
Tässä artikkelissa on jäsennettyjä ohjeita testitapauksen tasolla virheiden vianmääritykseen. Sen avulla voit luokitella pääsyyn, erottaa agentin, arvioinnin ja infrastruktuurin ongelmat ja valita sopivan seuraavan toiminnon.
Alkutoimet
Ennen kuin aloitat vianmäärityksen:
- Viimeistele pistetulkinnan ja valmiuden arviointi ja tunnista, mitkä arviointijoukot edellyttävät huomiota.
- Keskity valmiuden ja riskin perusteella tärkeimpiin epäonnistumisiin.
Tärkeää
Jos ohitat tämän vaiheen, saatat käyttää aikaa vähäisiin tai estämättömiin ongelmiin.
Ennakkotarkistus: infrastruktuurin kunnon tarkistaminen
Ennen kuin diagnosoit yksittäisiä virheitä, varmista, että riippuvuudet olivat kunnossa arviointisuorituksen aikana. Infrastruktuuriongelmat voivat aiheuttaa virheitä, jotka näyttävät agentilta tai arviointiongelmista, mutta jotka eivät liity kumpaankaan.
Tarkista seuraavat ehdot:
- Tietolähteet ovat helppokäyttöisiä ja indeksoituja.
- Ohjelmointirajapinnan taustat tai liittimet eivät palauta virheitä, aikakatkaisuja tai maksurajavastauksia.
- Todennustunnukset ovat voimassa koko suorituksen ajan.
- Arviointiympäristö vastaa aiotun agentin määritystä.
Jos riippuvuus on epäterveellinen, korjaa ongelma ja suorita arviointi uudelleen ennen jatkamista. Triaging-tulokset epäterveesestä suorittamisesta voivat johtaa virheellisiin päätelmiin.
Vaihe 0: Virheiden priorisointi
Ennen kuin käsittelet yksittäisiä testitapauksia, päätä, mihin sinun kannattaa ensin keskittyä.
Priorisoi virheet tässä järjestyksessä:
| Prioriteetti | Triage ensin | Perustelut |
|---|---|---|
| 1 | Turvallisuus- ja yhteensopivuusvirheet | Suurin seuraus. Ratkaise nämä virheet ennen käyttöönottoa. |
| 2 | Liiketoimintaskenaarion keskeiset epäonnistumiset | Suora vaikutus agentin arvoehdotukseen. |
| 3 | Virhe pienimmän pistemäärän arviointijoukossa | Todennäköisesti systeeminen. Pääsyyn korjaaminen saattaa ratkaista useita virheitä. |
| 4 | Toistuvat virheet useiden suoritusten välillä | Yhdenmukaiset virheet on helpompi diagnosoida. |
| 5 | Ominaisuusskenaarion virheet | Tärkeää, mutta yleensä pienempää vaikutusta. |
Jos virheitä on useita (esimerkiksi yli 15), älä käsittele kaikkia virheitä yksitellen. Aloita pienimmän pistemäärän saamisen arviointijoukosta ja tarkista muutama virhe manuaalisesti. Jos niillä on yhteinen syy, sen korjaaminen voi ratkaista useita ongelmia kerralla.
Epäonnistuneen testin laatusignaalin tunnistaminen
Jos arviointitulos näyttää epäonnistuneen testitapauksen, mutta ei selvästi tunnista laatusignaalia, käytä arviointijoukkoa ja luokitusmenetelmää signaalin päättelemiseksi.
Esimerkiksi:
- Arviointijoukko ilmaisee ominaisuuden alueen, kuten turvallisuuden, maadoitusympäristön tai työkalun käytön.
- Luokitusmenetelmä, kuten avainsanavastaavuus tai rubriikkapohjainen pisteytys, tarjoaa enemmän kontekstia.
Määrittämällä aiotun laatusignaalin voit valita tärkeimmät diagnostiikkakysymykset.
Vaihe 1: Tarkista arvioinnin asetukset
Tärkeää
Aloita aina tästä. Varmista ennen agentin tutkimista, että arvioinnin määritykset ovat oikein.
Tarkista kunkin vian yhteydessä manuaalisesti agentin todellinen vastaus odotetun arvon ja luokitusmenetelmän rinnalla.
Käy läpi seuraavat kysymykset järjestyksessä. Lopeta, kun saavutat tuloksen.
Onko agentin vastaus hyväksyttävä? Tyytyisikö todellinen käyttäjä tähän vastaukseen, vaikka arviointi epäonnistui?
- Jos Kyllä, arvioinnin määrityksessä on ongelma: arvioija tai odotettu arvo on väärä.
- Jos ei, jatka seuraavaan kysymykseen.
Onko odotettu vastaus ajantasainen ja tarkka lähdettä vasten?
- Jos kyllä, jatka seuraavaan kysymykseen.
- Jos ei, arvioinnin määrityksessä on ongelma: Odotettu vastaus on vanhentunut tai väärä.
Kuvastaako testitapaus realistista käyttäjän syötettä?
- Jos kyllä, jatka seuraavaan kysymykseen.
- Jos ei, arvioinnin määrityksessä on ongelma: testitapaus ei ole epärealistinen.
Voisiko myös kohtuullinen vaihtoehtoinen vastaus olla oikea, mutta arvioija ei salli sitä?
- Jos Kyllä, arvioinnin määrityksessä on ongelma: Luokitus on liian jäykkä eikä sisällä kelvollisia variaatioita.
- Jos ei, jatka seuraavaan kysymykseen.
Onko arviointimenetelmä sopiva testattavaksi?
- Jos Kyllä, arviointi on kelvollinen. Siirry vaiheeseen 2: Diagnosoi agentti.
- Jos ei, arvioinnin määrityksessä on ongelma: Arviointimenetelmä ei sovellu tälle laatusignaalille.
Vastauksen hyväksyttävyyden määrittäminen
Käytä seuraavia signaaleja määrittääksesi, onko agentin vastaus hyväksyttävä:
- Samat keskeiset faktat, eri sanamuoto → Usein hyväksyttävä (arvosana voi olla liian jäykkä).
- Lähteestä puuttuvat tärkeät tiedot → Usein ei hyväksyttävää.
- Moniselitteinen "tarpeeksi hyvä" kynnysarvo → Hyväksymisehdot voivat olla epäselvät (kohta 4).
Jos et ole varma, vertaa sisältöä alkuperäiseen lähteeseen, ei vain odotettuun vastaukseen.
Nämä signaalit ilmoittavat tuomiostasi, mutta eivät korvaa sitä.
Yleiset arvioinnin määritysten virhetyypit
| Virheen tyyppi | Kuvaus | Esimerkki |
|---|---|---|
| Vanhentunut odotettu vastaus | Lähdesisältöä on muutettu, mutta odotettua arvoa ei päivitetty | Käytäntö on päivitetty 15 päivään, mutta arviointi odottaa silti "30 päivän palautusikkunaa". |
| Liian jäykkä luokkaaja | Avainsanan vastaavuus epäonnistuu kelvollisen synonyymin tai uudelleenmuotoilun kanssa | Odotettavissa on "kylmää vettä". Agenttivastaus sanoo "viileää vettä, 30 astetta C", mikä on semanttisesti oikein. |
| Epärealistinen testitapaus | Testiskenaario ei vastaa käyttäjän todellista toimintaa | Neljän kappaleen kyselyn testaaminen, kun reaalikäyttäjät kirjoittavat 5–10 sanaa. |
| Väärä arviointimenetelmä | Arviointimenetelmä ei vastaa sitä, mitä todellisuudessa testaat | Avainsanavastaavuuden (kaikki) käyttäminen synteesikysymyksessä, jossa Vertailun merkitys on sopiva. |
| Arvioijan asiavirhe | Kielimalli tuomarina keksii epäonnistumisen syyn, joka ei ole todellinen (yksittäinen virhe) | Kielimallin arvosanan mukaan "vastauksessa ei mainita palautuskäytäntöä", kun se selvästi tekee niin. |
| Arvioijan systemaattinen puolueellisuus | Kielimalli tuomarina soveltaa epäjohdonmukaista standardia kaikissa testitapauksissa (kalibrointiongelma) | Arvioija välittää lyhyet vastaukset, mutta ei läpäise pidempiä vastauksia samalle laadukkaalle signaalille sisällöstä riippumatta. |
| Moniselitteiset hyväksymisehdot | Odotettu arvo voidaan tulkita useilla tavoilla | "Tulee sisältää hinnoittelutiedot." Kuukausittain? Vuosittainen? Käyttäjäkohtainen? |
Arvosanan tarkistus
Arvioinnin luotettavuus on luotettavan triagen edellytys. Jos arvioija itse on epäluotettava, voit väärinymmärtää jokaisen siihen kosketuksen vian.
Jos haluat vahvistaa luokkaluokittajan luotettavuuden:
- Valitse 5–10 testitapausta, joissa tiedät oikean läpäisy- ja epäonnistumistuloksen manuaalisesta tarkistamisesta.
- Suorita arviointi ja vertaa arvosanan tulostetta manuaaliseen tuomioon.
- Jos arvioija on eri mieltä yli 20 %:ssa tapauksista, kalibroi arvosananluokittaja uudelleen ennen agentin virheenkorjausta.
Merkkejä, että luokkalainen tarvitsee huomiota:
- Sama testitapaus tuottaa erilaisia tuomioita eri juoksuissa.
- Virheiden klusteri arviointijoukoissa, jotka käyttävät mallipohjaista luokitusta determinististen menetelmien ohittaessa.
- Arvioija merkitsee ongelmat, joita et voi toistaa tarkistamalla agentin vastausta.
Arvosanan uudelleenkalibrointivaihtoehdot:
- Käytä deterministisiä menetelmiä mahdollisuuksien mukaan.
- Lisää rubriisiin eksplisiittisiä "hyväksyttäviä" ja "ei hyväksyttäviä" esimerkkejä.
- Laajenna avainsanajoukkoja sisältämään synonyymit ja kelvolliset uudelleenmuotoilut.
- Käytä Semanttisten vastaavuustarkistusten yhteydessä Vertaa merkitystä-arvoa Avainsanavastaavuus (Kaikki) -arvon sijaan.
Vaihe 2: Agentin vianmääritys
Tässä vaiheessa arviointi on kelvollinen ja agentti tuotti virheellisen vastauksen. Diagnosoi, mikä meni vikaan agenttimäärityksessä.
Vinkki
Jotkin diagnostiikkakysymykset edellyttävät näkyvyyttä siihen, mitä agentti teki sisäisesti (esimerkiksi mikä tietolähde haettiin, mitä työkalua kutsuttiin tai mikä aihe käynnistettiin). Käytä jäljityslokeja, keskustelutallenteita tai testianalytiikkaa, kun se on käytettävissä. Jos ympäristösi ei paljasta näitä tietoja, päätellä ne vastauksesta (esimerkiksi sisältö, joka näkyy vain lähteessä A, on todennäköisesti peräisin lähteestä A).
Tarkista asiatarkkuuden ja tietämyksen maadoitusvirheet
| Kysymys | Jos kyllä → pääsyy |
|---|---|
| Hakeeko agentti väärästä tietolähteestä? | Tietolähteen määritys. Väärä lähde indeksoitu tai priorisoitu. |
| Hakisiko agentti oikean lähteen, mutta poimiko hän väärät tiedot? | Kehotteiden tai ohjeiden aukko. Malli tarvitsee poimintaohjeita. |
| Onko lähdesisältö itse virheellinen vai vanhentunut? | Tietolähteen sisältö. Päivitä lähdetiedosto. |
| Vastasiko agentti käyttämättä mitään tietolähdettä (keksi vastauksen)? | Lähteen helppokäyttötoiminnot. Lähdettä ei ole indeksoitu, tai kyselymuotoilu ei vastaa lähde sanastoa. |
| Onko agentin ristiriitaista tietoa, joka on lähteessä? | Virheelliset tiedot. Lisää selkeät maadoitusohjeet. |
Työkalujen kutsuvirheiden tarkistaminen
| Kysymys | Jos kyllä → pääsyy |
|---|---|
| Käynnistyikö väärä työkalu? | Työkalun kuvauksen moniselitteisyys. Työkalujen väliset kuvaukset ovat päällekkäisiä. |
| Käynnistyikö oikea työkalu väärillä parametreilla? | Parametrimääritys. Rakenne tai kuvaus epäselvä. |
| Eikö työkalu käynnistynyt ollenkaan? | Laukaisuehto. Syöte ei täytä kutsuehtoja. |
| Käynnistyikö työkalu, kun sitä ei olisi pitänyt? | Negatiivinen suojakaide puuttuu. Ei ohjeita siihen, milloin työkalua ei kannata kutsua. |
| Käynnistyikö työkalu oikein, mutta vastaus väärinkäytti tulostetta? | Vastausohjeet. Agentti tarvitsee ohjeita työkalun tulosteiden muotoilemiseen. |
| Käynnistyikö työkalu oikein, mutta itse työkalu epäonnistui (virhe, aikakatkaisu, virheelliset tiedot)? | Työkalu- tai integrointiongelma. virhe on taustajärjestelmässä, ei agentissa. Korjaa työkalu, älä agenttia. |
Tarkista käynnistysreititysvirheet
| Kysymys | Jos kyllä → pääsyy |
|---|---|
| Syttyikö väärä aihe palamaan? | Aihelaukaisimen päällekkäisyys. Käynnistimet ovat aiheiden välillä moniselitteisiä. |
| Ei aihepaloa (takaisku)? | Aiheiden kattavuuden ero. Mikään aihe ei käsittele tätä syötetyyppiä. |
| Vastasivatko useat aiheet väärää täsmennystä? | Selvityslogiikka. Prioriteetin tai selvennyksen työnkulku on määritetty väärin. |
Tarkista sävy- ja vastauslaatuvirheet
| Kysymys | Jos kyllä → pääsyy |
|---|---|
| Onko agentin sävy ristiriidassa järjestelmän kehotteen ohjeiden kanssa? | Sävelohjeistusaukko. Ratkaise puuttuvat tai ristiriitaiset ohjeet. |
| Onko vastaus liian yksityiskohtainen vai liian terse kysymykseen? | Muotoiluohjeet. Lisää pituus- tai rakenneohjeet. |
| Eikö agentilta puutu empatiaa arkaluontoisissa konteksteissa? | Empatia-ohje-aukko. Lisää eksplisiittisiä ohjeita emotionaalisiin syötteisiin. |
| Onko vastaus rakenteellisesti heikko (tekstiseinä, ei vaiheita)? | Muotoiluohjeet. Lisää muotoiluvaatimuksia. |
Turvallisuus- ja rajavirheiden tarkistus
| Kysymys | Jos kyllä → pääsyy |
|---|---|
| Paljastiko agentti järjestelmän tiedot? | Järjestelmän kehotesuojaus. Lisää "älä paljasta" -ohjeet. |
| Menikö agentti pois vaikutusalaansa? | Laajuusmääritelmän ero. Määritä rajat selkeämmin. |
| Noudattiko agentti kehotteen injektiota? | Turvallisuusohjeet. Lisää ohjeita vastustuskyvyn parantamiseen. |
| Käsittelikö agentti henkilötietoja väärin? | PII-käsittelysäännöt. Lisää tietosuojaohjeet. |
Eskaloinnin ja hallitun epäonnistumisen tarkistaminen
| Kysymys | Jos kyllä → pääsyy |
|---|---|
| Epäonnistuiko agentti tilanteen kärjistyessä, vaikka sen olisi pitänyt? | Eskalointikäynnistin. Ehtoja ei ole määritetty tai ne ovat liian kapeat. |
| Eskaloiko agentti ennenaikaisesti? | Eskaloinnin raja-arvo. Ehdot ovat liian herkkiä. |
| Menettikö eskalaatio keskustelukontekstin? | Handoff-määritys. Kontekstin säilyttämistä ei ole määritetty. |
| Silmukoiko agentti sen sijaan, että tunnustaisi epäonnistumisen? | Varalogiikka. Uudelleenyritysten rajaa tai varatoimintoa ei ole määritetty. |
Vianmäärityksen jälkeen yhdistä virhemallit korjausstrategioihin vian pääsyyn perustuen.
Vaihe 3: Ympäristön rajoitusten tunnistaminen
Jos arviointi on oikein ja kohtuulliset määritysmuutokset eivät paranna tuloksia, ongelma voi olla käyttöympäristön rajoitus.
Käyttöympäristön rajoitusilmaisimet
| Ilmaisin | Mitä se ehdottaa |
|---|---|
| Sama virhe jatkuu useissa kehotteiden ja määritysvariaatioiden variaatioissa | Ei määritysongelmaa |
| Nouto palauttaa johdonmukaisesti vääriä asiakirjoja oikeasta lähdemäärityksestä huolimatta | Noutosijoituksen rajoitus |
| Agentti ei pysty suorittamaan vaadittuja päättelyjä selkeistä ohjeista huolimatta | Mallin ominaisuuksien raja |
| Mikään määritysasetus ei tue vaadittua orkestrointimallia | Orkestrointilogiikan rajoite |
| Mallipohjainen arvioija luokittelee jatkuvasti väärin, vaikka rubriikkia säädettäisiin. | Luokkamallin rajoitus |
Käyttöympäristön rajoitusten toimintopolku
- Dokumentoi rajoitus selkeästi (se, mikä epäonnistuu, mitä kokeilit, ja todisteet siitä, että se ei liity määrityksiin).
- Käytä kiertotapaa, kun se on mahdollista (esimerkiksi uudista lähdeasiakirjan rakenne noudon parantamiseksi).
- Merkitse testitapaus tunnetuksi rajoitukseksi tai säädä raja-arvoja niin, että se ei estä liittymätöntä edistymistä.
- Laadi todisteet ja vie ne alustatiimille.
- Seuraa virhelokin kohdetta uudelleenarviointia varten, kun ympäristön ominaisuudet päivittyvät.
Tarkista luokittelun jälkeen käyttöympäristön rajoituksiin vastaamisen ratkaisu- ja eskalointiohjeet.
Jos virhe ei sovi kehyksiin
Jotkin virheet eivät yhdistetä siististi yhteen pääsyytyyppiin. Yleisiä esimerkkejä:
- Taustatietojen laatuongelmat: Tietolähteen sisältö on teknisesti oikein, mutta moniselitteisesti kirjoitettu, joten sen paremmin agentti kuin arviointikaan eivät ole vääriä.
- Ajoittainen infrastruktuuriongelmat: verkon aikakatkaisut, ohjelmointirajapintanopeuden rajoittaminen ja yhdistinongelmat, jotka eivät toistu johdonmukaisesti.
- Mallin versio muuttuu: Agentin toiminta on muuttunut alustamallipäivityksen jälkeen, jota et aloittanut.
- Moniselitteisiä testitapauksia: Skenaario on moniselitteinen, ja järkevät ihmiset ovat eri mieltä oikeasta vastauksesta.
Suositettu lähestymistapa: Dokumentoi havaitsemasi tiedot (virhe, agentin vastaus ja tarkistamasi asia). Tallenna virhelokiin kohde luokittelemattomana. Jos virhe toistuu, se voidaan usein luokitella lisänäyttöjen avulla.
Yhdistelmäsyiden käsittely
Yhdellä virheillä voi olla useita pääsyyn vaikuttavia syitä. Esimerkiksi:
- Faktatarkkuusvirhe, jossa odotettu vastaus on hieman vanhentunut (arvioinnin määritys) ja tietolähde on myös epätäydellinen (agentin määritys).
- Työkalukutsuvirhe, jossa työkalun kuvaus on moniselitteinen (agentin määritys) ja orkestrointi ei tue ehdollisia työkalukutsuja (käyttöympäristön rajoitus).
Suositettu lähestymistapa: Suorita jokaisen vian täysi diagnosointi. Jos käytössä on useita pääsyyn tyyppejä, käsittele niitä prioriteettijärjestyksessä:
- Korjaa arviointi ensin , jotta saadaan puhdas signaali siitä, auttaako agentin muutos todella.
- Korjaa agentin määritys ja määritä, onko jäljellä oleva virhe todella käyttöympäristö-ongelma.
- Dokumentoi käyttöympäristön rajoitus vasta, kun 1 ja 2 on ratkaistu.
Suorita testitapaukset uudelleen kunkin muutoksen jälkeen ennen jatkamista.
Moniosaisista keskusteluvirheistä selviytyminen
Usean käännöksen skenaarioissa epäonnistumiset ilmenevät vain vuorotellen.
Milloin epäilet monikäännysongelmaa
- Agentti vastaa oikein varhaisissa käännöksissä, mutta on ristiriidassa itsensä kanssa myöhemmin.
- Agentti menettää kontekstinsa edellisestä työkalukutsusta tai tietojen noudosta myöhemmissä käänteissä.
- Eskaloinnin ajoitus on järkevää vain, kun otetaan huomioon koko keskusteluhistoria.
- Agentin sävy heikkenee asteittain keskustelun pidentyessä.
- Agentti pyytää tietoja, jotka käyttäjä on jo antanut.
Vinkki
Virhe saattaa ilmetä myöhemmin, kun taas pääsyy on aikaisempi. Jäljitä takaisin tunnistaaksesi ensimmäisen käänteen, jossa keskustelu erkautui.
Vianmääritystä koskevat lisäkysymykset
| Kysymys | Jos kyllä → pääsyy |
|---|---|
| Riippuko epäonnistuminen edellisen käänteen tiedoista, jotka katosivat? | Kontekstinhallintaongelma; keskustelun tilaa ei säilytetä vuorotellen. |
| Onko agentti eri mieltä jostakin, mitä se sanoi aiemmassa käänteessä? | Johdonmukaisuuden ohje-aukko; ei ohjeita johdonmukaisuuden säilyttämiseksi vuorotellen. |
| Pyysikö agentti uudelleen tietoja, jotka käyttäjä oli jo antanut? | Kontekstin nouto-ongelma; Agentti ei viittaa aikaisempaan keskusteluun. |
| Ilmestyikö virhe vasta monen käännöksen jälkeen (yli 5)? | Voimassa oleva kontekstin pituus ylitetty. |
Ohjeita monivaiheisten ongelmien ratkaisemiseen
- Kontekstin menetys: Tarkista keskustelun tilan määritys. Varmista, että työkalun tulokset ja tärkeimmät faktat säilyvät vuorotellen.
- Ristiriitaiset toimet: Lisää johdonmukaisuusohjeita, kuten: "Ylläpidä johdonmukaisuutta aiempien vastaustesi kanssa tässä keskustelussa".
- Uudelleen kysyminen: Tarkista ympäristön keskustelumuistin määritykset.
- Pitkä keskustelun heikkeneminen: Harkitse keskustelun yhteenvetoa tai kontekstin pruning-strategioita.
Läpimenneiden testitapausten validointi (väärien positiivisten tarkistus)
Tässä kehyksessä keskitytään epäonnistunteihin testitapauksiin. Virheellisesti ohittava testitapaus voi kuitenkin luoda piilotettuja laatupuutteita.
Suositeltu käytäntö: Tarkista manuaalisesti 5–10% läpäisseistä testitapauksista jokaisessa arviointikerrassa, erityisesti seuraavissa:
- Mallipohjainen luokitus (suurempi false-positiivisten riski)
- Subjektiivinen signaalit (sävy, avuliaisuus)
- Aiemmin epäonnistuneet testit, jotka läpäisevät nyt muutoksen jälkeen
Jos löydät vääriä positiiveja, kalibroi arviointilaite uudelleen.
Seuraavat vaiheet
Epäonnistumisen luokittelun valmistumisen jälkeen:
- Käytä kerrosta 3: Kartoita virhemallit strategioiden korjaamiseen.
- Käytä kerrosta 4: Analysoi malleja järjestelmäongelmien tunnistamiseen.
- Tutustu käytännön esimerkkeihin , jotka osoittavat, miten viitetasot toimivat yhdessä reaalimaailman skenaarioissa.