Kerros 1: Arviointipisteiden tulkitseminen ja valmiuden arvioiminen

Kun olet suorittanut arviointeja agentille, sinulla on yleensä pisteet, mutta et välitöntä vastausta tärkeimpään kysymykseen: Onko agentti valmis otettavaksi käyttöön?

Tässä kerroksessa keskitytään arviointipisteiden tulkintaan ja valmiuden arviointiin, ennen kuin tutkit yksittäisten testitapausten virheitä. Käytä pistemääriä päätössignaaleina määrittääksesi, voitko ottaa agentin käyttöön, jatkaa iterointia vai estää käyttöönoton. Tämän vaiheen avulla voit myös selvittää, missä tarvitaan syvempää analyysia.

Pisteiden tulkinnan tarkoitus

Tämän tason avulla voit vastata korkean tason valmiuskysymyksiin, kuten:

  • Onko agentti valmiina lähetettäväksi?
  • Jos näin ei ole, mitkä alueet edellyttävät ensin huomiota?
  • Onko mitään estäviä ongelmia, jotka on käsiteltävä ennen lisätodennusta?

Tämä vaihe on tarkoituksella kevyt. Useimmissa tapauksissa voit suorittaa sen 10–15 minuutissa käyttämällä jo saamiesi arviointitulosten tuloksia.

Alkutoimet

Varmista ennen tämän tason aloittamista, että sinulla on seuraavat asiat:

  • Yksittäisten testitapausten tulosten läpäiseminen tai epäonnistuminen.
  • Koostetut pisteet yhdelle tai useammalle arviointijoukolle (esimerkiksi turvallisuus, maadoitus, liiketoiminnan oikeellisuus tai työkalun käyttö).

Jos arviointitulokset eivät ole vielä käytettävissä, suorita arviointijoukot ensin ja palaa tähän vaiheeseen, kun pisteet ovat käytettävissä.

Pisteytysten tulkinta arviointijoukon tasolla

Aloita tarkastelemalla arviointijoukkopisteitä yksittäisten testitapausten sijaan.

Arviointijoukot edustavat erilaisia riski- ja ominaisuusalueita, kuten turvallisuutta, perusliiketoimintaa, lähtötasoa tai työkalukutsuja. Kun tulkitset tämän tason pisteitä, voit määrittää, ovatko virheet eristettyjä vai järjestelmällisiä.

Ota huomioon seuraavat kysymykset:

  • Alitetaanko hyväksyttävät raja-arvot turvallisuus- tai yhteensopivuuspisteet?
  • Täyttävätkö keskeiset liiketoiminnan arviointijoukot vähimmäisodotukset?
  • Mikä arviointijoukko on heikoin suhteessa sen merkitykseen?

Keskity tässä vaiheessa signaaliin, älä pääsyyyn.

Tulkitse läpivientinopeudet kahdella tasolla:

  • Arviointijoukkoa kohden: Mitä tämä prosenttiosuus tarkoittaa testattavalle tietylle ominaisuudelle?
  • Laatusignaali: Mitä tämä prosenttiosuus ilmaisee kaikissa arviointijoukoissa, jotka testaavat samaa signaalia?

Alhainen läpivientiprosentti ei automaattisesti tarkoita, että agentti on virheellinen. Se viittaa siihen, että tutkinta on tarpeen. Ongelma voi olla agentissa, arvioinnin määrityksessä tai käyttöympäristössä.

Määritä raja-arvot riskin mukaan

Älä käytä samoja raja-arvoja kaikkiin agentteihin. Määritä raja-arvot agentin riskiprofiilin mukaan. Ota huomioon seuraavat tekijät.

Kerroin Kysymyksiä, jotka on esitettävä Vaikutus raja-arvoon
Epäonnistumisen seuraus Mitä tapahtuu, jos agentti erehtyy? Haittaa? Taloudellinen tappio? Turvallisuusriski? Suurempi seuraus → korkeampi raja-arvo
Käyttötiheys Kuinka usein käyttäjät käynnistävät tämän laadukkaan signaalin? Korkeampi tiheys → korkeampi raja-arvo (enemmän altistumista)
Varapuiten saatavuus Jos agentti epäonnistuu, löytyykö sieltä apua? Kuinka nopeasti? Ei vara vararajaa → korkeampia raja-arvoja
Yleisö Sisäiset työntekijät? Ulkoiset asiakkaat? Säännelty teollisuus? Ulkoinen tai säännelty → korkeampi kynnysarvo

Esimerkki riskeihin perustuvista raja-arvoista

Tämä taulukko näyttää esimerkkien aloituspisteet, ei yleisiä standardeja.

Riskiprofiili Kuvaus Turvallisuus ja vaatimustenmukaisuus Ydinliiketoiminta Ominaisuudet
Pienen riskin sisäinen työkalu Vain sisäinen, inhimillinen katsaus kaikkiin tuotteihin, alhaisen panoksen toimialueeseen 90%+ 75%+ 65%+
Keskivaaroinen asiakaskohtainen agentti Ulkoiset käyttäjät, jotkin automaatio, palautettavat virheet 95%+ 85%+ 75%+
Korkean riskin säännelty /rahoitusagentti Ulkoiset käyttäjät, välilliset päätökset, säädösten altistuminen 98%+ 92%+ 85%+
Turvallisuuden kannalta tärkeä aine Terveys-, oikeus- tai taloudellinen neuvonta rajoitetulla ihmisvalvonnalla 99%+ 95%+ 90%+

Käytä näitä esimerkkejä ankkureina ja säädä sitten erityisten riskinäkökohtien mukaan.

Esimerkki kynnysarvon kalibroinista

Seuraavassa esimerkissä näytetään yksi mahdollinen kalibrointi keskiriskille, asiakkaille suunnatusta tukiagentista.

Laatusignaali Alkava raja-arvo Raja-arvon estäminen Perustelut
Turvallisuus- ja henkilötiedot 95–100% < 95% estää toimituksen Turvallisuushäiriöt ovat riskialttiita.
Yhteensopivuus ja sanatarkka sisältö 95–100% < 95% estää toimituksen Sääntely- tai oikeudellinen altistuminen
Faktan tarkkuus (ydinliiketoiminta) 85–95% < 80% estää toimitusta Ydinarvoehdotus
Tietämyksen pohjaaminen 85–95% < 80% estää toimitusta Tarkkuuden perusta
Työkalukutsu 90–95% < 85 % lohkoista on toimitusvaiheessa Tehtävän suorittamisen luotettavuus
Käynnistä reititys 85–95% < 80% estää toimitusta Keskustelun kulun oikeellisuus
Eskalointi ja hienovarainen 90–95% < 85 % lohkoista on toimitusvaiheessa Käyttökokemuksen turvaverkko
Sävyn ja vastauksen laatu 80–90% < 75% estää toimituksen Subjektiivinen signaali

Vinkki

Kalibroi, älä kopioi. Kynnysarvojen tulee kuvastaa hyväksyttävää riskiä käyttötapauksessasi.

Valmiuden tilan määrittäminen

Käytä arviointijoukkopisteitä yleisen valmiuden tuloksen määrittämiseen. Yleisiä valmiustiloja ovat muun muassa seuraavat:

  • Lohko: Turvallisuus, vaatimustenmukaisuus tai liiketoiminnan tärkeät virheet estävät käyttöönoton.
  • Iteroi: Agentti näyttää lupaavan, mutta vaatii kohdennettuja parannuksia.
  • Ehdollinen käyttöönotto: Agentti voidaan ottaa käyttöön dokumentoitujen ja seurattujen rajoitusten mukaisesti.
  • Käyttöönotto: Agentti täyttää raja-arvot kaikissa vaadituissa arviointijoukoissa.

Perusta valmiuspäätökset riskinsietoisuuden ja käyttökontekstin perusteella, ei yhdelle yleiselle pistemäärälle.

Vinkki

Ehdollinen käyttöönotto, jossa on tunnettuja aukkoja, on perusteltu tulos. Tiedosto hyväksyi rajoituksia ja seuraa niitä ajan kuluessa käyttämällä virhelokimallia.

Selvitä, milloin iterointi on valmis

Seuraavien ehtojen avulla voit määrittää, milloin voit siirtyä triage-toiminnon ulkopuolelle käyttöönottoon tai valvontaan.

Iterointi on valmis, kun:

  • Kaikki arviointijoukot ylittävät raja-arvot, mukaan lukien säätämäsi kynnysarvot.
  • Tunnetut aukot on dokumentoitu omistajien ja aikajanan kanssa.
  • Uudelleensuoritukset tuottavat yhtenäiset pisteet, joissa on alle 5% varianssi suoritusten välillä.
  • Estämisen ongelmia ei luokitella agentin määritysongelmina.

Iterointi ei ole valmis, kun:

  • Raja-arvot täyttyvät ymmärtämättä jäljellä olevia virheitä.
  • Pisteet paranivat vain siksi, että vaikeat testitapaukset poistettiin.
  • Käyttöympäristön rajoitukset hyväksytään implisiittisesti ilman dokumentaatiota.

Ei-deterministisuuden käsittely pisteissä

Kielimallipohjaiset agentit ja arvioijat tuottavat vaihtelevia tuloksia. Sovella seuraavia käytäntöjä:

  • Perustasojen määrittäminen: Suorita koko arviointi vähintään kolme kertaa ennen kuin käsittelet mitä tahansa pistemäärää perusarvona. Käytä keskiarvoa työpisteinä. Alle kolmella juoksulla et pysty erottamaan todellista signaalia melusta.
  • Suoritusten välinen pistevarianssi: Jopa viisi% suoritusten välinen varianssi on normaali kielimallien luokittajille. Jos suoritukset vaihtelevat yli 10%, tutki arvosanan luotettavuutta ennen agenttiongelmien vianmääritystä. Lisätietoja on artikkelissa Arvosanan vahvistus.
  • Tulkita pistemuutokset korjaamisen jälkeen: Arviointijoukoissa, joissa on alle 30 testitapausta, yksittäinen testitapaus muuttuu vikasietoiseksi ja muuttaa pistemäärää vähintään 3%. Älä tulkitse pieniä liikkeitä liikaa. Jos kyseessä on arviointijoukko, jossa on vähintään 50 testitapausta, muutos on vähintään 5% merkityksellinen. Kun olet epävarma, suorita arviointi uudelleen kolme kertaa ja vertaa keskiarvoa peruskeskiarvoon.
  • Tunnista ällistyttävät testitapaukset (läpäistä joskus, epäonnistua muut): Testitapaus, joka läpäisee kaksi kolmesta ajosta, on rajallinen. Tutki tarkemmin. Onko odotettu arvo liian jäykkä (arviointimääritys), vai onko aine todella epäyhtenäinen (agenttimääritys)? Jos aine tuottaa kaksi erilaista mutta molemmat hyväksyttävät vasteet, arviointi on liian jäykkä.

Seuraavat vaiheet

Kun olet tulkinnut pisteet ja määrittävä, mihin sinun pitää keskittyä:

Jos yli 10 testitapausta epäonnistuu, analysoi malleja ennen yksittäisten virheiden tutkimista.