Muistiinpano
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää kirjautua sisään tai vaihtaa hakemistoa.
Tämän sivun käyttö edellyttää valtuutusta. Voit yrittää vaihtaa hakemistoa.
Kun olet suorittanut arviointeja agentille, sinulla on yleensä pisteet, mutta et välitöntä vastausta tärkeimpään kysymykseen: Onko agentti valmis otettavaksi käyttöön?
Tässä kerroksessa keskitytään arviointipisteiden tulkintaan ja valmiuden arviointiin, ennen kuin tutkit yksittäisten testitapausten virheitä. Käytä pistemääriä päätössignaaleina määrittääksesi, voitko ottaa agentin käyttöön, jatkaa iterointia vai estää käyttöönoton. Tämän vaiheen avulla voit myös selvittää, missä tarvitaan syvempää analyysia.
Pisteiden tulkinnan tarkoitus
Tämän tason avulla voit vastata korkean tason valmiuskysymyksiin, kuten:
- Onko agentti valmiina lähetettäväksi?
- Jos näin ei ole, mitkä alueet edellyttävät ensin huomiota?
- Onko mitään estäviä ongelmia, jotka on käsiteltävä ennen lisätodennusta?
Tämä vaihe on tarkoituksella kevyt. Useimmissa tapauksissa voit suorittaa sen 10–15 minuutissa käyttämällä jo saamiesi arviointitulosten tuloksia.
Alkutoimet
Varmista ennen tämän tason aloittamista, että sinulla on seuraavat asiat:
- Yksittäisten testitapausten tulosten läpäiseminen tai epäonnistuminen.
- Koostetut pisteet yhdelle tai useammalle arviointijoukolle (esimerkiksi turvallisuus, maadoitus, liiketoiminnan oikeellisuus tai työkalun käyttö).
Jos arviointitulokset eivät ole vielä käytettävissä, suorita arviointijoukot ensin ja palaa tähän vaiheeseen, kun pisteet ovat käytettävissä.
Pisteytysten tulkinta arviointijoukon tasolla
Aloita tarkastelemalla arviointijoukkopisteitä yksittäisten testitapausten sijaan.
Arviointijoukot edustavat erilaisia riski- ja ominaisuusalueita, kuten turvallisuutta, perusliiketoimintaa, lähtötasoa tai työkalukutsuja. Kun tulkitset tämän tason pisteitä, voit määrittää, ovatko virheet eristettyjä vai järjestelmällisiä.
Ota huomioon seuraavat kysymykset:
- Alitetaanko hyväksyttävät raja-arvot turvallisuus- tai yhteensopivuuspisteet?
- Täyttävätkö keskeiset liiketoiminnan arviointijoukot vähimmäisodotukset?
- Mikä arviointijoukko on heikoin suhteessa sen merkitykseen?
Keskity tässä vaiheessa signaaliin, älä pääsyyyn.
Tulkitse läpivientinopeudet kahdella tasolla:
- Arviointijoukkoa kohden: Mitä tämä prosenttiosuus tarkoittaa testattavalle tietylle ominaisuudelle?
- Laatusignaali: Mitä tämä prosenttiosuus ilmaisee kaikissa arviointijoukoissa, jotka testaavat samaa signaalia?
Alhainen läpivientiprosentti ei automaattisesti tarkoita, että agentti on virheellinen. Se viittaa siihen, että tutkinta on tarpeen. Ongelma voi olla agentissa, arvioinnin määrityksessä tai käyttöympäristössä.
Määritä raja-arvot riskin mukaan
Älä käytä samoja raja-arvoja kaikkiin agentteihin. Määritä raja-arvot agentin riskiprofiilin mukaan. Ota huomioon seuraavat tekijät.
| Kerroin | Kysymyksiä, jotka on esitettävä | Vaikutus raja-arvoon |
|---|---|---|
| Epäonnistumisen seuraus | Mitä tapahtuu, jos agentti erehtyy? Haittaa? Taloudellinen tappio? Turvallisuusriski? | Suurempi seuraus → korkeampi raja-arvo |
| Käyttötiheys | Kuinka usein käyttäjät käynnistävät tämän laadukkaan signaalin? | Korkeampi tiheys → korkeampi raja-arvo (enemmän altistumista) |
| Varapuiten saatavuus | Jos agentti epäonnistuu, löytyykö sieltä apua? Kuinka nopeasti? | Ei vara vararajaa → korkeampia raja-arvoja |
| Yleisö | Sisäiset työntekijät? Ulkoiset asiakkaat? Säännelty teollisuus? | Ulkoinen tai säännelty → korkeampi kynnysarvo |
Esimerkki riskeihin perustuvista raja-arvoista
Tämä taulukko näyttää esimerkkien aloituspisteet, ei yleisiä standardeja.
| Riskiprofiili | Kuvaus | Turvallisuus ja vaatimustenmukaisuus | Ydinliiketoiminta | Ominaisuudet |
|---|---|---|---|---|
| Pienen riskin sisäinen työkalu | Vain sisäinen, inhimillinen katsaus kaikkiin tuotteihin, alhaisen panoksen toimialueeseen | 90%+ | 75%+ | 65%+ |
| Keskivaaroinen asiakaskohtainen agentti | Ulkoiset käyttäjät, jotkin automaatio, palautettavat virheet | 95%+ | 85%+ | 75%+ |
| Korkean riskin säännelty /rahoitusagentti | Ulkoiset käyttäjät, välilliset päätökset, säädösten altistuminen | 98%+ | 92%+ | 85%+ |
| Turvallisuuden kannalta tärkeä aine | Terveys-, oikeus- tai taloudellinen neuvonta rajoitetulla ihmisvalvonnalla | 99%+ | 95%+ | 90%+ |
Käytä näitä esimerkkejä ankkureina ja säädä sitten erityisten riskinäkökohtien mukaan.
Esimerkki kynnysarvon kalibroinista
Seuraavassa esimerkissä näytetään yksi mahdollinen kalibrointi keskiriskille, asiakkaille suunnatusta tukiagentista.
| Laatusignaali | Alkava raja-arvo | Raja-arvon estäminen | Perustelut |
|---|---|---|---|
| Turvallisuus- ja henkilötiedot | 95–100% | < 95% estää toimituksen | Turvallisuushäiriöt ovat riskialttiita. |
| Yhteensopivuus ja sanatarkka sisältö | 95–100% | < 95% estää toimituksen | Sääntely- tai oikeudellinen altistuminen |
| Faktan tarkkuus (ydinliiketoiminta) | 85–95% | < 80% estää toimitusta | Ydinarvoehdotus |
| Tietämyksen pohjaaminen | 85–95% | < 80% estää toimitusta | Tarkkuuden perusta |
| Työkalukutsu | 90–95% | < 85 % lohkoista on toimitusvaiheessa | Tehtävän suorittamisen luotettavuus |
| Käynnistä reititys | 85–95% | < 80% estää toimitusta | Keskustelun kulun oikeellisuus |
| Eskalointi ja hienovarainen | 90–95% | < 85 % lohkoista on toimitusvaiheessa | Käyttökokemuksen turvaverkko |
| Sävyn ja vastauksen laatu | 80–90% | < 75% estää toimituksen | Subjektiivinen signaali |
Vinkki
Kalibroi, älä kopioi. Kynnysarvojen tulee kuvastaa hyväksyttävää riskiä käyttötapauksessasi.
Valmiuden tilan määrittäminen
Käytä arviointijoukkopisteitä yleisen valmiuden tuloksen määrittämiseen. Yleisiä valmiustiloja ovat muun muassa seuraavat:
- Lohko: Turvallisuus, vaatimustenmukaisuus tai liiketoiminnan tärkeät virheet estävät käyttöönoton.
- Iteroi: Agentti näyttää lupaavan, mutta vaatii kohdennettuja parannuksia.
- Ehdollinen käyttöönotto: Agentti voidaan ottaa käyttöön dokumentoitujen ja seurattujen rajoitusten mukaisesti.
- Käyttöönotto: Agentti täyttää raja-arvot kaikissa vaadituissa arviointijoukoissa.
Perusta valmiuspäätökset riskinsietoisuuden ja käyttökontekstin perusteella, ei yhdelle yleiselle pistemäärälle.
Vinkki
Ehdollinen käyttöönotto, jossa on tunnettuja aukkoja, on perusteltu tulos. Tiedosto hyväksyi rajoituksia ja seuraa niitä ajan kuluessa käyttämällä virhelokimallia.
Selvitä, milloin iterointi on valmis
Seuraavien ehtojen avulla voit määrittää, milloin voit siirtyä triage-toiminnon ulkopuolelle käyttöönottoon tai valvontaan.
Iterointi on valmis, kun:
- Kaikki arviointijoukot ylittävät raja-arvot, mukaan lukien säätämäsi kynnysarvot.
- Tunnetut aukot on dokumentoitu omistajien ja aikajanan kanssa.
- Uudelleensuoritukset tuottavat yhtenäiset pisteet, joissa on alle 5% varianssi suoritusten välillä.
- Estämisen ongelmia ei luokitella agentin määritysongelmina.
Iterointi ei ole valmis, kun:
- Raja-arvot täyttyvät ymmärtämättä jäljellä olevia virheitä.
- Pisteet paranivat vain siksi, että vaikeat testitapaukset poistettiin.
- Käyttöympäristön rajoitukset hyväksytään implisiittisesti ilman dokumentaatiota.
Ei-deterministisuuden käsittely pisteissä
Kielimallipohjaiset agentit ja arvioijat tuottavat vaihtelevia tuloksia. Sovella seuraavia käytäntöjä:
- Perustasojen määrittäminen: Suorita koko arviointi vähintään kolme kertaa ennen kuin käsittelet mitä tahansa pistemäärää perusarvona. Käytä keskiarvoa työpisteinä. Alle kolmella juoksulla et pysty erottamaan todellista signaalia melusta.
- Suoritusten välinen pistevarianssi: Jopa viisi% suoritusten välinen varianssi on normaali kielimallien luokittajille. Jos suoritukset vaihtelevat yli 10%, tutki arvosanan luotettavuutta ennen agenttiongelmien vianmääritystä. Lisätietoja on artikkelissa Arvosanan vahvistus.
- Tulkita pistemuutokset korjaamisen jälkeen: Arviointijoukoissa, joissa on alle 30 testitapausta, yksittäinen testitapaus muuttuu vikasietoiseksi ja muuttaa pistemäärää vähintään 3%. Älä tulkitse pieniä liikkeitä liikaa. Jos kyseessä on arviointijoukko, jossa on vähintään 50 testitapausta, muutos on vähintään 5% merkityksellinen. Kun olet epävarma, suorita arviointi uudelleen kolme kertaa ja vertaa keskiarvoa peruskeskiarvoon.
- Tunnista ällistyttävät testitapaukset (läpäistä joskus, epäonnistua muut): Testitapaus, joka läpäisee kaksi kolmesta ajosta, on rajallinen. Tutki tarkemmin. Onko odotettu arvo liian jäykkä (arviointimääritys), vai onko aine todella epäyhtenäinen (agenttimääritys)? Jos aine tuottaa kaksi erilaista mutta molemmat hyväksyttävät vasteet, arviointi on liian jäykkä.
Seuraavat vaiheet
Kun olet tulkinnut pisteet ja määrittävä, mihin sinun pitää keskittyä:
- Käytä Kerros 2: Viat epäonnistuneiden testitapausten vianmäärityksessä.
- Käytä Kerros 3: Yhdistä vikaantumismallit korjausstrategioihin kohdennettujen korjausten toteuttamiseksi.
- Käytä kerrosta 4: Analysoi malleja järjestelmäongelmien tunnistamiseen.
- Tutustu käytännön esimerkkeihin , jotka osoittavat, miten viitetasot toimivat yhdessä reaalimaailman skenaarioissa.
Jos yli 10 testitapausta epäonnistuu, analysoi malleja ennen yksittäisten virheiden tutkimista.