Eri tekoälymallien erimielisyys voi paljastaa varmatkin virheet
Kuvitellaan arkipäiväinen tilanne: kysyt chätbotilta täsmällisen faktan, vaikkapa kuka voitti jonkin palkinnon tai mikä on tietyn kaupungin väkiluku. Vastaus tulee nopeasti ja vakuuttavasti. Sanojen varmuus hivuttaa epäilyn sivuun – kunnes myöhemmin huomaat, että tieto olikin väärä.
Tähän asti vastausten luotettavuutta on yritetty arvioida pitkälti sen perusteella, kuinka epävarmalta malli itse tuntuu. Jos kone takeltelee tai antaa epäröivän todennäköisyysarvion, se saattoi olla merkki epäluotettavuudesta. Mutta juuri vaarallisin tilanne on toisenlainen: malli saattaa olla väärässä ja silti täysin varma. Silloin sen omasta epävarmuudesta ei ole apua.
ArXivissa julkaistu tutkimus esittää yksinkertaisen, joskin oivaltavan vaihtoehdon: älä kysy epävarmuutta mallilta itseltään, vaan katso, mitä toinen malli ajattelee ensimmäisen vastauksesta. Ajatus on arkisesti ymmärrettävä. Kun kaksi asiantuntijaa lukee saman vastauksen, toisen kulmat voivat kohota. Se hämmennys on usein ensi merkki siitä, että jokin ei täsmää.
Käytännössä menetelmä toimii näin: ensimmäinen malli tuottaa vastauksen. Toiselle mallille annetaan vain tuo vastaus luettavaksi, eikä sen tarvitse itse kirjoittaa mitään. Sitten mitataan, kuinka yllättynyttä tai epävarmalta vaikuttavaa luenta on. Jos vastaus on toisen mallin mielestä poikkeuksellinen tai sen on vaikea "nielaista" tiettyjä sanoja, se on varoitussignaali siitä, että vastaus saattaa olla pielessä – vaikka alkuperäinen malli esitti sen horjumattomalla itsevarmuudella.
Tekijät toteuttavat ajatuksen kahdella mittarilla: he seuraavat, kuinka paljon toinen malli "hämmästyy" originiaalin vastauksen sanavalinnoista, ja erikseen, kuinka epävarma se on näissä kohdissa. Tärkeää on, että menetelmä ei vaadi mallien lisäkoulutusta eikä edes oikeita vastauksia vertailuun. Tarvitaan vain toisen mallin nopea lukukerta – yksi läpivienti – ja mitta siitä, tuntuuko vastaus siltä kuin toisen mallin mielestä pitäisi tuntua.
Miksi tämä olisi parempi kuin mallin oman epävarmuuden mittaaminen? Siksi, että toisen mallin hämmennys voi paljastaa juuri ne varmat virheet, joihin aiemmat menetelmät kaatuvat. Jos alkuperäinen malli on väärässä ja itsevarma, sen sisäiset hälytyskellot eivät soi. Toinen malli ei kuitenkaan jaa samaa itsevarmuutta, ja sen epäröinti paljastaa ristiriidan.
Yksi konkreettinen esimerkki: kysytään koneelta tietovisan tyyppinen kysymys vanhasta tapahtumasta. Ensimmäinen malli tarjoaa pitkän, sujuvan ja täsmälliseltä kuulostavan selityksen – mutta upottaa siihen väärän vuosiluvun. Se kuulostaa uskottavalta, koska kaikki muu ympärillä tukee väitettä. Kun toinen malli lukee saman vastauksen, se takeltelee juuri tuon vuosiluvun kohdalla: sen "odotus" siitä, mitä pitäisi tulla, ei täsmääkään. Hämmennys ei vielä kerro, mikä olisi oikea luku, mutta se kertoo, että tähän kannattaa suhtautua varauksella.
Tutkimuksen mukaan tämä kahden mallin välinen erimielisyys toimii todisteena eri tehtävissä: yleissivistystehtävissä, tietohaussa ja peruslaskuissa (tunnetuilla MMLU-, TriviaQA- ja GSM8K-testipaketeilla). Erityisesti yhdessä testissä, joka mittaa laajaa yleistietoa, menetelmä erotti oikeat ja väärät vastaukset selvästi paremmin kuin mallin oman epävarmuuden seuraaminen. Tutkijat raportoivat erotuskyvyn mittarilla arvon 0,75 verrattuna lähtötasoon 0,59 – kaukana täydellisyydestä, mutta selvä parannus suuntaan, jossa kaikkein vaarallisimmat, itsevarmat virheet eivät enää livahtaisi ohi.
Käytännöllisyys on osa idean viehätystä. Menetelmä on koulutusta vailla toimiva: sitä voi kokeilla olemassa olevissa järjestelmissä ilman, että niitä tarvitsee rakentaa uusiksi. Toinen malli toimii ikään kuin pikatuomarina, joka lukee annetun vastauksen ja kertoo, tuntuuko se uskottavalta. Toimisiko tämä valvonnassa, jossa järjestelmä keskeyttää vastaamisen, jos hälytys nousee? Voisiko se ohjata vaikeat kysymykset toisenlaisen mallin käsittelyyn? Tekijöiden mukaan sovelluksia on monia: käyttöönoton seurantaan, mallien väliseen reititykseen, varovaiseen ennustamiseen (eli tilanteisiin, joissa malli saa jättää vastaamatta), aineistojen suodatukseen ja automaattiseen valvontaan.
On kuitenkin syytä pysyä viileänä. Ensinnäkin, 0,75 ei ole 1,0. Menetelmä ei tee kenestäkään erehtymätöntä eikä se takaa, että kaikki virheet löytyvät. Toiseksi, vaikka toinen malli ei joudu kirjoittamaan mitään, senkin pyörittäminen vie resursseja ja vaatii pääsyn toiseen järjestelmään. Kolmanneksi, tutkimus toimi tietyissä, tunnetuissa testitehtävissä – lupaavaa, muttei vielä todiste siitä, että sama teho yleistyy kaikkiin arjen tilanteisiin ja aihepiireihin.
Silti perusidea on helposti ymmärrettävä ja intuitiivisesti vetoava: kun emme tiedä, onko vastaus oikea emmekä voi heti tarkistaa, yksi nopea tapa parantaa varmuutta on kysyä toiselta näkemykseltä, miltä vastaus kuulostaa. Jos sekin epäröi, kannattaa pysähtyä. Jos ei, eteenpäin voi mennä hiukan huolettomammin.
Tekoälyjärjestelmien käytön kasvaessa kysymys on arvoiltaan ja rahaltaan iso: milloin koneeseen voi luottaa ja milloin varoitusvalo pitäisi syttyä? Ehkä erimielisyydestä tulee uusi turvavyö – ei täydellinen, mutta halpa ja helppo lisä. Mutta jos malleja koulutetaan yhä enemmän saman datan ja menetelmien varassa, riittävätkö niiden erot jatkossakin ilmaisemaan, milloin totuus lipsahti ohi?
Paper: https://arxiv.org/abs/2603.25450v1
Register: https://www.AiFeta.com
tekoäly kielimallit luotettavuus tutkimus turvallisuus