Tekoäly lipsuu kahdesta syystä – uusi mittari yrittää varoittaa ajoissa
Kuvittele, että kysyt kielimallilta, miten vuokrasopimus irtisanotaan tai millainen annostus sopii allergialääkkeelle. Vastaus tulee sujuvasti ja itsevarmasti – ja saattaa silti olla pielessä. Tällaiset sujuvat mutta virheelliset vastaukset ovat tekoälyn arkea, eikä ongelma rajoitu kevyisiin kysymyksiin. Kun sama ilmiö osuu lääketieteeseen, lakiasioihin tai tieteelliseen työhön, seuraukset voivat olla vakavia.
Usein on ajateltu, että niin sanotut hallusinaatiot – keksityt tai harhaanjohtavat väitteet – ovat yksi ja sama, epämääräinen vika. Niitä on yritetty paikata tehtäväkohtaisilla nikseillä, jotka toimivat yhdessä kulmassa mutta hyytyvät toisessa. Tuore arXiv-arkistossa julkaistu tutkimus ehdottaa toisenlaista tapaa katsoa ongelmaa: kielimallit lipsuvat kahdesta suunnasta, ja riskin voi arvioida yhdellä, yleisemmällä mittarilla.
Tutkimuksen mukaan virheiden lähteet jakautuvat kahteen: tietoperäisiin ja päättelyperäisiin. Tietoperäinen lipsahdus syntyy, kun malli ei ole oppinut tarvittavaa asiaa tai sen koulutusaineisto ei vastaa nykyhetkeä. Päättelyperäinen virhe taas tapahtuu, kun malli horjahtaa käyttötilanteessa, vaikka tarvittava tieto olisi periaatteessa sen ulottuvilla. Lyhyesti: joskus ongelma on se, mitä malli tietää, joskus se, miten se ajattelee.
Arjessa ero näkyy helposti. Kysy vaikka lääkkeestä, joka on tullut markkinoille viime vuonna. Jos malli on opetettu vanhemmalla aineistolla, se voi tarjota itsevarman mutta vanhentuneen kuvauksen – tietoperäinen virhe. Toisessa tilanteessa malli voi mennä harhaan monivaiheisessa tehtävässä, kuten vertaillessaan ehtoja kahdessa sopimusluonnoksessa. Kaikki tarvittavat palat ovat olemassa, mutta päätösketju mutkittelee – päättelyperäinen virhe.
Uutuus ei ole pelkkä nimeäminen. Tutkimus esittelee teoreettisen mallin, “hallusinaatioriskin rajan”, joka erottaa nämä kaksi lähdettä matemaattisesti: kuinka suuri osa riskistä liittyy siihen, että koulutusaineisto ei vastaa tehtävää, ja kuinka suuri osa siihen, että mallin päättely voi keikahtaa käyttötilanteessa epävakaaksi. Teoria tarjoaa kielen ja laskentatavan, joilla ongelmaa voi pilkkoa osiin.
Teorian varaan rakentuu myös käytännön työkalu HalluGuard. Se ei yritä korjata mallin vastausta, vaan antaa riskipisteen vastauksen luotettavuudelle. Ydinidea on hyödyntää mallin “sisäistä geometriaa” – tapaa, jolla malli edustaa asioita ja reagoi syötteisiin. Tutkimuksessa tätä tarkastellaan NTK:ksi kutsutun menetelmän avulla, joka on eräänlainen matemaattinen suurennuslasi mallin käyttäytymiseen. Ajatus on, että mallin sisäisestä profiilista voi päätellä, onko vastaus todennäköisesti tietoperäisesti epävarma, päättelyltään horjuva vai molempia.
Tälle lähestymistavalle on tilausta. Aiemmat hallusinaation paljastimet on usein viritetty tiettyihin tehtäviin – sanotaan vaikkapa faktakysymyksiin – ja ne kompastuvat, kun tehtävä muuttuu päättelyksi tai vapaammaksi keskusteluksi. Tutkimuksessa väitetään, että HalluGuard tunnistaa sekä tietoperäisiä että päättelyperäisiä riskejä saman mittarin avulla ja yleistyy eri tilanteisiin. Tuloksia esitellään kymmenen erilaista vertailutehtävää, yksitoista kilpailevaa menetelmää ja yhdeksän erilaista kielimallia vasten, ja raportoituina sen sanotaan päihittävän kilpailijat hallusinaatioiden tunnistamisessa.
Mitä tämä tarkoittaa käytännössä? Palataan lääkekysymykseen. Jos malli kohtaa nimen, jota se ei ole oikeasti oppinut, HalluGuardin pitäisi reagoida: sisäinen signaalisto kertoo, että vastaus nojaa heikkoon muistijälkeen. Toisessa esimerkissä – sopimusvertailussa – mittari saattaa varoittaa, kun pienet viittaukset ja ehtojen ketjut saavat mallin “vaeltamaan” päättelyssään. Käyttäjälle tämä voisi näkyä vaikkapa varoituksena: tähän vastaukseen kannattaa suhtautua varauksella, tarkista lähteet.
On syytä korostaa, mitä menetelmä ei tee. Se ei poista hallusinaatioita, eikä se takaa jonkin yksittäisen vastauksen oikeellisuutta. Se tuottaa riskisignaalin, jonka hyöty riippuu siitä, miten sitä käytetään – pysäytetäänkö vastaus, pyydetäänkö perusteluja, vai ohjataanko kysymys ihmiselle. Lisäksi tulokset perustuvat vertailutehtäviin ja tavallisiin kielimalleihin, eivätkä ne kerro vielä, miten järjestelmä toimii esimerkiksi sairaalan kiireisessä tietojärjestelmässä tai oikeussalin käytännöissä.
Epävarmuuksia on muitakin. “Parhaat tulokset” tarkoittavat paremmuutta valituissa vertailuissa ja valittuja menetelmiä vasten; mittarin todellinen arvo ratkeaa, kun sitä koetellaan uusissa ympäristöissä ja tehtävissä. Teoreettinen raja on selitysvoimainen, mutta sen merkitys riippuu oletuksista mallin toiminnasta – ja kielimallit osaavat yllättää. Lopuksi: termit “tietoperäinen” ja “päättelyperäinen” ovat käyttökelpoisia jakoja, mutta todellisissa tilanteissa ne kietoutuvat usein yhteen.
Silti suunta on kiinnostava. Kun tekoälyltä odotetaan yhä enemmän juuri niissä tehtävissä, joissa virheille ei ole varaa, pelkkä sujuvuus ei riitä laadun mittariksi. Yksi lupaava vastaus on tehdä hallusinaatioista analysoitavia: erottaa, mistä riski syntyy, ja arvioida sitä järjestelmällisesti. Jos kielimalli osaa varoittaa omasta epävarmuudestaan, miten meidän pitäisi käyttää tätä varoitusta? Kuka päättää, milloin riski on hyväksyttävä – ja missä kohdassa vastuun on siirryttävä takaisin ihmiselle?
Paper: https://arxiv.org/abs/2601.18753v1
Register: https://www.AiFeta.com
tekoäly kielimallit luotettavuus tutkimus hallusinaatiot riskienhallinta