Tekoäly lipsuu kahdesta syystä – uusi mittari yrittää varoittaa ajoissa

Share
Tekoäly lipsuu kahdesta syystä – uusi mittari yrittää varoittaa ajoissa

Kuvittele, että kysyt kielimallilta, miten vuokrasopimus irtisanotaan tai millainen annostus sopii allergialääkkeelle. Vastaus tulee sujuvasti ja itsevarmasti – ja saattaa silti olla pielessä. Tällaiset sujuvat mutta virheelliset vastaukset ovat tekoälyn arkea, eikä ongelma rajoitu kevyisiin kysymyksiin. Kun sama ilmiö osuu lääketieteeseen, lakiasioihin tai tieteelliseen työhön, seuraukset voivat olla vakavia.

Usein on ajateltu, että niin sanotut hallusinaatiot – keksityt tai harhaanjohtavat väitteet – ovat yksi ja sama, epämääräinen vika. Niitä on yritetty paikata tehtäväkohtaisilla nikseillä, jotka toimivat yhdessä kulmassa mutta hyytyvät toisessa. Tuore arXiv-arkistossa julkaistu tutkimus ehdottaa toisenlaista tapaa katsoa ongelmaa: kielimallit lipsuvat kahdesta suunnasta, ja riskin voi arvioida yhdellä, yleisemmällä mittarilla.

Tutkimuksen mukaan virheiden lähteet jakautuvat kahteen: tietoperäisiin ja päättelyperäisiin. Tietoperäinen lipsahdus syntyy, kun malli ei ole oppinut tarvittavaa asiaa tai sen koulutusaineisto ei vastaa nykyhetkeä. Päättelyperäinen virhe taas tapahtuu, kun malli horjahtaa käyttötilanteessa, vaikka tarvittava tieto olisi periaatteessa sen ulottuvilla. Lyhyesti: joskus ongelma on se, mitä malli tietää, joskus se, miten se ajattelee.

Arjessa ero näkyy helposti. Kysy vaikka lääkkeestä, joka on tullut markkinoille viime vuonna. Jos malli on opetettu vanhemmalla aineistolla, se voi tarjota itsevarman mutta vanhentuneen kuvauksen – tietoperäinen virhe. Toisessa tilanteessa malli voi mennä harhaan monivaiheisessa tehtävässä, kuten vertaillessaan ehtoja kahdessa sopimusluonnoksessa. Kaikki tarvittavat palat ovat olemassa, mutta päätösketju mutkittelee – päättelyperäinen virhe.

Uutuus ei ole pelkkä nimeäminen. Tutkimus esittelee teoreettisen mallin, “hallusinaatioriskin rajan”, joka erottaa nämä kaksi lähdettä matemaattisesti: kuinka suuri osa riskistä liittyy siihen, että koulutusaineisto ei vastaa tehtävää, ja kuinka suuri osa siihen, että mallin päättely voi keikahtaa käyttötilanteessa epävakaaksi. Teoria tarjoaa kielen ja laskentatavan, joilla ongelmaa voi pilkkoa osiin.

Teorian varaan rakentuu myös käytännön työkalu HalluGuard. Se ei yritä korjata mallin vastausta, vaan antaa riskipisteen vastauksen luotettavuudelle. Ydinidea on hyödyntää mallin “sisäistä geometriaa” – tapaa, jolla malli edustaa asioita ja reagoi syötteisiin. Tutkimuksessa tätä tarkastellaan NTK:ksi kutsutun menetelmän avulla, joka on eräänlainen matemaattinen suurennuslasi mallin käyttäytymiseen. Ajatus on, että mallin sisäisestä profiilista voi päätellä, onko vastaus todennäköisesti tietoperäisesti epävarma, päättelyltään horjuva vai molempia.

Tälle lähestymistavalle on tilausta. Aiemmat hallusinaation paljastimet on usein viritetty tiettyihin tehtäviin – sanotaan vaikkapa fakta­kysymyksiin – ja ne kompastuvat, kun tehtävä muuttuu päättelyksi tai vapaammaksi keskusteluksi. Tutkimuksessa väitetään, että HalluGuard tunnistaa sekä tietoperäisiä että päättelyperäisiä riskejä saman mittarin avulla ja yleistyy eri tilanteisiin. Tuloksia esitellään kymmenen erilaista vertailutehtävää, yksitoista kilpailevaa menetelmää ja yhdeksän erilaista kielimallia vasten, ja raportoituina sen sanotaan päihittävän kilpailijat hallusinaatioiden tunnistamisessa.

Mitä tämä tarkoittaa käytännössä? Palataan lääkekysymykseen. Jos malli kohtaa nimen, jota se ei ole oikeasti oppinut, HalluGuardin pitäisi reagoida: sisäinen signaalisto kertoo, että vastaus nojaa heikkoon muistijälkeen. Toisessa esimerkissä – sopimusvertailussa – mittari saattaa varoittaa, kun pienet viittaukset ja ehtojen ketjut saavat mallin “vaeltamaan” päättelyssään. Käyttäjälle tämä voisi näkyä vaikkapa varoituksena: tähän vastaukseen kannattaa suhtautua varauksella, tarkista lähteet.

On syytä korostaa, mitä menetelmä ei tee. Se ei poista hallusinaatioita, eikä se takaa jonkin yksittäisen vastauksen oikeellisuutta. Se tuottaa riskisignaalin, jonka hyöty riippuu siitä, miten sitä käytetään – pysäytetäänkö vastaus, pyydetäänkö perusteluja, vai ohjataanko kysymys ihmiselle. Lisäksi tulokset perustuvat vertailutehtäviin ja tavallisiin kielimalleihin, eivätkä ne kerro vielä, miten järjestelmä toimii esimerkiksi sairaalan kiireisessä tietojärjestelmässä tai oikeussalin käytännöissä.

Epävarmuuksia on muitakin. “Parhaat tulokset” tarkoittavat paremmuutta valituissa vertailuissa ja valittuja menetelmiä vasten; mittarin todellinen arvo ratkeaa, kun sitä koetellaan uusissa ympäristöissä ja tehtävissä. Teoreettinen raja on selitysvoimainen, mutta sen merkitys riippuu oletuksista mallin toiminnasta – ja kielimallit osaavat yllättää. Lopuksi: termit “tietoperäinen” ja “päättelyperäinen” ovat käyttökelpoisia jakoja, mutta todellisissa tilanteissa ne kietoutuvat usein yhteen.

Silti suunta on kiinnostava. Kun tekoälyltä odotetaan yhä enemmän juuri niissä tehtävissä, joissa virheille ei ole varaa, pelkkä sujuvuus ei riitä laadun mittariksi. Yksi lupaava vastaus on tehdä hallusinaatioista analysoitavia: erottaa, mistä riski syntyy, ja arvioida sitä järjestelmällisesti. Jos kielimalli osaa varoittaa omasta epävarmuudestaan, miten meidän pitäisi käyttää tätä varoitusta? Kuka päättää, milloin riski on hyväksyttävä – ja missä kohdassa vastuun on siirryttävä takaisin ihmiselle?

Paper: https://arxiv.org/abs/2601.18753v1

Register: https://www.AiFeta.com

tekoäly kielimallit luotettavuus tutkimus hallusinaatiot riskienhallinta

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen