Kielimallit osaavat arvata vastauksia – mutta eivät johdonmukaisesti ymmärrä mieliä
Miksi lapsi etsii suklaata väärästä kaapista, vaikka sinä tiedät, että se on siirretty toiseen? Jokainen, joka on selittänyt tämän klassisen tilanteen kolmevuotiaalle, tietää: tarvitaan kykyä erottaa oma tietoisuus toisen ihmisen uskomuksista. Aikuinen päättelee, että lapsi toimii sen mukaan, mitä hän luulee todeksi, ei sen mukaan, mikä on oikeasti totta. Tätä kykyä kutsutaan mielenteoriaksi – arjen taidoksi lukea toisten tietoja, uskomuksia ja aikomuksia ja liittää ne tekoihin.
Viime vuosina tekoälyn suurten kielimallien on väitetty hallitsevan tämän taidon. Kun malleille on annettu paperilla esitettyjä pulmia toisten uskomuksista, ne ovat usein osanneet vastata oikein. Siitä on syntynyt kuva, että koneet oppivat vähitellen ”ymmärtämään” ihmismieltä.
Tuore arXivissa julkaistu tutkimus ehdottaa rauhallisesti mutta selvästi toista tarinaa. Sen mukaan kielimallit, myös otsikoissa usein nähty GPT-4o, voivat näyttää sosiaalisesti päteviltä ilman, että niillä olisi mielenteorian ydintä: yhtenäistä mallia siitä, miten mielen tilat aiheuttavat käyttäytymistä.
Jännite syntyy siitä, mitä on tähän asti mitattu ja mitä pitäisi mitata. Aiemmat kokeet ovat mitanneet, vastaako malli samoihin kysymyksiin kuin ihmiset samoissa tilanteissa. Uusi työ lähtee psykologisesti ankkuroituneesta määritelmästä: jos järjestelmällä on mielenteoria, sen pitäisi pystyä johdonmukaisesti yhdistämään ajatukset, uskomukset ja halut siihen, miten ne tuottavat tekoja – ja päinvastoin, päätellä teoista niitä ohjaavat mielen tilat. Lisäksi tämän pitäisi toimia yleisesti erilaisissa tilanteissa, ei vain yhdessä valmiiksi harjoitellussa tehtävässä.
Tutkijat kehittivät tätä ajatusta vastaavan arviointitavan. He eivät kysyneet vain, saako malli oikean vastauksen tiettyyn pulmaan, vaan onko sen vastauksissa sisäistä johdonmukaisuutta, joka viittaisi syy–seurausymmärrykseen mielen ja toiminnan välillä. Koetulokset piirtävät kaksijakoisen kuvan. Toisaalta mallit ylsivät ihmisten vastauksia muistuttaviin päätelmiin yksinkertaisessa mielenteoriatehtävässä. Toisaalta ne kompastuivat tehtävään, joka oli loogisesti sama asia, mutta muotoiltu toisin. Lisäksi mallien tekemät ennusteet toiminnasta ja niiden arviot taustalla olevista mielen tiloista eivät sopineet hyvin yhteen.
Mitä tämä loogisesti sama mutta toisin kysytty tehtävä tarkoittaa? Palataan suklaaesimerkkiin. Kysymys A: ”Missä lapsi etsii suklaata?” Oikea vastaus on kaappi, johon hän luulee suklaan jääneen. Kysymys B: ”Jos lapsi meni heti kaapille X, mitä hän ajatteli?” Oikea vastaus on: hän uskoi suklaan olevan X:ssä. Kaksi kysymystä peilaavat toisiaan. Jos todella ymmärtää, että uskomus ohjaa toimintaa, pitäisi onnistua molemmissa. Tutkimuksen mukaan kielimallit voivat onnistua A:ssa mutta epäonnistua B:ssä – merkki siitä, ettei pinnan alta löydy vakaata käsitystä mielen ja toiminnan suhteesta.
Tämä ei tarkoita, että mallit olisivat hyödyttömiä tai ”tyhmiä”. Ne ovat erinomaisia kielestä poimimaan vihjeitä ja muistuttavat usein ihmistä vastauksissaan. Mutta uusi työ esittää, että vaikutelma sosiaalisesta ymmärryksestä voi syntyä ilman, että taustalla olisi yleispätevä, eri tilanteissa toimiva mielenteoria. Se on tärkeä ero: yhden pulman ratkaiseminen ei vielä kerro, millainen koneen ”ajatusmaailma” on – vai onko sellaista lainkaan siinä mielessä kuin psykologit tarkoittavat.
Havaintojen merkitys on käytännöllinen. Jos mallien sosiaalinen taitavuus on paikallista ja epävakaata, niiden käyttö herkkään vuorovaikutukseen – esimerkiksi neuvontaan, opetukseen tai hoivaan – vaatii varovaisuutta. Tekoäly voi antaa oikean vastauksen yhdessä tilanteessa, mutta reagoida arvaamattomasti, kun sama ongelma esitetään toisinpäin. Myös turvallisuusnäkökulmasta johdonmukaisuus on keskeistä: järjestelmä, joka ei pidä mielen ja toiminnan suhteita kasassa, voi tehdä ennakoimattomia virheitä.
Onko tämä lopullinen tuomio koneiden mielenteoriasta? Ei. Tutkimus ei väitä, että kielimallit eivät voisi koskaan omaksua johdonmukaista käsitystä toisten mielistä. Se toteaa, että tässä arviointitavassa ne eivät sitä osoittaneet, vaikka pinnallinen suoritus näytti hyvältä. Rajoituksia on muitakin. Työ tarkastelee kielellisiä järjestelmiä: se ei kerro, mitä tapahtuisi, jos mallit yhdistettäisiin havaitsemiseen tai toimintaan maailmassa. Eikä yksikään testi kata koko inhimillisen sosiaalisen ymmärryksen kirjoa. Lisäksi mallit kehittyvät nopeasti; tämän päivän puute voi olla huomisen parannus.
Silti peruskysymys on tärkeä: miten määrittelemme ”ymmärtämisen” koneissa? Jos riittää, että vastaukset näyttävät oikeilta tutussa muodossa, nykyiset mallit voivat vaikuttaa vakuuttavilta. Jos taas ymmärtäminen edellyttää yhtenäistä käsitystä siitä, miten ajatukset johtavat tekoihin yli erilaisten tilanteiden, mittari on vaativampi – ja tämän tutkimuksen perusteella monille malleille vielä liian tiukka.
Lopulta kyse on myös meistä käyttäjinä. Minkälaista luotettavuutta edellytämme koneelta, joka keskustelee kanssamme, neuvoo tai tekee päätöksiä? Ja jos kone ei vielä hahmota mieliä kuten me, pitäisikö sen edes yrittää – vai riittääkö väline, joka on rehellisesti vain hyvä kielessä?
Paper: https://arxiv.org/abs/2602.12150v1
Register: https://www.AiFeta.com
tekoäly mielenteoria psykologia kielimallit tutkimus