Kielimallit osaavat arvata vastauksia – mutta eivät johdonmukaisesti ymmärrä mieliä

Share
Kielimallit osaavat arvata vastauksia – mutta eivät johdonmukaisesti ymmärrä mieliä

Miksi lapsi etsii suklaata väärästä kaapista, vaikka sinä tiedät, että se on siirretty toiseen? Jokainen, joka on selittänyt tämän klassisen tilanteen kolmevuotiaalle, tietää: tarvitaan kykyä erottaa oma tietoisuus toisen ihmisen uskomuksista. Aikuinen päättelee, että lapsi toimii sen mukaan, mitä hän luulee todeksi, ei sen mukaan, mikä on oikeasti totta. Tätä kykyä kutsutaan mielenteoriaksi – arjen taidoksi lukea toisten tietoja, uskomuksia ja aikomuksia ja liittää ne tekoihin.

Viime vuosina tekoälyn suurten kielimallien on väitetty hallitsevan tämän taidon. Kun malleille on annettu paperilla esitettyjä pulmia toisten uskomuksista, ne ovat usein osanneet vastata oikein. Siitä on syntynyt kuva, että koneet oppivat vähitellen ”ymmärtämään” ihmismieltä.

Tuore arXivissa julkaistu tutkimus ehdottaa rauhallisesti mutta selvästi toista tarinaa. Sen mukaan kielimallit, myös otsikoissa usein nähty GPT-4o, voivat näyttää sosiaalisesti päteviltä ilman, että niillä olisi mielenteorian ydintä: yhtenäistä mallia siitä, miten mielen tilat aiheuttavat käyttäytymistä.

Jännite syntyy siitä, mitä on tähän asti mitattu ja mitä pitäisi mitata. Aiemmat kokeet ovat mitanneet, vastaako malli samoihin kysymyksiin kuin ihmiset samoissa tilanteissa. Uusi työ lähtee psykologisesti ankkuroituneesta määritelmästä: jos järjestelmällä on mielenteoria, sen pitäisi pystyä johdonmukaisesti yhdistämään ajatukset, uskomukset ja halut siihen, miten ne tuottavat tekoja – ja päinvastoin, päätellä teoista niitä ohjaavat mielen tilat. Lisäksi tämän pitäisi toimia yleisesti erilaisissa tilanteissa, ei vain yhdessä valmiiksi harjoitellussa tehtävässä.

Tutkijat kehittivät tätä ajatusta vastaavan arviointitavan. He eivät kysyneet vain, saako malli oikean vastauksen tiettyyn pulmaan, vaan onko sen vastauksissa sisäistä johdonmukaisuutta, joka viittaisi syy–seurausymmärrykseen mielen ja toiminnan välillä. Koetulokset piirtävät kaksijakoisen kuvan. Toisaalta mallit ylsivät ihmisten vastauksia muistuttaviin päätelmiin yksinkertaisessa mielenteoriatehtävässä. Toisaalta ne kompastuivat tehtävään, joka oli loogisesti sama asia, mutta muotoiltu toisin. Lisäksi mallien tekemät ennusteet toiminnasta ja niiden arviot taustalla olevista mielen tiloista eivät sopineet hyvin yhteen.

Mitä tämä loogisesti sama mutta toisin kysytty tehtävä tarkoittaa? Palataan suklaaesimerkkiin. Kysymys A: ”Missä lapsi etsii suklaata?” Oikea vastaus on kaappi, johon hän luulee suklaan jääneen. Kysymys B: ”Jos lapsi meni heti kaapille X, mitä hän ajatteli?” Oikea vastaus on: hän uskoi suklaan olevan X:ssä. Kaksi kysymystä peilaavat toisiaan. Jos todella ymmärtää, että uskomus ohjaa toimintaa, pitäisi onnistua molemmissa. Tutkimuksen mukaan kielimallit voivat onnistua A:ssa mutta epäonnistua B:ssä – merkki siitä, ettei pinnan alta löydy vakaata käsitystä mielen ja toiminnan suhteesta.

Tämä ei tarkoita, että mallit olisivat hyödyttömiä tai ”tyhmiä”. Ne ovat erinomaisia kielestä poimimaan vihjeitä ja muistuttavat usein ihmistä vastauksissaan. Mutta uusi työ esittää, että vaikutelma sosiaalisesta ymmärryksestä voi syntyä ilman, että taustalla olisi yleispätevä, eri tilanteissa toimiva mielenteoria. Se on tärkeä ero: yhden pulman ratkaiseminen ei vielä kerro, millainen koneen ”ajatusmaailma” on – vai onko sellaista lainkaan siinä mielessä kuin psykologit tarkoittavat.

Havaintojen merkitys on käytännöllinen. Jos mallien sosiaalinen taitavuus on paikallista ja epävakaata, niiden käyttö herkkään vuorovaikutukseen – esimerkiksi neuvontaan, opetukseen tai hoivaan – vaatii varovaisuutta. Tekoäly voi antaa oikean vastauksen yhdessä tilanteessa, mutta reagoida arvaamattomasti, kun sama ongelma esitetään toisinpäin. Myös turvallisuusnäkökulmasta johdonmukaisuus on keskeistä: järjestelmä, joka ei pidä mielen ja toiminnan suhteita kasassa, voi tehdä ennakoimattomia virheitä.

Onko tämä lopullinen tuomio koneiden mielenteoriasta? Ei. Tutkimus ei väitä, että kielimallit eivät voisi koskaan omaksua johdonmukaista käsitystä toisten mielistä. Se toteaa, että tässä arviointitavassa ne eivät sitä osoittaneet, vaikka pinnallinen suoritus näytti hyvältä. Rajoituksia on muitakin. Työ tarkastelee kielellisiä järjestelmiä: se ei kerro, mitä tapahtuisi, jos mallit yhdistettäisiin havaitsemiseen tai toimintaan maailmassa. Eikä yksikään testi kata koko inhimillisen sosiaalisen ymmärryksen kirjoa. Lisäksi mallit kehittyvät nopeasti; tämän päivän puute voi olla huomisen parannus.

Silti peruskysymys on tärkeä: miten määrittelemme ”ymmärtämisen” koneissa? Jos riittää, että vastaukset näyttävät oikeilta tutussa muodossa, nykyiset mallit voivat vaikuttaa vakuuttavilta. Jos taas ymmärtäminen edellyttää yhtenäistä käsitystä siitä, miten ajatukset johtavat tekoihin yli erilaisten tilanteiden, mittari on vaativampi – ja tämän tutkimuksen perusteella monille malleille vielä liian tiukka.

Lopulta kyse on myös meistä käyttäjinä. Minkälaista luotettavuutta edellytämme koneelta, joka keskustelee kanssamme, neuvoo tai tekee päätöksiä? Ja jos kone ei vielä hahmota mieliä kuten me, pitäisikö sen edes yrittää – vai riittääkö väline, joka on rehellisesti vain hyvä kielessä?

Paper: https://arxiv.org/abs/2602.12150v1

Register: https://www.AiFeta.com

tekoäly mielenteoria psykologia kielimallit tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen