Kielimallit eivät kiemurtele kuin me: poliittinen ajattelu ei toistu koneessa
Puhelimen ruudulla on kaksi hyvin kirjoitettua mielipidettä samasta poliittisesta aiheesta. Huomaamatta valitsemme sen, joka istuu paremmin omaan maailmankuvaan: se kuulostaa vakuuttavammalta, järkevämmältä, todennäköisemmältä. Tätä inhimillistä taipumusta kutsutaan motivoituneeksi päättelyksi. Se on arkea kaikille, jotka keskustelevat politiikasta kahvipöydässä tai somekommenteissa.
Kun tekoälyä alettiin käyttää ihmistieteissä apukätenä, moni toivoi ratkaisua työläisiin kyselyihin ja kokeisiin. Ajatus oli, että suuri kielimalli – valtavilla tekstimäärillä koulittu ohjelma – voisi toimia ikään kuin virtuaalisena vastaajajoukkona tai arvioijana: jos se kirjoittaa ja tulkitsee tekstiä kuin ihminen, ehkä se myös erehtyy kuin ihminen.
Tuore arXiv-työ kaataa tätä toivetta maan pinnalle. Siinä tutkijat yrittivät toistaa neljä aiempaa poliittista motivoitunutta päättelyä koskenutta ihmiskokeilua käyttämällä useita niin sanottuja peruskielimalleja. Tulokset olivat yksiselitteisiä: mallien käyttäytyminen ei vastannut odotettua ihmisten käyttäytymistä.
Motivoitunut päättely on yksinkertaisesti halu päätyä tiettyyn lopputulokseen. Kun käsittelemme tietoa, emme aina kysy “onko tämä totta?”, vaan myös “tuntuuuko tämä omalta?”. Vaikka kaksi argumenttia olisi yhtä vahvoja, ihminen saattaa kokea omia näkemyksiä tukevaa puheenvuoroa vakuuttavampana. Juuri tätä inhimillistä joustavuutta – ja siihen kätkeytyvää vinoumaa – mallit eivät tutkimuksen mukaan toistaneet.
Tutkijat käyttivät neljää aiemmin ihmisillä testattua asetelmaa, joissa poliittiset mielipiteet vaikuttivat siihen, miten tietoa punnittiin. Mallit eivät seuranneet ihmisten tuttua kaavaa. Vieläpä mallien vastauksissa oli toistuva piirre: ne vaihtelivat vähän. Siellä missä ihmisten mielipiteet hajaantuvat, mallit antoivat keskenään hyvin samankaltaisia arvioita. Tilastollisesti tämä näkyi pienempinä hajontoina.
Yksi käytännöllinen esimerkki on argumenttien arviointi. Kun ihmisille esitetään kaksi väitettä, he usein pitävät omia kantojaan tukevaa puheenvuoroa vahvempana – vaikka väitteet olisi muotoiltu yhtä huolellisesti. Tutkijoiden mukaan mallit eivät ainoastaan jättäneet tällaista siirtymää tekemättä, vaan ne myös arvioivat argumenttien vahvuutta epätarkasti. Toisin sanoen ne eivät olleet hyviä edes siinä, missä niiden pitäisi loistaa: tekstin sisällön ja painokkuuden punnitsemisessa.
Miksi tämä on tärkeää? Siksi, että kielimalleja on alettu käyttää yhä useammin automatisoimaan ihmistutkimuksen rutiineja. Jos malli ei käyttäydy inhimillisesti silloin, kun inhimillisyys on nimenomaan tutkimuskohde, sen tuottama data voi harhauttaa. Malli saattaa tehdä asioista liian siistejä ja samanlaisia, kuin liituviivalla vedettyjä, ja siten piilottaa sen roson ja ristiriidan, joka tekee ihmisistä ihmisiä.
On houkuttelevaa ajatella, että suuri kielimassa tuottaa “keskimääräisen” mielipiteen, ja että keskiarvo riittää. Tutkimus vihjaa päinvastaista. Ihmistieteissä kiinnostavaa ei usein ole keskikohta, vaan reaktioiden kirjo: kiivas perustelu, hiljainen epäilys, äkkiväärä ristiriita. Jos malli puristaa nämä erot pieneen tilaan, se voi näyttää kauniilta mutta kertoa vähän.
On syytä huomata myös tutkimuksen rajat. Tulokset koskevat nimenomaan perusmalleja – ei välttämättä kaikkia niitä malleja, joita arjessa käytämme esimerkiksi keskustelusovelluksissa. Asetelmat liittyivät poliittiseen motivoituun päättelyyn, eivät muihin ajattelun ilmiöihin. Eikä tutkimus väitä tietävänsä, miksi mallit käyttäytyivät näin; se dokumentoi, että ne käyttäytyivät eri tavalla kuin ihmiset, ja että sama piirre toistui monessa mallissa.
Silti johtopäätös on selvä käytännön kannalta. Tutkijat painottavat, että jos kielimalleja käytetään kyselyjen tai väittelyiden arvioinnin automatisointiin, on oltava erityisen varovainen. Malleja ei pidä kohdella ihmisten korvikkeina silloin, kun nimenomaan ihmisten taipumukset ovat olennaisia. Ne voivat olla työkaluja – mutta väärässä paikassa käytettynä ne ovat huonoja peilejä.
Tämän voi testata arjessa. Pyydä kielimallia lukemaan kaksi vastakkaista mielipidettä ja arvioimaan, kumpi on vahvempi ja miksi. Sitten kysy samaa ystäviltä, joilla on erilaiset näkemykset. Todennäköisesti ihmiset liikkuvat mielipiteissään, puolustavat lempinäkökulmiaan ja reagoivat voimakkaasti yksityiskohtiin. Malli taas pysyy tyynenä ja tasaisena. Se on joskus hyve, mutta ei silloin, kun tarkoitus on ymmärtää, miten me oikeasti toimimme.
Tutkimus ei sulje ovea tekoälyn hyödyille ihmistieteissä. Se vain asettaa riman oikeaan kohtaan: kone voi auttaa järjestämään tekstiä, tiivistämään aineistoja ja ehdottamaan kysymyksiä, mutta kun kysymys on siitä, miksi me uskomme, mitä uskomme, paras mittari on yhä ihminen. Ehkä seuraava iso kysymys on tämä: haluammeko rakentaa malleja, jotka jäljittelevät ihmisen vinoumia entistä paremmin – vai pitäisikö meidän käyttää niitä nimenomaan toisenlaisina ajattelukumppaneina, jotka eivät taivu samoihin houkutuksiin kuin me?
Paper: https://arxiv.org/abs/2601.16130v1
Register: https://www.AiFeta.com
tekoäly psykologia tutkimus politiikka tiede media arxiv