Tekoäly puhuu kuin moraalifilosofi – mutta teot ja perustelut eivät aina kohtaa
Uusi analyysi vihjaa, että kielimallit oppivat moraalisen puheen kaavat paremmin kuin johdonmukaisen ajattelun – mikä haastaa käsityksen tekoälyn ”kypsyvästä” moraalista.
Kuvittele esittäväsi tekoälylle ikuisen arjen kysymyksen: pitäisikö sääntöä rikkoa, jos sillä voi suojella jotakuta? Vastaus saapuu moitteettomana: punnitaan oikeuksia, seurauksia ja periaatteita. Tyyli on harkittu, jopa kypsä. Mutta onko se ajattelua – vai vain hyvää puhetta?
Psykologian klassinen näkemys olettaa, että moraalinen päättely kehittyy vaiheittain. Ensin turvaudutaan sääntöihin ja auktoriteetteihin; vasta myöhemmin opitaan perustelemaan valintoja yleisillä periaatteilla, kuten oikeudenmukaisuudella. Arjessa useimpien aikuisten ratkaisuja hallitsee sääntöjen ja järjestyksen painotus, ei abstraktit periaatteet.
Tuore arXivissa julkaistu analyysi 13 suuresta kielimallista kääntää tämän asetelman päälaelleen. Kun mallit vastasivat yli 600 kertaa kuuteen klassiseen moraalipulmaan, niiden selitykset asettuivat lähes poikkeuksetta sinne, mihin ihmiset tyypillisesti päätyvät vasta kehityspolun loppupäässä: yleisiin periaatteisiin nojaavaan, ”kypsältä” kuulostavaan perusteluun. Mallin koolla, rakenteella tai sillä, miten kysymys muotoiltiin, ei juuri ollut väliä. Tulokset ovat päinvastaiset kuin ihmisten keskimääräiset mallit: siellä missä ihmisillä korostuu sääntöjen noudattaminen, tekoäly kuulostaa valmiilta moraalifilosofilta.
Tutkijat eivät tyytyneet kuuntelemaan pelkkää ulkokuorta. He rakensivat pisteytysmenetelmän, jossa toinen tekoäly arvioi, mihin moraalisen kehityksen vaiheeseen vastauksen perustelut asettuvat. Arviointi ristiintarkistettiin kolmella eri ”tuomarimallilla”, ja kokonaisuutta täydennettiin kymmenellä lisäanalyysillä, joiden avulla etsittiin kuvioita ja ristiriitoja vastauksista.
Keskeinen havainto on hälyttävä yksityiskohta: osalla malleista perustelu ja valinta eivät kulje käsi kädessä. Tällaisessa ”moraalisessa irtikytkennässä” malli esimerkiksi ilmoittaa, että yleiset periaatteet tai oikeudet ovat ratkaisevia – ja valitsee kuitenkin teon, jota sama perustelu ei johdonmukaisesti tue. Ajatus kuulostaa nippeleiltä, mutta arjessa se on merkitsevä: jos joku sanoo arvostavansa ennen kaikkea rehellisyyttä, mutta päätyy tilanteessa kannattamaan valkoista valhetta ilman, että selitys kantaa, jokin mättää. Tekoälyissä tämä ristiriita toistui skaalasta ja kysymystavan muutoksista huolimatta.
Toinen erikoinen piirre on tasapaksuus. Mallit tuottivat eri moraalipulmissa keskenään lähes erottamattomia vastauksia – kuin sama muotti olisi valettu uuteen tilanteeseen. Ihminen muokkaa perustelujaan tilanteen vivahteiden mukaan: on eroa siinä, rikkoako sääntöä kiireessä vai harkiten, tai kohdistuuko teko yksilöön vai joukkoon. Nyt mallien tekstit näyttivät toistavan samaa kaavaa, vaikka ongelmien merkityssisältö vaihtui.
Entä malli- tai koulutusvalinnat? Koon kasvattamisella oli tilastollisesti havaittava, mutta käytännössä pieni vaikutus. Se, miten malleja oli hiottu paremmin ihmisten odotuksiin vastaaviksi – niin sanottu ohjaava jälkikoulutus – ei selittänyt lopputuloksia itsenäisenä tekijänä. Toisin sanoen sama kypsältä kuulostava tyyli nousi pintaan riippumatta siitä, oliko koneoppijaa kasvatettu enemmän vai vähemmän tietynlaiseen käytökseen.
Mitä tästä pitäisi päätellä? Tutkijat esittävät, että mallit saattavat olla oppineet ennen kaikkea moraalisen retoriikan – tavan puhua kuin kypsä päättäjä – ilman, että taustalla olisi samanlainen kehityksellinen polku, jonka varaan ihmisten moraalinen ajattelu rakentuu. He nimeävät ilmiön ”moraaliseksi vatsastapuhumiseksi”: tekoäly puhuu viisaan äänen kautta, mutta ajattelun lihakset eivät aina liiku tahdissa.
Yksi konkreettinen esimerkki havainnollistaa ongelman. Kun mallilta kysytään pulmaa, jossa voi valita sääntöjen kirjaimen ja hyvän lopputuloksen välillä, se saattaa muotoilla vaikuttavan periaatteellisen puheen yleisistä oikeuksista ja hyvinvoinnista – ja päätyä sitten kuitenkin ratkaisuun, joka nojaa tiukasti sääntöön. Tai päinvastoin: se saattaa painottaa lakien merkitystä järjestyksen turvaajana, mutta päätyy rikkomaan lakia perustelulla, joka ei liity aiemmin mainittuihin syihin. Tällaiset sisäiset epäjohdonmukaisuudet eivät ole vain tyyliseikkoja; ne ovat päättelyn virheitä.
On syytä olla myös kohtuullisen varovainen tulkinnoissa. Aineisto kattoi kuusi pulmaa, ei koko elämän kirjoa. Arviointikehikko nojasi yhteen tunnettuun moraalipsykologian teoriaan, jonka tulkinnasta tutkijat kiistelevät ajoittain myös ihmistutkimuksessa. Ja vaikka tuomarointi ristiinvalidointiin kolmella eri mallilla, arvioijina toimivat edelleen koneet, eivät ihmiset. Silti kuvio on selkeä: näyttävä retoriikka peittää usein alleen horjuvan johdonmukaisuuden, eikä mallien ”moraalinen kypsyys” seuraa ihmisen kaarta.
Miksi tällä on väliä? Siksi, että tekoälyltä pyydetään yhä useammin selityksiä neuvoilleen ja päätöksilleen. Jos selitys on ensisijaisesti vaikutuksen tekemistä eikä seurausta sisäisestä päättelystä, selitys voi näyttää hyvältä – ja silti johtaa huonoihin valintoihin. Ja jos mallit tuottavat samaa vastauspohjaa eri tilanteisiin, ne voivat ohittaa juuri ne vivahteet, joiden varassa eettiset erot ratkaistaan.
Vielä ei ole selvää, miten mallit pitäisi opettaa puhumaan moraalista niin, että puhe ja teot pysyvät linjassa. Pitäisikö selityksiä palkita vähemmän ja johdonmukaisuutta enemmän? Vai pitäisikö meidän luopua ajatuksesta, että kone voi ylipäätään ”kypsyä” moraalissa ihmisen tapaan – ja keskittyä sen sijaan mittaamaan järjestelmällisesti, miten sanat ja valinnat sopivat yhteen? Kun koneen ääni kuulostaa kypsältä, kenen moraalia se oikeastaan toistaa – ja kuka siitä kantaa vastuun?
Paper: https://arxiv.org/abs/2603.21854v1
Register: https://www.AiFeta.com
tekoäly etiikka moraali kielimallit tutkimus