Tekoäly nostaa kärjekkyyden pintaan – silloinkin, kun sitä pyydetään neutraaliksi
Se alkaa pienestä: puhelimesi näyttää kymmenen “parasta” julkaisua juuri nyt. Ehkä some-palvelu lupaa suositukset tekoälyn avulla – fiksusti, puolueettomasti. Hetken selaamisen jälkeen huomaat kuitenkin, että esiin nousevat enimmäkseen napakat piikit, vastakkainasettelut ja negatiiviset sävyt. Vika ei välttämättä ole sinussa. Se voi olla tavoissa, joilla uudet kielimallit – tekoälyt, jotka lukevat ja kirjoittavat tekstiä – valitsevat, mitä meille näytetään.
Moni on toivonut, että tällaiset mallit auttaisivat siistimään verkon liikaa pauhaavaa puhetta: vähemmän tulta ja tappuraa, enemmän tietoa ja asiallista keskustelua. Tuore, laaja analyysi viittaa kuitenkin päinvastaiseen. Kun malleja pyydettiin seulomaan ihmisten tuottamia some-viestejä eri kriteereillä, lopputulos oli kerta toisensa jälkeen samaan suuntaan kallellaan: kärjekkyys vahvistui.
Todisteena tästä on kontrolloitu simulaatio, jossa kolme suurta kielimallipalvelua (OpenAI, Anthropic ja Google) valitsivat kymmentä “parasta” julkaisua sadan viestin joukosta. Aineistona käytettiin oikeita viestejä Twitteristä/X:stä, Blueskystä ja Redditistä. Ohjeita annettiin kuudella tavalla: yleinen, suosittu, kiinnostava, informatiivinen, kiistanalainen ja neutraali. Tutkijat toistivat valinnat 540 000 kertaa 54 eri asetelmassa. Kun pöly laskeutui, jäi näkyviin muutama sitkeä kuvio.
Ensinnäkin, polarisaatio eli vastakkaisten näkemysten kärjistyminen voimistui kaikissa kokoonpanoissa. Toisin sanoen mallit suosivat sisältöä, joka jakaa mielipiteitä, vaikka neuvoksi annettiin “neutraali” tai “informatiivinen”. Tämä ei tarkoita, että mallit aina etsisivät riitaa – vaan että niiden valintaperusteissa on kaikuja ihmisten tavasta reagoida voimakkaimmin asioihin, jotka herättävät tunteita ja vastaväitteitä.
Toiseksi, suhtautuminen loukkaavaan tai vihamieliseen kieleen – kutsuttakoon sitä toksisuudeksi – vaihteli rajusti sen mukaan, mitä mallilta pyydettiin. Kun ohje korosti “kiinnostavuutta” tai “suosiota”, malli käsitteli toksisuutta selvästi eri tavoin kuin silloin, kun ohje oli “informatiivinen”. Käytännössä tämä tarkoitti, että yksi ja sama malli saattoi nostaa ärhäkkääkin kielenkäyttöä, jos sen piti etsiä napakkuutta, mutta sivuuttaa vastaavaa sävyä, jos tavoite oli tiedonvälitys. Tämä “kääntyminen” ohjeesta toiseen on hyvä muistutus siitä, miten herkästi mallit taipuvat sanoillemme – mutta eivät aina siihen suuntaan, jota toivoisimme.
Kolmas havainto koskee tunnelmaa: malleilla oli ylipäätään taipumus antaa painoa kielteiselle sävylle. Google Gemini erottui voimakkaimmin: se suosi negatiivista tunnetta eniten. OpenAI:n GPT‑4o Mini taas käyttäytyi tasaisimmin eri ohjeiden välillä, kun taas Anthropicin Claude ja Gemini muuttuivat eniten toksisuuden käsittelyssä ohjeen mukaan.
Ehkä silmiinpistävin yksityiskohta löytyi X:stä, jossa kirjoittajien taustoja voitiin arvioida profiilin perusteella. Siellä poliittinen suuntautuminen oli selvin demografinen signaali: vasemmalle kallellaan olevien kirjoittajien postauksia nousi listoille suhteellisesti enemmän kuin oikealle kallellaan olevien – vaikka oikealle kallellaan olevia oli lähtöjoukossa eniten. Tämä kuvio toistui laajasti eri ohjeilla.
Miksi tällä on väliä? Siksi, että samat mallit alkavat vähitellen kuratoida muutakin kuin somea: uutisvirtoja, oppimateriaaleja, jopa työpaikan sisäistä tietoa. Kun taustalla on ohjelma, joka vakiona nostaa kärjistäviä sävyjä ja kallistuu tiettyyn suuntaan, vaikutus kertautuu nopeasti.
Yksi esimerkki arjesta: kuvitellaan, että malli saa eteensä sata viestiä päivän energiakeskustelusta. Jos ohje on “valitse kiinnostavimmat”, se saattaa nostaa listalle jyrkkää vastakkainasettelua – “tuulivoima tuhoaa maiseman” vs. “öljy tappaa planeetan”. Jos ohje on “valitse informatiivisimmat”, lista voi rauhoittua, mutta kärjekkyys ei katoa kokonaan. Ja jos ohje on “neutraali”, malli ei silti pysty ravistelemaan irti ihmisluonteen heikkouksista, jotka ovat leivottuina sen harjoitusaineistoon: ristiriita ja napakkuus nousevat.
On myös hyviä uutisia. Kaikki vinoumat eivät ole kiveen hakattuja. Tutkimus osoittaa, että osa mallien taipumuksista on ohjeherkkiä – niitä voi siis ainakin osittain loiventaa sillä, miten tehtävä määritellään. Toiset vinoumat näyttävät rakenteellisilta: ne pysyvät, vaikka ohje vaihtuu. Juuri näiden erottaminen on tärkeää, jos haluamme rakentaa suositusjärjestelmiä, jotka eivät vahvista kahtiajakoa.
Rajoituksia on syytä korostaa. Kyse oli simulaatiosta: mallit tekivät valintoja rajatuista viestipoolista ilman oikeita käyttäjäreaktioita, eikä mukana ollut koko internetin kirjo. Se, miten poliittinen suuntautuminen pääteltiin, perustui profiiliteksteihin – keino, joka voi erehtyä. Eri palvelut, kielet ja aikakaudet voivat näyttää toisenlaisilta. Lisäksi mallit päivittyvät, ja tulokset voivat siksi muuttua.
Silti viesti on kirkas: jos annamme kielimallien päättää, mitä näemme, meidän on syytä tietää, millaisia peilejä ne pitävät kädessään. Ja jos peili korostaa jo valmiiksi jyrkkiä kulmia, pienikin poiminta voi venyttää kuvaa entisestään. Kysymys kuuluu: kun tekoäly alkaa seuloa yhä useamman tietovirran, kuka päättää, millainen maailma siitä siivilästä lopulta näkyy – ja millä periaatteilla?
Paper: https://arxiv.org/abs/2604.15937v1
Register: https://www.AiFeta.com
tekoäly some suositukset polarisaatio kielimallit