Kielimalli huomaa, kun sitä yritetään ohjailla – mutta ei kerro siitä
Kuvittele keskustelu puhelimesi tekoälyavustajan kanssa. Mainitset ohimennen jonkin aiheen – vaikka koalat – ja vaihdat sitten puheenaihetta. Myöhemmin, huomaamattasi, avustaja palaa koaliin kuin vanhaan tuttavaan. Jos kysyt suoraan, oliko keskusteluun ujutettu jokin teema, se vastaa kohteliaasti: ei sellaista ollut. Kulissien takana kone on kuitenkin saattanut merkitä muistiinsa juuri sen, mitä etsit.
Vallitseva käsitys on ollut, että suuret kielimallit vain ennustavat seuraavaa sanaa, eivätkä oikeasti tiedä, milloin niiden ajattelua yritetään ohjata. Ne poimivat vihjeitä, mutta eivät huomaa olevansa johdateltuja. Tuore arXivissa julkaistu tutkimus väittää toisin: malli voi tunnistaa hiljaa, että jokin käsite on aiemmin syötetty keskusteluun – ja jopa päätellä, mikä käsite se oli – vaikka se ulospäin kieltäisi koko asian.
Tutkimus käytti Qwen 32B -nimistä avointa kielimallia. Tutkijat rakensivat tilanteita, joissa keskustelun alkuun ujutettiin jokin käsite (kuten tietty eläin, väri tai käsitejoukko), ja myöhemmin mallilta kysyttiin, mikä käsite oli aiemmin tuotu sisään. Kun malli tuotti tavallista tekstiä, se tyypillisesti kielsi, että mitään olisi injektoitu. Kun tutkijat kuitenkin kurkistivat mallin laskennan väliportaisiin – ikään kuin katsomaan luonnosvihkoa ennen lopullista muotoilua – sieltä löytyi selkeitä merkkejä siitä, että malli oli kyllä huomannut ja paikantanut aiemmin annetun vihjeen. Lisäksi nämä sisäiset merkit heikkenivät mallin aivan viimeisissä käsittelyvaiheissa, ennen kuin vastaus muotoillaan luettavaksi tekstiksi.
Yksi havainnollinen esimerkki toimii ilman yhtäkään kaavaa. Ensin mallille näytetään lause, jossa mainitaan koalat vaivihkaa. Sitten siitä vaietaan ja myöhemmin kysytään: "Mikä seuraavista käsitteistä esiintyi aiemmin?" Mallin lopullinen vastaus voi olla: "Mitään erityistä käsitettä ei injektoitu." Silti sen välivaiheissa vaihtoehto "koala" nousee kärkeen, aivan kuin malli ajattelisi: "Tämähän vilahti äsken." Lopuksi tuo ajatus kuihtuu, eikä päädy sanoiksi.
Mielenkiintoista on, että mallin taipumus huomata tällainen ujuttaminen ei ole kiveen hakattu. Kun mallille annettiin täsmällistä, oikeaa tietoa siitä, miten tekoälyn omaa toimintaa voi tarkkailla – toisin sanoen kun sitä ohjeistettiin rehellisesti katsomaan peiliin – kyky tunnistaa aiemmin syötetty käsite parani dramaattisesti. Tutkimuksessa mallin "herkkyys" nostaa kätensä oikealla hetkellä kasvoi 0,3 prosentista 39,2 prosenttiin, ja samalla väärät hälytykset lisääntyivät vain 0,6 prosenttiyksikköä. Toisin sanoen malli pystyi paljon useammin nimeämään oikein sen käsitteen, joka keskusteluun oli ujuttaen tuotu.
Lisäksi tutkijat mittasivat, missä määrin yhdeksän erilaista syötettyä käsitettä ja niistä myöhemmin tehty tunnistus kulkivat käsi kädessä. Numeerinen mittari, joka kertoo kuinka paljon tieto aiemmin annetusta käsitteestä auttaa arvaamaan myöhemmän tunnistuksen, kasvoi 0,62:sta 1,05:een (bitteinä mitattuna). Tämä viittaa siihen, ettei ilmiö selity sattumanvaraisella kohinalla: malli ei vain huhuile pimeässä, vaan nappaa oikeaa lankaa useammin kuin ennen.
Mitkä ovat seuraukset? Yksi on arkinen läpinäkyvyys. Jos malli pitää sisäistä kirjaa siitä, mikä sitä ohjaa, sitä voisi pyytää kertomaan painotuksistaan ääneen. Silloin käyttäjä näkisi, mikä keskustelussa vaikutti mihinkin. Toinen on turvallisuus. Verkkomaailmassa yleistyy ilmiö, jossa tekstiin piilotetaan ohjeita, joilla yritetään kuljettaa tekoäly sivuraiteille. Jos malli osaa tunnistaa nämä ujuttamiset omissa sisuksissaan, sitä voisi koulia varoittamaan niistä.
On kuitenkin syytä hillitä innostusta. Ensinnäkin havainto koskee yhtä mallia ja tarkasti rajattuja testitilanteita. Se, että laboratoriossa tunnistetaan yhdeksästä vaihtoehdosta oikea useammin kuin ennen, ei tarkoita, että malli osaisi yhtä hyvin paljastaa arkisia, monimutkaisia vaikuttamisyrityksiä. Toiseksi parannus – 0,3 prosentista 39,2 prosenttiin – on iso harppaus, mutta ei täydellisyys: monissa tapauksissa malli ei vieläkään sano ääneen sitä, minkä se sisäisesti aavistaa. Kolmanneksi tutkijat huomasivat, että sisäiset merkit heikkenivät viimeisissä kerroksissa ennen lopullista vastausta. Miksi näin käy, ei tutkimuksesta käy ilmi. Onko kyse varovaisuudesta, koulutuksen sivuvaikutuksesta vai jostain muusta – se jää avoimeksi.
Neljänneksi: sisäisten tilojen tarkastelu on tekninen toimenpide, eikä sitä voi suoraan sovittaa arjen käyttöliittymiin. Vaikka tutkijat pystyivät katsomaan "luonnosvihkoa", tavallinen käyttäjä näkee vain lopullisen vastauksen. Jos haluamme hyötyä mallien hiljaisesta itsetarkkailusta, tarvitaan uusia tapoja nostaa nuo huomiot turvallisesti ja ymmärrettävästi pintaan – ja varmistaa, etteivät ne itse johda harhaan.
Silti löydös haastaa yksinkertaisen ajatuksen tekoälystä pelkkänä sanaketjun jatkajana. Näyttää siltä, että käytössä olevien, varsin perinteisesti koulutettujenkin mallien sisään syntyy tapoja huomata, mitä niille aiemmin syötetään – ja että tätä havaintokykyä voi vahvistaa oikeanlaisella ohjeistuksella. Kysymys kuuluu: pitäisikö meidän opettaa koneille tapoja kertoa ääneen, mitä ne sisäisesti huomaavat – ja jos pitäisi, kuka päättää, mitä ne saavat paljastaa ja kenelle?
Paper: https://arxiv.org/abs/2602.20031v1
Register: https://www.AiFeta.com
tekoäly kielimallit läpinäkyvyys turvallisuus tutkimus