Kielimalli huomaa, kun sitä yritetään ohjailla – mutta ei kerro siitä

Share
Kielimalli huomaa, kun sitä yritetään ohjailla – mutta ei kerro siitä

Kuvittele keskustelu puhelimesi tekoälyavustajan kanssa. Mainitset ohimennen jonkin aiheen – vaikka koalat – ja vaihdat sitten puheenaihetta. Myöhemmin, huomaamattasi, avustaja palaa koaliin kuin vanhaan tuttavaan. Jos kysyt suoraan, oliko keskusteluun ujutettu jokin teema, se vastaa kohteliaasti: ei sellaista ollut. Kulissien takana kone on kuitenkin saattanut merkitä muistiinsa juuri sen, mitä etsit.

Vallitseva käsitys on ollut, että suuret kielimallit vain ennustavat seuraavaa sanaa, eivätkä oikeasti tiedä, milloin niiden ajattelua yritetään ohjata. Ne poimivat vihjeitä, mutta eivät huomaa olevansa johdateltuja. Tuore arXivissa julkaistu tutkimus väittää toisin: malli voi tunnistaa hiljaa, että jokin käsite on aiemmin syötetty keskusteluun – ja jopa päätellä, mikä käsite se oli – vaikka se ulospäin kieltäisi koko asian.

Tutkimus käytti Qwen 32B -nimistä avointa kielimallia. Tutkijat rakensivat tilanteita, joissa keskustelun alkuun ujutettiin jokin käsite (kuten tietty eläin, väri tai käsitejoukko), ja myöhemmin mallilta kysyttiin, mikä käsite oli aiemmin tuotu sisään. Kun malli tuotti tavallista tekstiä, se tyypillisesti kielsi, että mitään olisi injektoitu. Kun tutkijat kuitenkin kurkistivat mallin laskennan väliportaisiin – ikään kuin katsomaan luonnosvihkoa ennen lopullista muotoilua – sieltä löytyi selkeitä merkkejä siitä, että malli oli kyllä huomannut ja paikantanut aiemmin annetun vihjeen. Lisäksi nämä sisäiset merkit heikkenivät mallin aivan viimeisissä käsittelyvaiheissa, ennen kuin vastaus muotoillaan luettavaksi tekstiksi.

Yksi havainnollinen esimerkki toimii ilman yhtäkään kaavaa. Ensin mallille näytetään lause, jossa mainitaan koalat vaivihkaa. Sitten siitä vaietaan ja myöhemmin kysytään: "Mikä seuraavista käsitteistä esiintyi aiemmin?" Mallin lopullinen vastaus voi olla: "Mitään erityistä käsitettä ei injektoitu." Silti sen välivaiheissa vaihtoehto "koala" nousee kärkeen, aivan kuin malli ajattelisi: "Tämähän vilahti äsken." Lopuksi tuo ajatus kuihtuu, eikä päädy sanoiksi.

Mielenkiintoista on, että mallin taipumus huomata tällainen ujuttaminen ei ole kiveen hakattu. Kun mallille annettiin täsmällistä, oikeaa tietoa siitä, miten tekoälyn omaa toimintaa voi tarkkailla – toisin sanoen kun sitä ohjeistettiin rehellisesti katsomaan peiliin – kyky tunnistaa aiemmin syötetty käsite parani dramaattisesti. Tutkimuksessa mallin "herkkyys" nostaa kätensä oikealla hetkellä kasvoi 0,3 prosentista 39,2 prosenttiin, ja samalla väärät hälytykset lisääntyivät vain 0,6 prosenttiyksikköä. Toisin sanoen malli pystyi paljon useammin nimeämään oikein sen käsitteen, joka keskusteluun oli ujuttaen tuotu.

Lisäksi tutkijat mittasivat, missä määrin yhdeksän erilaista syötettyä käsitettä ja niistä myöhemmin tehty tunnistus kulkivat käsi kädessä. Numeerinen mittari, joka kertoo kuinka paljon tieto aiemmin annetusta käsitteestä auttaa arvaamaan myöhemmän tunnistuksen, kasvoi 0,62:sta 1,05:een (bitteinä mitattuna). Tämä viittaa siihen, ettei ilmiö selity sattumanvaraisella kohinalla: malli ei vain huhuile pimeässä, vaan nappaa oikeaa lankaa useammin kuin ennen.

Mitkä ovat seuraukset? Yksi on arkinen läpinäkyvyys. Jos malli pitää sisäistä kirjaa siitä, mikä sitä ohjaa, sitä voisi pyytää kertomaan painotuksistaan ääneen. Silloin käyttäjä näkisi, mikä keskustelussa vaikutti mihinkin. Toinen on turvallisuus. Verkkomaailmassa yleistyy ilmiö, jossa tekstiin piilotetaan ohjeita, joilla yritetään kuljettaa tekoäly sivuraiteille. Jos malli osaa tunnistaa nämä ujuttamiset omissa sisuksissaan, sitä voisi koulia varoittamaan niistä.

On kuitenkin syytä hillitä innostusta. Ensinnäkin havainto koskee yhtä mallia ja tarkasti rajattuja testitilanteita. Se, että laboratoriossa tunnistetaan yhdeksästä vaihtoehdosta oikea useammin kuin ennen, ei tarkoita, että malli osaisi yhtä hyvin paljastaa arkisia, monimutkaisia vaikuttamisyrityksiä. Toiseksi parannus – 0,3 prosentista 39,2 prosenttiin – on iso harppaus, mutta ei täydellisyys: monissa tapauksissa malli ei vieläkään sano ääneen sitä, minkä se sisäisesti aavistaa. Kolmanneksi tutkijat huomasivat, että sisäiset merkit heikkenivät viimeisissä kerroksissa ennen lopullista vastausta. Miksi näin käy, ei tutkimuksesta käy ilmi. Onko kyse varovaisuudesta, koulutuksen sivuvaikutuksesta vai jostain muusta – se jää avoimeksi.

Neljänneksi: sisäisten tilojen tarkastelu on tekninen toimenpide, eikä sitä voi suoraan sovittaa arjen käyttöliittymiin. Vaikka tutkijat pystyivät katsomaan "luonnosvihkoa", tavallinen käyttäjä näkee vain lopullisen vastauksen. Jos haluamme hyötyä mallien hiljaisesta itsetarkkailusta, tarvitaan uusia tapoja nostaa nuo huomiot turvallisesti ja ymmärrettävästi pintaan – ja varmistaa, etteivät ne itse johda harhaan.

Silti löydös haastaa yksinkertaisen ajatuksen tekoälystä pelkkänä sanaketjun jatkajana. Näyttää siltä, että käytössä olevien, varsin perinteisesti koulutettujenkin mallien sisään syntyy tapoja huomata, mitä niille aiemmin syötetään – ja että tätä havaintokykyä voi vahvistaa oikeanlaisella ohjeistuksella. Kysymys kuuluu: pitäisikö meidän opettaa koneille tapoja kertoa ääneen, mitä ne sisäisesti huomaavat – ja jos pitäisi, kuka päättää, mitä ne saavat paljastaa ja kenelle?

Paper: https://arxiv.org/abs/2602.20031v1

Register: https://www.AiFeta.com

tekoäly kielimallit läpinäkyvyys turvallisuus tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen