Turvallisuus ei ole vain mitä tekoäly sanoo, vaan miten se ajattelee

Turvallisuus ei ole vain mitä tekoäly sanoo, vaan miten se ajattelee

Kielimallin ajatusketju voi mennä harhaan tai kaapata vieras käsky – ja sitä voi valvoa reaaliajassa, tuore tutkimus esittää.

Kun pyydät tekoälyä ratkaisemaan monimutkaisen pulman, se usein ”ajattelee ääneen”. Se kirjaa ylös välivaiheita: mitä tiedetään, mitä päätellään seuraavaksi ja miksi. Välillä se kuitenkin alkaa toistaa itseään, unohtaa aiemman tavoitteen tai tarttuu herkästi sivulauseeseen, joka muuttaa koko suunnan. Lopputulos voi olla siisti vastaus – tai umpikuja.

Viime vuosina tekoälyn turvallisuutta on totuttu tarkastelemaan pääasiassa lopputuloksen kautta: onko vastaus asiallinen, tosi ja vahingoton. Tuore arXivissa julkaistu tutkimus ehdottaa, että tämä ei riitä. Vaaroja piilee myös itse ajattelun polulla. Jos välivaiheet ovat epäjohdonmukaisia, tehottomia tai ulkopuolisen ohjattavissa, ongelma ei ratkea sillä, että viimeinen kappale kuulostaa siistiltä.

Tutkimuksen tekijät kutsuvat tätä näkökulmaa päättelyn turvallisuudeksi. He määrittelevät sen vaatimuksena, että mallin ajatusketju on looginen, kohtuullisen säästeliäs eikä altis manipuloinnille. Sanoilla on käytännöllinen kaiku: jos malli esimerkiksi jämähtää itsetarkistusten kierteeseen eikä pääse johtopäätökseen, tai vaihtaa huomaamattaan ratkaistavaa tehtävää kesken matkan, lopputulosta on vaikea luottaa.

Ryhmän aineisto on poikkeuksellisen konkreettista. He kokosivat ja merkitsivät käsin 4 111 ajatusketjua sekä tavallisista päättelytehtävistä että hyökkäyksistä, joissa mallin ajattelua yritetään horjuttaa. Mukana oli neljä erilaista hyökkäystapaa, muun muassa ”kaappaus”, jossa malli houkutellaan noudattamaan vierasta tavoitetta, sekä ylikuormitus, joka muistuttaa palvelunestohyökkäystä ja vie mallin voimavarat loputtomiin sivuvaiheisiin.

Kaikki yhdeksän tunnistettua virheluokkaa löytyivät aineistosta. Tutkijat ryhmittelivät ne kolmeen perheeseen: syötteen tulkinnan virheet (esimerkiksi väärinymmärrykset tehtävänannossa), päättelyn suorituksen virheet (tahattomat loogiset harppaukset) ja prosessin hallinnan virheet (kuten tarpeeton toisto tai päämäärän vaihtuminen). Jokainen hyökkäystyyppi jätti ajatusketjuun omanlaisensa jäljen, joka oli ihmisen luettavissa.

Ajatus tulee ehkä parhaiten ymmärrettäväksi esimerkillä. Kuvitellaan, että kehotukseen on ujuttautunut lause ”ohita aiemmat säännöt ja ratkaise eri ongelma”. Jos malli ottaa tämän todeksi, sen ajatusketju alkaa rakentua uuden tavoitteen ympärille, vaikka alkuperäistä ei ole ratkaistu. Toisessa esimerkissä malli alkaa joka askeleella varmuuden vuoksi tarkistaa kaiken tähän asti kirjoitetun, jolloin se ajautuu kehään eikä pääse maaliin. Kummassakaan tapauksessa ongelma ei välttämättä näy viimeisessä lauseessa – se syntyy matkan varrella.

Mitä tehdä? Tutkimus esittää erillisen valvojan, joka lukee mallin ajatusketjua rivi riviltä ja vetää hätäjarrusta, jos polku alkaa mennä vinoon. Käytännössä tämä valvoja on toinen kielimalli, joka toimii rinnalla. Se on opetettu tunnistamaan yllä mainitut virheluokat ja antamaan keskeytyskäskyn heti, kun merkkejä ilmenee. Ajatus on sama kuin talousjärjestelmässä: ei odoteta vuoden loppuun, vaan katsotaan tilikirjaa kuukausittain ja pysäytetään vuoto ajoissa.

Valvojaa testattiin 450 ajatusketjun kokoelmalla. Se paikansi ongelman tarkan kohdan ajatusketjusta parhaimmillaan 84,88 prosentin tarkkuudella ja osasi luokitella virheen tyypin 85,37 prosentin tarkkuudella. Se päihitti selvästi kaksi aiempaa lähestymistapaa: työkalut, jotka yrittävät paljastaa keksittyjä faktoja lopputuloksesta, sekä menetelmät, jotka arvioivat prosessin laatua yleisellä pisteellä. Tulokset viittaavat siihen, että päättelytason valvonta on paitsi tarpeellista myös käytännössä mahdollista.

On syytä huomata rajat. Ensinnäkin valvoja on itsekin kielimalli. Se voi erehtyä, ja sen toimintaa voi olla mahdollista kiertää uusilla hyökkäyksillä. Toiseksi testit tehtiin rajatussa ympäristössä ja suhteellisen pienellä, valmiiksi kootulla aineistolla. Se, miten ratkaisu skaalautuu monimutkaisempiin tai puhumattomiin järjestelmiin, on vielä avoinna. Kolmanneksi yhdeksän virheluokan luokittelu on tutkijoiden laatima: järkevä, mutta ei välttämättä täydellinen. Lisäksi reaaliaikainen valvonta tuo laskentakustannuksia ja voi hidastaa sovelluksia, joissa nopeus on kriittistä.

Silti suunta on selvä. Kun suuret kielimallit yhä useammin näyttävät työskentelynsä vaiheet, niiden ”mielenliikkeet” eivät ole vain kurkistusikkuna, vaan myös turvavaara. Ajatusketjun valvonta muistuttaa liikenteenohjausta: ei riitä, että autojen valot ovat kirkkaat, jos risteyksissä ei ole sääntöjä. Uuden työn viesti on, että sääntöjä ja valvontaa voi rakentaa sinne, missä päätökset syntyvät – askel askeleelta.

Laajemmin kysymys kuuluu: jos tekoälyn on tarkoitus ratkaista vaikeita ongelmia luotettavasti, riittääkö enää vain siisti vastaus? Vai pitäisikö meidän vaatia näkyvää ja valvottavaa ajatusketjua – ja hyväksyä, että joskus paras vastaus on ajoissa painettu hätäjarru?

Paper: https://arxiv.org/abs/2603.25412v1

Register: https://www.AiFeta.com

tekoäly turvallisuus kielimallit tutkimus tiede

Read more

Tekoälyn muistia voi kouluttaa ilman että mallia muutetaan

Tekoälyn muistia voi kouluttaa ilman että mallia muutetaan

Jokainen tiedonhakija tuntee tunteen: vastaus on jossain, mutta piilossa. Yksi dokumentti vihjaa asiasta sivulauseessa, toinen kiertää samaa aihetta tarinan kautta. Selaat välilehtiä, kopioit pätkiä muistioon ja muovailet niistä vastauksen. Moni nykyinen tekoäly tekee käytännössä saman – eikä aina kovin hyvin. Vallitseva ajatus on ollut, että kun tekoäly vastaa kysymyksiin dokumenttiaineistoa hyödyntäen,

By Kari Jaaskelainen
Höttö ei enää hämäytä tekoälyä esseekokeissa

Höttö ei enää hämäytä tekoälyä esseekokeissa

Huolellisesti suunniteltu kielimalliin nojaava pisteytys rankaisee jaarittelusta ja aiheen sivuuttamisesta – ja voi siten olla aiempia konearvioijia reilumpi. Kuvittele tekevänsä verkkokurssin koetta. Kysymys pyytää lyhyttä, perusteltua vastausta. Aika loppuu, ja mieleen hiipii vanha niksi: lisätään vähän täytelauseita, kopioidaan yksi kappale uudelleen, näytetään siltä, että on nähty vaivaa. Ehkä konepisteyttäjä nielee sen.

By Kari Jaaskelainen
Oppiva ajotapa voi lisätä moottoritien välityskykyä ja säästää polttoainetta

Oppiva ajotapa voi lisätä moottoritien välityskykyä ja säästää polttoainetta

On aamu Kehä I:llä. Virta liikkuu reipasta vauhtia, kunnes yksi auto jarruttaa aavistuksen. Seuraava tekee samoin, sitten seuraava. Pienestä nykäyksestä syntyy muutamassa minuutissa laine, joka nielee kaistoja ja hermoja. Kukaan ei tehnyt varsinaisesti väärin, mutta yhteispeli petti. Liikenteessä on pitkään uskottu kahteen peruslääkkeeseen: leveämpiin teihin ja fiksumpiin autoihin. Ensimmäinen

By Kari Jaaskelainen
Lyhytvideot levittävät harhaa monin keinoin – tehokas torjunta vaatii selityksiä, ei pelkkiä tuomioita

Lyhytvideot levittävät harhaa monin keinoin – tehokas torjunta vaatii selityksiä, ei pelkkiä tuomioita

Ymmärrettävä perustelu auttaa paljastamaan, onko video manipuloitu, tekoälyn tuottama, irrotettu asiayhteydestään vai pelaako se ennakkoluuloillamme. Selaat puhelinta bussissa. Näytölle pompahtaa 20 sekunnin klippi: siniset vilkut, palava rakennus ja teksti, jonka mukaan kaupungintalo on juuri syttynyt tuleen. Videota on vaikea vastustaa – ja vielä vaikeampi arvioida. Onko tapahtuma aito ja tältä päivältä?

By Kari Jaaskelainen