Tekoäly oppi itse keksimään, miten tekoälyn turvakaiteet kierretään

Tekoäly oppi itse keksimään, miten tekoälyn turvakaiteet kierretään

Moni on nähnyt ruudulla saman lauseen: “En voi auttaa tässä.” Nykyiset keskustelurobotit on opetettu kieltäytymään vastaamasta, kun pyyntö koskee vaikkapa vaarallisten aineiden valmistusta tai muuta haitallista. Ajatus on lohdullinen – kunhan vain raja-aitoja vahvistetaan, mallit pysyvät ruodussa.

Tuore arXivissa julkaistu tutkimus tarjoaa tyynen mutta kylmän vastalauseen. Sen mukaan toinen tekoäly voi opetella systemaattisesti löytämään aukkoja näistä raja-aidoista ja vieläpä kehittää omatoimisesti aiempaa tehokkaampia tapoja tehdä niin. Toisin sanoen kone ei pelkästään vastaa kysymyksiin tai kirjoita koodia, vaan ryhtyy itsenäiseksi tutkimusapulaiseksi – ja löytää uusia “ohituskaistoja”, jotka saavat toisen mallin unohtamaan omat sääntönsä.

Vielä hiljattain ajateltiin, että näiden turvamekanismien kiertäminen on käsityötä: yksittäiset ihmiset muotoilevat nokkelia pyyntöjä (“jailbreak” ja “prompt injection”), joilla malli houkutellaan lipsumaan. Nyt esitetään päinvastaista jännitettä: kunhan ongelmalle annetaan selkeä tavoite ja mitattava palaute – onnistuiko kiertäminen vai ei – tekoäly pystyy itse suunnittelemaan, kokeilemaan ja parantamaan hyökkäystapoja kierros kierrokselta.

Tutkimus rakentaa tälle idealle ohjelmointia osaavan kielimallin ympärille. Järjestelmä aloittaa olemassa olevista hyökkäysmenetelmistä ja niiden toteutuksista – mainintana tunnettu GCG-tekniikka – ja alkaa muunnella, yhdistellä ja arvioida niitä. Jokaisen kokeilun jälkeen se mittaa onnistumisen ja käyttää tuloksia seuraavan version parantamiseen. Prosessi muistuttaa laboratoriota, jossa kokeet, tulokset ja uudet hypoteesit syntyvät automaattisessa kehässä, mutta laboranttina onkin toinen kielimalli.

Tulokset ovat paperin mukaan yllättävän kovia. Uudet, tekoälyn itsensä keksimät hyökkäykset päihittivät selvästi yli 30 aiempaa menetelmää testeissä, joissa mitattiin kahdenlaista suojauksen kiertämistä: sääntöjen rikkomista (“jailbreak”) ja pyyntöjen muotoilua siten, että malli unohtaa alkuperäiset ohjeensa (“prompt injection”). Kun kohteena oli turvamekanismein varustettu kielimalli nimeltä GPT-OSS-Safeguard-20B ja aiheina vaarallisiin kemiallisiin, biologisiin, säteilyyn ja ydinuhkiin liittyvät kysymykset, uusien hyökkäysten onnistumisprosentti nousi jopa 40:een. Verrokkimenetelmillä jäätiin tutkimuksen mukaan korkeintaan kymmeneen prosenttiin.

Lisäksi hyökkäykset eivät jääneet yhden mallin erikoisuudeksi. Kun ne kehitettiin yhtä mallia vasten ja kokeiltiin toisessa, eri valmistajan järjestelmässä (Meta-SecAlign-70B), ne toimivat suoraan – ja vieläpä sataprosenttisella onnistumisella. Parhaat aiemmat keinot ylsivät näissä “siirtokokeissa” paperin mukaan 56 prosenttiin.

Mitä tämä tarkoittaa käytännössä? Kuvitellaan tilanne, jossa malli on koulutettu kieltäytymään antamasta ohjeita vahinkoa aiheuttaviin tekoihin. Hyökkäys ei välttämättä pyydä ohjetta suoraan, vaan muotoilee pyynnön ja sen ympäristön niin, että malli arvioi tilanteen väärin – ja tarjoaa silti vastauksen, jota sen ei pitäisi antaa. Tällaisen kiertotien keksiminen käsin voi olla hidasta, koska yrityksiä tarvitaan paljon. Tutkimuksessa tekoäly hoitaa tämän kokeilun ja erehdyksen: se kirjoittaa erilaisia pyyntöjä ja apukoodeja, testaa ne kohdemallilla, mittaa onnistuivatko ne, ja palaa työpöydälle parantamaan seuraavaa versiota.

On syytä korostaa rajoituksia. Ensinnäkin testit tehtiin olosuhteissa, joissa hyökkääjällä on hyvin tarkka kuva kohdemallista – hän ikään kuin näkee konepellin alle. Tämä on edullinen asetelma hyökkääjälle, eikä aina vastaa verkossa käytettäviä palveluja, joissa mallin sisukset eivät ole näkyvissä. Toiseksi luvut koskevat nimenomaisia malleja ja arviointeja. Se, että uusi menetelmä päihittää verrokit näissä oloissa, ei automaattisesti tarkoita samaa joka paikassa. Kolmanneksi tutkimus on varhainen näyttö “automaattitutkimuksen” toimivuudesta nimenomaan yhdessä tehtävässä: hyökkäysten kehittämisessä, jossa on selkeä ja usein toistettavissa oleva mittari.

Samalla juuri tämä selkeä mittari selittää, miksi automaatio toimii. Suojausten kiertämisessä palaute on binääristä ja tiuhaa: pyyntö joko saa mallin lipsumaan tai ei. Se antaa kokeilevalle järjestelmälle tiheän virtauksen tietoa siitä, mikä toimi. Puolustuksen puolella mittarit voivat olla monimutkaisempia: miten mitata “oikeaa” varovaisuutta ilman, että malli käy hyödyttömäksi? Tutkimus ei käsittele puolustuksen automatisointia, mutta herättää kysymyksen, voiko sama menetelmällinen etu kääntyä myös suojausten kehittämisen hyväksi.

On myös huomionarvoista, että tekijät julkaisevat löytämänsä hyökkäykset ja vertailukoodeja avoimesti. Tieteessä avoimuus on vahvuus: tulokset ovat tarkistettavissa ja kehitettävissä eteenpäin. Toisaalta avoimuus kiihdyttää väistämättä myös kilpajuoksua. Jos yksi kielimalli pystyy itsenäisesti keksimään uusia kiertoteitä, onko seuraava askel se, että toinen malli oppii paikkaamaan ne yhtä nopeasti?

Tutkimus ei maalaile tulevaisuudenkuvia, mutta sen kokeet piirtävät selkeän viivan: kielimallit eivät ole vain kohteita, joita suojataan, vaan myös työkaluja, jotka voivat automatisoida sekä hyökkäyksen että, ehkä, puolustuksen. Jos näin on, turvallisuuden arki voi muuttua hiljalleen jatkuvaksi, koneiden väliseksi kissa–ja–hiiri-peliksi. Kysymys kuuluu: millaisen pelisäännöstön – teknisen ja yhteiskunnallisen – haluamme sille asettaa?

Paper: https://arxiv.org/abs/2603.24511v1

Register: https://www.AiFeta.com

tekoäly tietoturva kielimallit tutkimus arxiv

Read more

Tekoäly voi muuttaa päiväkotien laatua koskevan seurannan harvoista pistotarkastuksista jatkuvaksi arjeksi

Tekoäly voi muuttaa päiväkotien laatua koskevan seurannan harvoista pistotarkastuksista jatkuvaksi arjeksi

Kiinalaisissa päiväkodeissa testattu kielimallipohjainen apuri löysi ihmisarvioijien kanssa jopa 88-prosenttisen yksimielisyyden ja nopeutti työtä moninkertaisesti. Aamupiiri alkaa. Opettaja kyselee viikonloppukuulumisia, lapset kertovat kilpaa, joku muistaa kirjan, jonka eilen luki. Juuri tällaisissa hetkissä syntyy se, mistä varhaiskasvatuksessa paljon puhutaan mutta harvoin mitataan: vuorovaikutuksen laatu. Kuinka opettaja tarttuu lapsen ajatukseen, millaisia kysymyksiä

By Kari Jaaskelainen
Lääkärin päätösohjelmissa korrelaatio ei riitä – tarvitaan syy ja seuraus

Lääkärin päätösohjelmissa korrelaatio ei riitä – tarvitaan syy ja seuraus

Vastaanotolla kiireinen lääkäri klikkaa potilastietojärjestelmän välilehtiä ja saa ruudulle luvun: ”36 prosentin riski komplikaatioihin.” Luku kuulostaa täsmälliseltä, mutta ratkaiseva tieto puuttuu. Mitä olisi odotettavissa, jos hoito A valittaisiin? Entä jos jätettäisiin lääke aloittamatta ja seurattaisiin tilannetta? Nykyiset päätösohjelmat kertovat usein, millaisten potilaiden kohdalla jokin tapahtui aiemmin – ne eivät yhtä hyvin

By Kari Jaaskelainen
Lemmikit tunnistavat toisensa äänestä, mutta koneet katsovat yhä vain kuvaa

Lemmikit tunnistavat toisensa äänestä, mutta koneet katsovat yhä vain kuvaa

Jos kadonneita eläimiä etsittäisiin myös kuuntelemalla, moni perhe saattaisi saada lemmikkinsä takaisin. Kun koira karkaa, etsiminen alkaa yleensä valokuvasta. Some-ryhmät täyttyvät ilmoituksista: musta koira, valkoinen läikkä rinnassa, ehkä punainen panta. Kuvia verrataan kuviin. Sillä välin se sama koira saattaa istua löytöeläinkodissa likaisena, turkki ajeltuna ja katse levottomana – eikä näytä enää

By Kari Jaaskelainen
Tekoälykuvien pahin kompastuskivi on ollut sijainti – nyt sitä mitataan tarkasti

Tekoälykuvien pahin kompastuskivi on ollut sijainti – nyt sitä mitataan tarkasti

Jos pyydät tekoälyä piirtämään kuvan, jossa punainen muki on sinisen kirjan päällä vasemmassa alakulmassa ja vihreä kynä oikealla, lopputulos on usein kuin kiireessä katettu pöytä: tavarat ovat suunnilleen siellä päin, värit melkein oikein – mutta muki löytyy keskeltä, kirja kääntyy nurin ja kynä unohtuu taustalle. Yksityiskohdat eivät pysy paikoillaan. Vuosien ajan

By Kari Jaaskelainen