tekoäly

Tekoäly oppi itse keksimään, miten tekoälyn turvakaiteet kierretään

Kari Jaaskelainen

26 Mar 2026 — 3 min read

Moni on nähnyt ruudulla saman lauseen: “En voi auttaa tässä.” Nykyiset keskustelurobotit on opetettu kieltäytymään vastaamasta, kun pyyntö koskee vaikkapa vaarallisten aineiden valmistusta tai muuta haitallista. Ajatus on lohdullinen – kunhan vain raja-aitoja vahvistetaan, mallit pysyvät ruodussa.

Tuore arXivissa julkaistu tutkimus tarjoaa tyynen mutta kylmän vastalauseen. Sen mukaan toinen tekoäly voi opetella systemaattisesti löytämään aukkoja näistä raja-aidoista ja vieläpä kehittää omatoimisesti aiempaa tehokkaampia tapoja tehdä niin. Toisin sanoen kone ei pelkästään vastaa kysymyksiin tai kirjoita koodia, vaan ryhtyy itsenäiseksi tutkimusapulaiseksi – ja löytää uusia “ohituskaistoja”, jotka saavat toisen mallin unohtamaan omat sääntönsä.

Vielä hiljattain ajateltiin, että näiden turvamekanismien kiertäminen on käsityötä: yksittäiset ihmiset muotoilevat nokkelia pyyntöjä (“jailbreak” ja “prompt injection”), joilla malli houkutellaan lipsumaan. Nyt esitetään päinvastaista jännitettä: kunhan ongelmalle annetaan selkeä tavoite ja mitattava palaute – onnistuiko kiertäminen vai ei – tekoäly pystyy itse suunnittelemaan, kokeilemaan ja parantamaan hyökkäystapoja kierros kierrokselta.

Tutkimus rakentaa tälle idealle ohjelmointia osaavan kielimallin ympärille. Järjestelmä aloittaa olemassa olevista hyökkäysmenetelmistä ja niiden toteutuksista – mainintana tunnettu GCG-tekniikka – ja alkaa muunnella, yhdistellä ja arvioida niitä. Jokaisen kokeilun jälkeen se mittaa onnistumisen ja käyttää tuloksia seuraavan version parantamiseen. Prosessi muistuttaa laboratoriota, jossa kokeet, tulokset ja uudet hypoteesit syntyvät automaattisessa kehässä, mutta laboranttina onkin toinen kielimalli.

Tulokset ovat paperin mukaan yllättävän kovia. Uudet, tekoälyn itsensä keksimät hyökkäykset päihittivät selvästi yli 30 aiempaa menetelmää testeissä, joissa mitattiin kahdenlaista suojauksen kiertämistä: sääntöjen rikkomista (“jailbreak”) ja pyyntöjen muotoilua siten, että malli unohtaa alkuperäiset ohjeensa (“prompt injection”). Kun kohteena oli turvamekanismein varustettu kielimalli nimeltä GPT-OSS-Safeguard-20B ja aiheina vaarallisiin kemiallisiin, biologisiin, säteilyyn ja ydinuhkiin liittyvät kysymykset, uusien hyökkäysten onnistumisprosentti nousi jopa 40:een. Verrokkimenetelmillä jäätiin tutkimuksen mukaan korkeintaan kymmeneen prosenttiin.

Lisäksi hyökkäykset eivät jääneet yhden mallin erikoisuudeksi. Kun ne kehitettiin yhtä mallia vasten ja kokeiltiin toisessa, eri valmistajan järjestelmässä (Meta-SecAlign-70B), ne toimivat suoraan – ja vieläpä sataprosenttisella onnistumisella. Parhaat aiemmat keinot ylsivät näissä “siirtokokeissa” paperin mukaan 56 prosenttiin.

Mitä tämä tarkoittaa käytännössä? Kuvitellaan tilanne, jossa malli on koulutettu kieltäytymään antamasta ohjeita vahinkoa aiheuttaviin tekoihin. Hyökkäys ei välttämättä pyydä ohjetta suoraan, vaan muotoilee pyynnön ja sen ympäristön niin, että malli arvioi tilanteen väärin – ja tarjoaa silti vastauksen, jota sen ei pitäisi antaa. Tällaisen kiertotien keksiminen käsin voi olla hidasta, koska yrityksiä tarvitaan paljon. Tutkimuksessa tekoäly hoitaa tämän kokeilun ja erehdyksen: se kirjoittaa erilaisia pyyntöjä ja apukoodeja, testaa ne kohdemallilla, mittaa onnistuivatko ne, ja palaa työpöydälle parantamaan seuraavaa versiota.

On syytä korostaa rajoituksia. Ensinnäkin testit tehtiin olosuhteissa, joissa hyökkääjällä on hyvin tarkka kuva kohdemallista – hän ikään kuin näkee konepellin alle. Tämä on edullinen asetelma hyökkääjälle, eikä aina vastaa verkossa käytettäviä palveluja, joissa mallin sisukset eivät ole näkyvissä. Toiseksi luvut koskevat nimenomaisia malleja ja arviointeja. Se, että uusi menetelmä päihittää verrokit näissä oloissa, ei automaattisesti tarkoita samaa joka paikassa. Kolmanneksi tutkimus on varhainen näyttö “automaattitutkimuksen” toimivuudesta nimenomaan yhdessä tehtävässä: hyökkäysten kehittämisessä, jossa on selkeä ja usein toistettavissa oleva mittari.

Samalla juuri tämä selkeä mittari selittää, miksi automaatio toimii. Suojausten kiertämisessä palaute on binääristä ja tiuhaa: pyyntö joko saa mallin lipsumaan tai ei. Se antaa kokeilevalle järjestelmälle tiheän virtauksen tietoa siitä, mikä toimi. Puolustuksen puolella mittarit voivat olla monimutkaisempia: miten mitata “oikeaa” varovaisuutta ilman, että malli käy hyödyttömäksi? Tutkimus ei käsittele puolustuksen automatisointia, mutta herättää kysymyksen, voiko sama menetelmällinen etu kääntyä myös suojausten kehittämisen hyväksi.

On myös huomionarvoista, että tekijät julkaisevat löytämänsä hyökkäykset ja vertailukoodeja avoimesti. Tieteessä avoimuus on vahvuus: tulokset ovat tarkistettavissa ja kehitettävissä eteenpäin. Toisaalta avoimuus kiihdyttää väistämättä myös kilpajuoksua. Jos yksi kielimalli pystyy itsenäisesti keksimään uusia kiertoteitä, onko seuraava askel se, että toinen malli oppii paikkaamaan ne yhtä nopeasti?

Tutkimus ei maalaile tulevaisuudenkuvia, mutta sen kokeet piirtävät selkeän viivan: kielimallit eivät ole vain kohteita, joita suojataan, vaan myös työkaluja, jotka voivat automatisoida sekä hyökkäyksen että, ehkä, puolustuksen. Jos näin on, turvallisuuden arki voi muuttua hiljalleen jatkuvaksi, koneiden väliseksi kissa–ja–hiiri-peliksi. Kysymys kuuluu: millaisen pelisäännöstön – teknisen ja yhteiskunnallisen – haluamme sille asettaa?

Paper: https://arxiv.org/abs/2603.24511v1

Register: https://www.AiFeta.com

tekoäly tietoturva kielimallit tutkimus arxiv

Tekoäly oppi itse keksimään, miten tekoälyn turvakaiteet kierretään

Kari Jaaskelainen

Read more

Tekoäly voi muuttaa päiväkotien laatua koskevan seurannan harvoista pistotarkastuksista jatkuvaksi arjeksi

Lääkärin päätösohjelmissa korrelaatio ei riitä – tarvitaan syy ja seuraus

Lemmikit tunnistavat toisensa äänestä, mutta koneet katsovat yhä vain kuvaa

Tekoälykuvien pahin kompastuskivi on ollut sijainti – nyt sitä mitataan tarkasti