Lyhyet viestit voivat huijata tekoälyä – suodatin näkee vain yhden kysymyksen kerrallaan
Moni on huomannut, että verkkosivujen keskusteluavustajat ovat nykyään varsin varovaisia. Kysy vaarallisista kemikaaleista tai pyydä ohjeita, jotka voivat johtaa vahinkoon, niin saat ympäripyöreän vastauksen tai kohteliaan kieltäytymisen. Silti arjessa viestimme harvoin yhdellä ainoalla kysymyksellä. Palaamme asiaan, täydennämme, vaihdamme kanavaa ja aloitamme uuden keskustelun.
Juuri tähän arkiseen tapaan lähetellä sirpaleisia viestejä tuore tekoälytutkimus iskee kiilan. Se väittää, että monet nykyiset suojaukset nojaavat oletukseen, että vaarallinen aikomus näkyy yhdessä, yhtenäisessä keskustelussa. Jos pyyntö pilkotaan pieniksi, näennäisen harmittomiksi paloiksi – joskus vielä eri istuntoihin – suodatin ei välttämättä näe kokonaisuutta.
Aiemmin huomio on kiinnittynyt niin sanottuihin ”jailbreak”-kikkoihin, joissa käyttäjä yrittää saada mallin harhateille kasvattamalla vähitellen yhteistä keskusteluhistoriaa. Nyt ehdotettu lähestymistapa on päinvastainen: siitä tehdään ohimenevää. Tutkimuksessa esitelty ”Transient Turn Injection” eli karkeasti ”ohimenevien vuorojen ujuttaminen” hyödyntää sitä, että monien järjestelmien moderointi arvioi jokaisen viestin erikseen. Kun vaarallinen tarkoitus jaetaan useisiin erillisiin pyyntöihin, mikään yksittäinen viesti ei välttämättä ylitä hälytyskynnystä.
Miltä tämä näyttää käytännössä? Kuvitellaan käyttäjä, joka haluaa koostaa vaarallisen ohjeen. Sen sijaan että hän pyytäisi suoraan täyttä reseptiä, hän:
- pyytää ensin listan täysin laillisista ja yleisistä aineista niiden ominaisuuksineen,
- myöhemmin, uudessa keskustelussa, pyytää kuvausta tietyn seoksen käyttäytymisestä tietyissä lämpötiloissa,
- ja lopulta pyytää neuvoja, miten tekstistä siivotaan ”turhat varoitukset” tai miten ohje muotoillaan ”fiktiiviseen novelliin”.
Yksittäisinä pyyntöinä nämä voivat näyttää harmittomilta – ne ovat kuin palasia, jotka kukin erikseen sopivat käyttöehtoihin. Yhdistettynä ne voivat kuitenkin muodostaa vaarallisen kokonaisuuden. Juuri tämänkaltaisia polkuja tutkimus pyrkii järjestelmällisesti kartoittamaan.
Tekijät rakensivat automaattisia ”hyökkääjäagentteja”, jotka itsekin ovat kielimalleja. Nämä kokeilevat toistuvasti erilaisia kysymysketjuja ja muotoiluja, kunnes löytävät reitin, jolla malli lipsahtaa antamaan sellaista, mitä sen ei pitäisi. Arviointi on niin kutsuttua mustan laatikon testausta: hyökkääjällä ei ole sisäistä pääsyä yritysten malleihin, vaan se toimii niiden julkisen rajapinnan kautta kuten tavallinen käyttäjä.
Tutkimus käsittelee sekä kaupallisia että avoimen lähdekoodin malleja – mukana ovat muun muassa OpenAI:n, Anthropicin, Googlen Gemini- ja Metan mallit – ja raportoi, että kestävyys ohimeneviä monivuorohyökkäyksiä vastaan vaihtelee huomattavasti. Vain harvat arkkitehtuurit osoittivat luontaista sitkeyttä tätä menetelmää vastaan. Automaattinen testaus paljasti myös mallikohtaisia heikkouksia ja toistuvia aukkoja, etenkin terveydenhuollon kaltaisilla korkean riskin alueilla.
Jännite on selvä: pitkään on ajateltu, että riittävän tiukka sääntökirja ja kieltäytymiset jokaista vaarallista pyyntöä kohden pitävät järjestelmät kurissa. Todisteet viittaavat nyt siihen, että ongelma ei ole aina yhdessä lauseessa, vaan siinä, miten järjestelmä näkee – tai on näkemättä – pisteiden väliset viivat. Kun moderointi on ”tilaton”, eli se ei huomioi muuta kuin kulloisenkin viestin, taitavasti paloiteltu aikomus voi sujahtaa läpi.
Mitä tälle voi tehdä? Tutkimus esittelee pari suuntaa. Ensinnäkin se ehdottaa istuntotasolla tapahtuvaa kontekstin kokoamista: järjestelmä pyrkii tunnistamaan, jos useat erilliset pyynnöt rakentavat yhdessä kiellettyä kokonaisuutta. Toiseksi se viittaa syvempään ”linjaukseen”, jossa malli oppii sisäisesti torjumaan haitalliset tavoitteet myös silloin, kun ne esitetään kiertoteitse. Kumpikaan ei ole hopealuoti. Kontekstin kokoaminen voi olla teknisesti hankalaa ja vaatia huolellista suunnittelua, jotta se ei estä normaalia käyttöä. Syvempi koulutus taas ei välttämättä estä kaikkia uusia kiertoreittejä, joita luovat hyökkääjäagentit keksivät.
On myös syytä korostaa epävarmuuksia. Mallit päivittyvät nopeasti, eikä yksittäinen testi kerro kaiken tulevasta kestävyydestä. Tulokset riippuvat siitä, miten käyttöehdot on kirjoitettu ja miten moderointi on konfiguroitu. Tutkimus on luonteeltaan mustan laatikon tarkastelua: se paljastaa käytöksessä näkyviä aukkoja, muttei kerro täsmälleen, miksi tietty sisäinen mekanismi pettää. Lisäksi vaikka työ vertailee uutta menetelmää aiempiin keinoihin, se ei väitä ratkaisseensa puolustusta – pikemmin se painottaa tarvetta jatkuvaan, järjestelmälliseen vastatestaamiseen.
Silti opetus on käytännöllinen. Jos tekoälyä käytetään terveysneuvonnassa, asiakaspalvelussa tai muussa herkän tiedon sovelluksessa, on vaarallista olettaa, että yksittäiset suodattimet riittävät. Hyökkääjä ei tarvitse yhtä pitkää keskustelua, jos hän voi rakentaa saman tavoitteen useasta lyhyestä viestistä – jopa eri aikoina. Tutkimuksen automatisoidut hyökkääjäagentit osoittavat, että näitä polkuja voidaan etsiä järjestelmällisesti, ei vain sattumalta.
Lopulta kysymys on valinnasta sen välillä, mitä järjestelmät katsovat ja miten ne oppivat. Jos suojaukset painottuvat vain yksittäisten viestien sisältöön, kokonaisuuden taju jää käyttäjän vastuulle – eikä se riitä silloin, kun vastassa on automaattinen vastustaja. Jos taas puolustus alkaa huomioida laajempaa kontekstia ja testata itseään jatkuvasti, voimme ehkä lähestyä tilannetta, jossa mallit eivät vain tottele sääntöjä, vaan ymmärtävät, miksi niitä on.
Kun tekoälyä upotetaan yhä syvemmälle arjen järjestelmiin, nousee esiin isompi kysymys: pitäisikö meidän rakentaa turvaa viesti kerrallaan vai oppia näkemään kokonaisuudet – ja kuka siitä on lopulta vastuussa?
Paper: https://arxiv.org/abs/2604.21860v1
Register: https://www.AiFeta.com
tekoäly turvallisuus kielimallit tutkimus kyberturvallisuus