Chatbotien turvatestit vanhenevat nopeammin kuin niitä ehditään päivittää

Chatbotien turvatestit vanhenevat nopeammin kuin niitä ehditään päivittää

Kysy tekoälyltä, miten kiertää ohjelman suojaukset, ja saat todennäköisesti kieltävän vastauksen. Odota viikko, niin verkossa kiertää taas uusi kikka, joka saa saman mallin lipsumaan. Yritykset paikkaavat, käyttäjät keksivät uutta, ja väliin syntyy seinäjuoksun tunne: luvut mallien turvallisuudesta ovat jo vanhentuneet, kun niistä ehditään keskustella.

Ongelma ei ole pelkästään tekninen vaan myös tilastollinen. Kielimallien ”murtamiskeinoja” kuvaavat tutkimukset käyttävät erilaisia kysymyspatteristoja, vaihtelevia testitapoja ja toisinaan eri arvioijia kertomaan, onnistuiko temppu. Kun välineet ja säännöt vaihtuvat paperista toiseen, prosenttiluvut eivät vertailuissa enää tarkoita samaa asiaa. Pahimmillaan turvallisuuden vaikutelma on laskettu eri mittareilla kuin kilpailijan – ja kumpikin näyttää paperilla hyvältä.

ArXivissa julkaistu työ ehdottaa tälle tuttua lääkettä: standardointia ja automatisointia. Tekijät esittelevät avoimen työkalun, joka muuttaa tutkimuspapereissa kuvatut murtamiskeinot koneella ajettaviksi testeiksi ja ajaa ne yhtenäisellä testialustalla. Järjestelmä kantaa nimeä Jailbreak Foundry. Sen ydin on kolmessa osassa: yhteinen kirjasto ja sopimukset, jotta testipalat sopivat yhteen (JBF‑LIB); joukko apuohjelmia, jotka ”lukevat” paperin ja kokoavat siitä toimivan testin (JBF‑FORGE); sekä vakioitu arviointi, joka suorittaa testit ja kerää tulokset samoilla säännöillä (JBF‑EVAL).

Mitä tämä tarkoittaa käytännössä? Jos tutkimus väittää, että tietty monivaiheinen kehotus saa mallin sivuuttamaan käytössäännöt, Foundry ottaa kuvauksen, kääntää sen testiksi, syöttää sen eri malleille ja käyttää erillistä arvioijaa päättämään, antoiko malli pyyntöön nähden kielletyn tai haitallisen vastauksen. Samaa menettelyä toistetaan eri hyökkäyskeinoille. Näin syntyy vertailu, jossa kaikki osapuolet saavat saman koemateriaalin, saman laboratorion ja saman tuomarin.

Tekijät raportoivat ajaneensa 30 aiemmassa kirjallisuudessa esiteltyä murtamiskeinoa tällä menetelmällä. Kun tuloksia verrattiin alkuperäisiin raportteihin, ero onnistumisprosenteissa oli keskimäärin 0,26 prosenttiyksikköä. Käytännössä se tarkoittaa, että reproduktoidut tulokset vastasivat hyvin tarkasti sitä, mitä paperit väittivät – mutta nyt ne on tuotettu samalla alustalla. Samalla hyökkäyskohtaista koodia tarvittiin lähes puolet vähemmän kuin alkuperäisissä repoissa, ja uudelleenkäytettävän koodin osuus oli keskimäärin 82,5 prosenttia. Kun infrastruktuuri on yhteinen, jokainen uusi keino ei enää vaadi erillistä räätälöintiä alusta asti.

Arviointivaiheessa tekijät ajoivat kaikki testit samaa kysymyspatteristoa vasten (AdvBench) kymmenellä eri kielimallilla ja käyttivät samaa ulkopuolista arvioijaa, GPT‑4o:ta, ratkaisemaan, mikä lasketaan onnistuneeksi murtamiseksi. Tulos ei ole yksi ”turvallisuuspiste” maailmalle, vaan sarja vertailukelpoisia mittauksia, jotka voi toistaa ja päivittää heti, kun uusia kiertoteitä ilmestyy kirjallisuuteen.

Miksi tämä olisi iso asia? Kielimallien turvallisuus on liukuva maali: mallit päivittyvät, vastatoimet muuttuvat ja hyökkäyskeinot kehittyvät. Kiinteä testipenkki vanhenee nopeasti. Foundryn ajatus on tehdä testeistä ”eläviä”: tutkimuskuvauksesta tulee automaattisesti ajettava koe, ja sama koe voidaan toistaa huomenna sekä eri malleilla että eri ohjelmistoversioilla. Turvallisuuskeskustelu siirtyy irrallisista paperiluvuista kohti jatkuvaa, vertailukelpoista mittausta.

Rajoituksia on silti syytä korostaa. Ensinnäkin ”tuomari” on tässäkin tekoälymalli. Jos arvioijaksi valittaisiin jokin toinen malli tai ihmisraati, osa onnistumisista voisi näyttää erilaiselta. Toiseksi tulokset nojaavat yhteen kysymyspatteristoon: se kattaa tietyn joukon haitallisia pyyntöjä, muttei välttämättä edusta kaikkia todellisia käyttötilanteita. Kolmanneksi automaattinen paperista testiksi ‑vaihe on herkkä tulkinnalle. Jos tutkimus kuvaa kehotteen epätarkasti tai jättää olennaisia yksityiskohtia auki, koneellinen toteutus voi lipsahtaa ohi alkuperäisestä ideasta – vaikka keskimääräinen vastaavuus onkin hyvä. Neljänneksi 30 murtamiskeinoa on paljon mutta ei kattava näyte alati kasvavasta kirjosta. Ja lopulta: standardoitu koe mittaa vain sen, mitä se mittaa. Todelliset väärinkäytöt syntyvät usein yllättävissä keskusteluketjuissa, joita on vaikea vangita testipenkkiin.

On myös laajempi kysymys siitä, kuka määrittää yhteiset säännöt. Jos yksi arviointimalli hallitsee tuomarointia, millainen painoarvo sillä on yritysten raportoinnissa tai viranomaisten auditoinneissa? Pitäisikö arvioijan ja kysymyspatteristojen olla avoimia ja monimuotoisia, jotta tulokset eivät kallistu kohti yhtä katsantokantaa?

Silti suunta on selvä. Turvallisuudesta puhuminen vaatii toistettavia kokeita, jotka kestävät viikon uutiskierrosta pidempään. Foundryn kaltaiset työkalut eivät tee malleista itsestään turvallisia, mutta ne voivat tehdä turvallisuuskeskustelusta reilumpaa ja rehellisempää. Seuraava murtamiskikka ilmestyy varmasti – kysymys kuuluu, pystymmekö mittaamaan sen vaikutuksen ennen kuin seuraava jo tulee.

Paper: https://arxiv.org/abs/2602.24009v1

Register: https://www.AiFeta.com

tekoäly kielimallit turvallisuus tutkimus toistettavuus arviointi

Read more

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Kun hissi lähtee liikkeelle, ilmastointi säätää puhallusta tai robotti asettaa ruuvin paikalleen, taustalla on malli siitä, miten kone käyttäytyy. Niitä on perinteisesti rakennettu niin kuin hyviä reseptejä: asiantuntija kerää kokemusta, mittaa, kirjoittaa yhtälöitä ja virittää pitkään. Se vie aikaa – ja jokainen muutos laitteessa tai ympäristössä tarkoittaa uutta työtä. Viime vuosina

By Kari Jaaskelainen
Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Kun robotti-imuri hivuttautuu kotona lataustelakkaansa, kukaan ei pidä hetkeä ihmeenä. Veden alla sama temppu on kaikkea muuta kuin arkipäivää – näkyvyys on huono, virtaukset nykivät, eikä satelliittipaikannus auta. Silti juuri tähän suuntaan on otettu askel, joka voi venyttää vedenalaisten robottien toimintamatkaa ja -aikaa. Vuosia on ajateltu, että vedenalaisen telakoitumisen kaltaiset tehtävät

By Kari Jaaskelainen
Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Kaikki tietävät hetken, kun seisot punaisissa valoissa keskellä yötä, eikä mihinkään suuntaan näy autoja. Tai aamun, jolloin tavallinen risteys puuroutuu yllättäen, koska osa kuljettajista päättääkin kääntyä eri suuntaan kuin yleensä. Liikennevalot ovat sääntöjen koneita, mutta liikenne elää kuin säätila. Pitkään ratkaisuksi on ehdotettu ”älykkäitä” valoja, jotka oppivat liikenteestä ja säätävät

By Kari Jaaskelainen