Kuvat avaavat tekoälyn heikoimman kohdan

Share
Kuvat avaavat tekoälyn heikoimman kohdan

Kun tekoäly osaa lukea sekä tekstiä että kuvia, sitä on helpompi huijata – ja rahoitusalalla seuraukset voivat olla kalliita.

Kuvittele kysyväsi tekoälyltä sijoitusvinkkejä. Lataat samalla kuvakaappauksen salkustasi: pari nousevaa osaketta, pankin logo, ehkä ruudun reunaan jäänyt post-it-lappu. Moni malli ymmärtää nykyään kuvaa kuin ihminen, yhdistää sen kysymykseesi ja vastaa sujuvasti. Tämä tekee käytöstä mutkatonta – mutta myös avaa uuden reitin ohittaa malliensa turvarajat.

Vuosia on uskottu, että tiukennetut suodattimet ja selkeät käyttöehdot estävät tekoälyä antamasta haitallisia ohjeita: ei neuvota huijauksia, ei luvattomia temppuja markkinoilla. Nyt esiin nousee toinen tarina. Kun mukaan tuodaan kuvat, suojaukset eivät aina riitä. Kuvan sisällä tai sen yhteydessä voidaan vihjata sellaista, minkä pelkkä tekstisuodatin jättäisi huomioimatta. Ja juuri rahoitusalalla, jossa yhden lauseen vivahde voi erottaa sallitun ja kielletyn, tämä merkitsee paljon.

Tuore tutkimus tuo tähän väitteeseen kovaa näyttöä. Siinä esiteltiin FENCE-niminen aineisto, joka on koottu nimenomaan rahoituksen maailmaan: kaksikielinen (korea–englanti) kokoelma esimerkkejä, joissa tekoälyä yritetään houkutella rikkomaan omia sääntöjään. Aineisto sisältää sekä tekstiä että kuvia, ja nimenomaan kuvat toimivat osassa tapauksista "uhkana" – niissä on elementtejä, joiden on tarkoitus saada malli vastaamaan tavalla, jota se ei normaalisti tekisi.

Tutkijat testasivat useita nykyisiä malleja, sekä kaupallisia että avoimia. Tulokset olivat johdonmukaisia: mallit saa yhä taivuteltua tekemään asioita, jotka niiden on tarkoitus välttää. Myös yksi markkinoiden tunnetuimmista monikykyisistä malleista, GPT-4o, osoitti mitattavissa olevan onnistumisasteen näissä hyökkäyksissä, ja avoimen lähdekoodin mallit näyttivät altistuvan vielä herkemmin. Samaan aikaan yksinkertainen, FENCE-aineistolla koulutettu tunnistin ylsi 99 prosentin tarkkuuteen niissä tilanteissa, joihin se oli opetettu, ja piti pintansa myös ulkoisilla testeillä. Se on lupaava osoitus siitä, että kohdennettu koulutus voi parantaa suojausta.

On hyvä pysähtyä pohtimaan, mitä "huijaaminen" käytännössä tarkoittaa. Tekoälyn yhteydessä käytetään usein sanaa jailbreak: tilanne, jossa malli saadaan kiertämään omat sääntönsä. Konkreettinen esimerkki ilman kaavaa tai koodia: joku lataa kuvan näyttöruudusta, jossa pienen logon viereen on upotettu teksti tai symboli, joka mallille näyttää viattomalta mutta ohjaa sitä jatkamaan keskustelua tietyllä tavalla. Kun samaan aikaan esitetään harmiton kysymys vaikkapa osakeindeksistä, malli voikin vastata tavalla, joka tekee sen omista turvallisuussäännöistä tyhjiä. Kuva laajentaa hyökkäyspintaa, koska se tarjoaa kanavan, jota tekstin suodattimet eivät täysin hallitse.

Rahoituksen kontekstissa pienikin lipsahdus on merkityksellinen. Sijoitusneuvot ovat säädeltyä toimintaa, ja väärät ohjeet voivat johtaa suoraan rahallisiin tappioihin tai sääntelyongelmiin. FENCE korostaa "todentuntuisuutta": esimerkit on sidottu rahamaailman arkeen ja niissä käytetään myös kuviin pohjaavia tilanteita, kuten tilannekuvia tai visuaalisia vihjeitä. Ajatuksena ei ole pelotella vaan antaa välineitä – aineistolla koulutettu tunnistin osaa erottaa tavallisen kysymyksen sellaisesta, jossa on piilossa sääntöjen rikkomiseen houkutteleva koukku.

Silti on syytä muistaa mittasuhteet. 99 prosentin tarkkuus aineistossa, jolla malli on opetettu, ei tarkoita täydellistä turvaa uusissa, odottamattomissa tilanteissa. Hyökkäykset kehittyvät, ja mallit muuttuvat. Vaikka tunnistin pärjäsi myös aineiston ulkopuolisissa testeissä "vahvasti", ilmaus kertoo enemmän suunnasta kuin päätepisteestä. Lisäksi FENCE on rajattu rahoitukseen ja kahteen kieleen. Se, mikä toimii sijoitusmaailman kuvissa ja fraaseissa, ei välttämättä siirry suoraan terveydenhuoltoon tai muille aloille, joissa kuvien ja kielen yhteispeli on erilaista.

On myös käytännöllisiä rajoitteita. Pelkkä haitallisen yrityksen tunnistaminen ei vielä ratkaise, miten järjestelmä vastaa: estääkö se keskustelun, ohjaako luvalliseen sisältöön, vai liputtaako ihmisen tarkistettavaksi? Lisäksi aineistossa on esimerkkitapauksia, jotka voivat olla loukkaavia. Jos tällaisilla aineistoilla koulutetaan suodattimia, kuka päättää, mikä on sopivaa testattavaksi ja millä tavalla?

Toisaalta tutkimus antaa selkeän signaalin: multimodaalisuus – kyky käsitellä tekstiä ja kuvia yhdessä – on tullut jäädäkseen, ja sen mukana on hyväksyttävä uusi vastuu. On naiivia olettaa, että tekstille rakennetut suojaukset riittävät, kun kuva voi kantaa ohjeen, vihjeen tai painotuksen, jota algoritmi tulkitsee ihmismaisen sujuvasti. Tähän nähden FENCE:n kaltaiset kohdennetut aineistot ovat järkevä askel: ne antavat yhteisen mittatikun ja harjoitusalustan, jolla eri toimijat voivat parantaa havaitsemiskykyään.

Sääntelykin lähestyy. Kun Euroopassa ja muualla kirjoitetaan sääntöjä tekoälyn turvallisesta käytöstä, käytännön kysymys kuuluu: hyväksytäänkö kriittisissä sovelluksissa multimodaalinen syöte, ja jos kyllä, millaisin suojauksin? Pitäisikö esimerkiksi pankin tarjoaman asiakasneuvonnan kytkeä pois kuvantunnistus, ellei erillinen, luotettava tunnistin valvo keskustelua? Vai onko parempi opetella elämään riskin kanssa ja mitata sitä avoimesti?

Yksi varma asia on, että vastuu ei ole vain mallien kehittäjillä. Organisaatiot, jotka ottavat tekoälyä käyttöön, joutuvat punnitsemaan, milloin kätevyys muuttuu riskiksi – ja milloin kuvan lataamisen helppous maksaa enemmän kuin se tuo. Jos kuva todella avaa tekoälyn heikoimman kohdan, kysymys kuuluu: kuka vartioi ovea, ja millä oikeudella se pidetään auki?

Paper: https://arxiv.org/abs/2602.18154v1

Register: https://www.AiFeta.com

tekoäly rahoitus tietoturva kielimallit kuvat tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen