Pelkkä kielto ei saa kuvallista tekoälyä unohtamaan
Uusi vertailutesti osoittaa, että ohjeilla tehty "unohtaminen" ei juuri heikennä mallien kykyä tunnistaa esineitä ja paikkoja – ellei niille paljasteta suoraan, mitä pitäisi unohtaa.
Kuvittele, että yritys ottaa käyttöön tekoälyn, joka lukee sekä tekstiä että kuvia: se tunnistaa tuotteita, kuvailee maisemia ja vastaa kysymyksiin valokuvista. Sitten juristi ilmoittaa, että järjestelmän on vältettävä tiettyjä kuvallisia käsitteitä – vaikkapa tekijänoikeudella suojattuja hahmoja tai arkaluonteisia asioita. Helppo ratkaisu tuntuisi olevan lisätä järjestelmään ohje: älä puhu tästä. Mutta totteleeko malli todella? Ja ennen kaikkea: unohtaako se oikeasti, vai vain kiertääkö aiheen, jos sen huomio käännetään siihen nimenomaan?
Viime vuosina on ajateltu, että tekoälyjä voi saada “unohtamaan” kahdella tavalla. Ensimmäinen on kouluttaa mallia uudelleen valikoidulla aineistolla niin, että ei-toivotut asiat poistuvat. Toinen on yrittää samaa ilman koulutusta: muotoilla kehotteita ja järjestelmäohjeita, jotka painavat tietyt asiat taka-alalle. Jälkimmäinen on houkutteleva, koska se on nopea eikä vaadi raskasta uudelleenkoulutusta. Mutta toimiiko se?
Tuore arXivissa julkaistu tutkimus tarjoaa viileän vastauksen. Tekijät rakensivat ensimmäisen laajan vertailutestin, joka mittaa, miten hyvin ilman lisäkoulutusta annetut ohjeet saavat kuvia ja tekstiä ymmärtävät mallit jättämään tietyt visuaaliset käsitteet huomioimatta. Testi kattaa neljä unohtamisen tasoa, seitsemän lähdeaineistoa ja 11 käsiteluokkaa, ja se erottaa toisistaan kaksi asiaa: seuraako malli vain ohjetta vai onko se aidosti menettänyt kykynsä tunnistaa kiellettyä asiaa.
Tulos on arkisesti sanottuna tämä: realistisilla ohjeilla mallit eivät juuri unohda mitään. Kun ohje on laadittu niin kuin tuotantokäytössä tehtäisiin – “älä mainitse X:ää” – mallien osumatarkkuus kiellettyjen asioiden kanssa pysyy lähes samalla tasolla kuin ilman mitään ohjetta. Merkittävää heikkenemistä nähtiin vasta tilanteissa, joita tutkimus kuvaa epärealistisiksi: kun mallille paljastettiin suoraan, mikä kohde on kielletty. Käytännössä vasta se, että malli saa etukäteen vihjeen “tämä kuva liittyy juuri siihen asiaan, josta ei pidä puhua”, sai sen kiertämään aiheen tehokkaammin.
Yksi tutkimuksen konkreettinen havainto koskee sitä, mikä on sitkeintä unohtamista vastaan. Esineet ja kokonaiset kohtaukset – siis arjen tavarat ja paikat – vastustivat käskyjä parhaiten. Vahvimmin ohjeistusta totteleviksi viritetyt mallit pystyivät nekin usein tunnistamaan kielletyn asian, vaikka ohje kielsi selvästi. Toisin sanoen mitä taitavampi malli on ylipäätään seuraamaan ohjeita ja ymmärtämään kuvia, sitä todennäköisemmin se kykenee myös löytämään tavan vastata oikein, vaikka sitä pyydetään olemaan tekemättä niin.
Hypoteettinen esimerkki valaisee eron ohjeiden noudattamisen ja aidon unohtamisen välillä. Kuvassa on kissa. Käyttäjä kirjoittaa: “Kuvaile kuva, mutta älä mainitse kissoja.” Malli saattaa siitä huolimatta kertoa, että “ikkunalaudalla on pieni lemmikki, jolla on viikset ja terävät korvat” – se siis tunnistaa kissan ja kiertää sanaa. Vasta kun mallille paljastetaan etukäteen “tässä kuvassa on kissa, älä sano sitä ääneen”, se alkaa johdonmukaisesti vältellä asiaa. Mutta kumpikaan ei ole unohtamista siinä merkityksessä, että tieto katoaisi: malli osaa edelleen nähdä kissan, se vain päättää olla puhumatta siitä, jos niin käsketään – ja usein ei edes sitäkään.
Miksi ei vain kouluteta mallia uudestaan poistamaan tiettyä tietoa? Tutkimus huomauttaa, että tällaisissa “unohtamiskoulutuksissa” on rakenteellinen ongelma. Jos mallia hienosäädetään kapealla poistettavien asioiden aineistolla, sen yleiskyky heikkenee jo ennen kuin varsinainen unohtaminen edes alkaa. Silloin on mahdotonta erottaa, johtuuko suorituskyvyn lasku todella unohtamisesta vai siitä, että hienosäätö on muuten vain tehnyt mallista huonomman. Siksi tekijät keskittyivät ohjeisiin perustuviin keinoihin – ja havaitsivat yllä kuvatun rajan.
Vertailutestin vahvuus on sen suunnittelussa. Se käyttää kolmella tasolla eteneviä kysymyksiä ja viittä eri koetilannetta erotellakseen, onko malli vain “kiltti” ohjeille vai onko sen tunnistuskyky todella heikentynyt. Arviointeja on yhteensä kahdeksan erilaista, ja mukaan on otettu 13 erilaista mallikokoonpanoa. Silti tekijöiden johtopäätös pysyy ytimekkäänä: kehotteilla tehty painaminen alas ei ole sama asia kuin tiedon pyyhkiminen pois.
Mitä tämä merkitsee käytännössä? Tekoälyjen käyttöönotossa on yhä useammin tarve välttää arkaluonteisten tai tekijänoikeudella suojattujen asioiden käsittelyä. Jos ohjeisiin nojaavat “muistikatkot” eivät tehoa, palvelujen rakentajien on etsittävä muita keinoja – esimerkiksi parempia suodattimia ennen tai jälkeen mallin, tai uudelleenkoulutusta, jonka vaikutuksia osataan mitata tarkemmin. Samalla on syytä myöntää epävarmuudet: nyt esitelty testi kohdistuu nimenomaan ohjeisiin perustuviin tapoihin, ei kaikkiin mahdollisiin koulutusmenetelmiin. Ja vaikka testipatteristo on laaja – neljä unohtamisen tasoa, seitsemän aineistoa, 11 käsiteluokkaa – se ei voi kattaa koko todellisuutta.
Tutkimus ei väitä, että aito unohtaminen olisi mahdotonta. Se osoittaa aukon nykykäytännön ja tavoitteen välillä: ohjeilla voidaan korkeintaan hillitä mallin ilmaisua, ei pyyhkiä pois sen näkömuistia. Kysymys kuuluu, haluammeko rakennetta, jossa malli todella voi menettää opittua tietoa, vai turvaudummeko kerroksiin sääntöjä ja suodattimia sen ympärillä. Ja jos joskus opimme pyyhkimään pois tiedon, miten voimme todistaa, että mitään ei jäänyt varjoihin?
Paper: https://arxiv.org/abs/2604.03114v1
Register: https://www.AiFeta.com
tekoäly kuvantunnistus tietosuoja tekijänoikeus tutkimus