Pienet, huomaamattomat muutokset opetusdataan voivat ohjata tekoälyn käyttäytymistä

Pienet, huomaamattomat muutokset opetusdataan voivat ohjata tekoälyn käyttäytymistä

Keittiössä pieni muutos reseptiin – ripaus suolaa vähemmän tai tilkka sitruunaa enemmän – voi muuttaa ruoan luonteen. Tekoälyä opetettaessa resepti on data: kuvat, tekstit ja äänitteet, joista malli oppii. Uusi esijulkaistu tutkimus väittää, että aivan pienet, lähes huomaamattomat muokkaukset tähän aineistoon voivat riittää kääntämään mallin käytöstä haluttuun suuntaan.

Moni on tottunut ajatukseen, että tekoälyn käyttäytyminen korjaantuu lisäämällä joukko uusia, selkeitä esimerkkejä tai muuttamalla itse mallia. Viime vuosina on myös kehitetty menetelmiä, joilla voidaan jäljittää, mihin yksittäisiin opetusdatoihin tietty outo päätös palautuu. Nyt asetelma käännetään nurin: tutkimuksen tekijät osoittavat, että opetusdatan harkitulla hienosäädöllä voidaan jo lähtöviivalla aiheuttaa tietty lopputulos – ilman että käyttäjä myöhemmin huomaa aineistossa mitään räikeää.

Tutkimus esittelee “Infusion”-nimisen menetelmän. Sen perusajatus on arkinen: jos tiedämme, mitkä opit syntyvät mistäkin esimerkistä, voimme myös muokata juuri niitä esimerkkejä, jotta oppi kallistuisi haluttuun suuntaan. Taustalla on tekniikka, joka arvioi, miten kukin opetusnäyte vaikuttaa mallin päätöksiin. Yleensä sitä käytetään syy–seuraus-suhteiden jäljittämiseen: mistä malli on oppinut jonkin tavan toimia. Infusion hyödyntää samaa ajatusta toiseen suuntaan – se laskee, millaiset hyvin pienet muutokset valittuihin opetusnäytteisiin todennäköisimmin siirtävät mallin painotuksia ja siten sen käyttäytymistä.

Todisteet ovat konkreettisia ainakin kuvamaailmassa. Klassikkodataan, CIFAR-10-kuvakokoelmaan, tehtiin hienovaraisia muokkauksia vain noin 0,2 prosenttiin opetuskuvista – 100 kuvaan 45 000:sta. Näillä muutoksilla saavutettiin tuloksia, jotka olivat vertailukelpoisia perusratkaisun kanssa, jossa aineistoon vain lisätään muutama selkeä esimerkki halutusta käyttäytymisestä. Toisin sanoen: sen sijaan että kertoisi mallille suoraan “tee näin”, voi olla yhtä tehokasta säätää opetusdataa niin, että malli päätyy samaan suuntaan omin avuin.

Mitä tämä tarkoittaa käytännössä? Ajatellaan, että mallilta halutaan suosia tiettyä ratkaisua rajatuissa tilanteissa. Yksi tapa on syöttää sille muutama opetusesimerkki, joissa tämä valinta näytetään ja palkitaan. Tutkimuksen mukaan toinen tapa on valikoida joukko olemassa olevia opetusnäytteitä ja muuttaa niitä juuri sen verran, että mallin koulutuksessa paino alkaa kallistua toivottuun suuntaan – ilman että kukaan ihmissilmä huomaa yksittäisissä kuvissa tai teksteissä selviä “ohjauskylttejä”.

Kielimalleissa havaittiin samansuuntaisia, joskin vielä alustavia tuloksia. Menetelmä pystyi kasvattamaan halutun käyttäytymisen todennäköisyyttä, etenkin silloin, kun malli oli jo valmiiksi oppinut ilmiötä. Tämä on oleellinen rajaus: tekniikka näyttää toimivan parhaiten vahvistimena, ei taikatemppuna tyhjästä. Jos jokin taito tai taipumus ei ole mallissa entuudestaan, pienet datamuutokset eivät aina saa sitä syntymään.

Yllättävä havainto liittyy siirrettävyyteen. Muokattu opetusdata vaikutti eri arkkitehtuureihin – esimerkiksi erilaisten kuvamallien välillä – niin, että sama “maustettu” aineisto ohjasi useampaa, erikseen koulutettua mallia. Tämä vihjaa, että kyse ei ole yksittäisen mallityypin heikkoudesta, vaan itse datan rakenteesta. Jos aineistossa on systemaattinen vinouma, useampi oppija voi periä sen.

Miksi tällä on väliä? Ensinnäkin se haastaa yksioikoisen ajatuksen, että mallien turvallisuus ja luotettavuus syntyvät vain algoritmeista ja suodattimista. Opetusdata on hiljainen ohjauspyörä, joka voi kääntää lopputulosta jo ennen kuin mallia aletaan käyttää. Toiseksi se muistuttaa, että datan kuratointi – mistä aineisto tulee, kuka sitä on voinut muokata, ja miten muutoksia voi ymmärtää – on yhtä tärkeää kuin mallien arviointi testissä.

Tutkimukseen sisältyy kuitenkin selviä rajoituksia. Kieleen liittyvät kokeet ovat vasta alustavia, eikä tekniikka toimi kaikissa tapauksissa. Tekijät korostavat, että se näyttää erityisen tehokkaalta vahvistamaan jo opittuja käyttäytymisiä. On myös epäselvää, miten hyvin lähestymistapa yleistyy laajoihin, sekaviin aineistoputkiin, joissa dataa kerätään automaattisesti useista lähteistä ja siivotaan matkan varrella. Ja vaikka muokkaukset ovat “hienovaraisia”, se ei vielä kerro, kuinka vaikeaa ne olisi havaita tutkimalla dataa tai seuraamalla mallin koulutusprosessia. Menetelmä nojaa laskennallisiin arvioihin siitä, mitkä muutokset vaikuttavat – arviot voivat olla vääriä tai puutteellisia erilaisilla malleilla ja aineistoilla.

On myös kaksiteräinen miekka, että näin pienen osuuden muokkaaminen voi vaikuttaa: sama tekniikka, joka mahdollistaa hyödyllisen hienosäädön, tarjoaa väylän haitalliselle “myrkyttämiselle”, jossa malli ohjataan harhaan. Tutkijat huomauttavatkin, että löydös korostaa opetusdatan tulkittavuuden merkitystä sekä hyökkääjille että puolustajille. Kysymys kuuluu, miten dataa voidaan valvoa ja auditoida niin, että tällaiset vaikutukset joko estetään tai havaitaan ajoissa – ja voisiko samaa periaatetta käyttää myös puolustukseen, esimerkiksi vahvistamaan toivottuja, turvallisia käytöksiä ilman raskasta uudelleenkoulutusta.

Tekoälyn arki riippuu yhä enemmän suurista, osin läpinäkymättömistä aineistoputkista. Jos pienet, siististi tehdyt muutokset voivat ohjata mallien käyttäytymistä, kuka käytännössä hallitsee ohjauspyörää – ja millaisen järjestelmän me rakennamme varmistamaan, että se kääntyy oikeaan suuntaan?

Paper: https://arxiv.org/abs/2602.09987v1

Register: https://www.AiFeta.com

tekoäly koneoppiminen tietoturva data opetusdata tutkimus

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen