Tekoäly oppii paremmin, kun sen "käyttöohjetta" kehitetään yhtä aikaa sen kanssa

Share
Tekoäly oppii paremmin, kun sen "käyttöohjetta" kehitetään yhtä aikaa sen kanssa

Kuka tahansa ChatGPT:tä kokeillut tietää, että muutama sana alkuun – ”ole tiukka opettaja” tai ”kuvittele olevasi juristi” – muuttaa vastausten tyyliä ja usein myös laatua. Tekoälyä voi siis ohjata kahdella tavalla: kouluttamalla sen sisuskaluja tai antamalla sille paremmat lähtöohjeet. Uusi tutkimus ehdottaa, että näitä kahta kannattaa tehdä yhtä aikaa.

Perinteinen ajattelu on ollut kaksijakoinen. Joko hienosäädetään mallin ”painoja” eli sen sisäisiä asetuksia, usein vahvistusoppimisella, jossa malli oppii yrityksen ja erehdyksen kautta. Tai sitten parannetaan kehysohjetta – sitä ensimmäistä, yleistä ohjetekstiä, joka kertoo mallille, millainen rooli sillä on ja miten sen odotetaan toimivan. Nyt tutkijat esittävät, että ohjetta ei pidä nähdä kertakäyttöisenä lapukkeena, vaan osana oppivaa järjestelmää, joka voi itsekin kehittyä.

ArXivissa julkaistussa työssä esitellään menetelmä nimeltä Evolutionary System Prompt Learning (E‑SPL). Sen perusajatus on arkijärkinen: annetaan tekoälylle monta erilaista lähtöohjetta, pannaan ne kilpailemaan rinnakkain, ja annetaan sekä mallin sisäisten asetusten että itse ohjeiden parantua kierros kierrokselta. Kun malli tekee tehtäviä, sen painoja päivitetään tuttuun tapaan suoritusten perusteella. Samalla ohjeita ”risteytetään” ja ”mutatoidaan” – käytännössä malli muotoilee niistä uusia versioita ja yhdistelee toimiviksi havaittuja kohtia. Parhaiten menestyneet ohjeet etenevät seuraavalle kierrokselle, heikommat karsiutuvat. Ohjeille pidetään kirjaa pelien taitopisteitä muistuttavalla arvosanalla (TrueSkill), joka päivittyy suhteellisen suoriutumisen perusteella jokaisessa erässä.

Tästä syntyy työn kirjoittajien mukaan luonteva työnjako: julistava, sääntökirjamainen tieto voi jäädä ohjeeseen, kun taas toimintatavat ja ”lihakset” hioutuvat mallin painoihin. Ajatusta voi havainnollistaa työpaikan perehdytyksellä. Uusi työntekijä oppii sekä lukemalla käsikirjaa että tekemällä töitä. Jos käsikirjaa päivitetään jatkuvasti sen mukaan, mikä todella auttaa onnistumaan, ja samalla työntekijä saa palautteen kautta parempia työtapoja, kehitys on nopeampaa kuin vain toista polkua pitkin.

Koska tekoälystä puhutaan, oleellista on näyttö. Menetelmä testattiin erilaisissa päättely- ja toimiaskareissa, joissa malli ratkoo ongelmia useassa vaiheessa. Yhdessä konkreettisessa kokeessa tarkasteltiin yleistymistä helpommista matemaattisista kilpailutehtävistä (AIME) vaikeampiin (BeyondAIME). Pelkkä vahvistusoppiminen nosti onnistumisprosentin 38,8:aan. Kun sen kylkeen lisättiin ohjeiden evoluutio E‑SPL-menetelmällä, tulos nousi 45,1:een. Se peittosi samalla toisen lähestymistavan, jossa malli muokkaa ohjeitaan itsetarkastelun kautta (40,0%). Tutkijoiden mukaan yhdistelmä toi myös johdonmukaista parannusta siihen, kuinka monella yrityksellä mallin tarvitsee löytää oikea ratkaisu – toisin sanoen oppiminen tehostui.

On tärkeää huomata, mitä nämä luvut kertovat ja mitä eivät. Nousu 38,8:sta 45,1:een on selvä, mutta ei mullistava. Lisäksi kyse on tietyistä tehtävistä ja tietyistä asetuksista: monia rinnakkaisia ohjeita täytyy pyörittää samaan aikaan, ja niiden välinen kilpailu sekä muokkaus vaativat huolellista toteutusta. Menetelmässä on monta liikkuvaa osaa – ohjeiden pituus ja tyyli, risteytyksen tapa, se miten suoritusta mitataan – ja jokainen niistä voi vaikuttaa lopputulokseen. Vaikka tutkijat raportoivat tehostunutta oppimista ja parempaa yleistymistä, ulkopuolinen vahvistus ja laajemmat testit eri tehtävissä ovat seuraava askel.

Toinen rajoite liittyy resursseihin. Koska ohjeita ajetaan rinnakkain, järjestelmä tekee käytännössä useita versiokokeita jokaisella oppimiskierroksella. Se on järkevä tapa löytää toimivia ratkaisuja, mutta voi kasvattaa laskennan tarvetta. Tutkimus ei pureudu yksityiskohtaisesti siihen, kuinka paljon lisätehoa tämä käytännössä vaatii erilaisissa ympäristöissä.

Silti ajatusleikkinä E‑SPL on kiehtova: se kohtelee ohjetta elävänä osana järjestelmää, ei staattisena tekstitiedostona. Kun ohjeet pisteytetään suhteessa toisiinsa ja hyviä muotoiluja lainataan eteenpäin, syntyy pieni evoluutioekosysteemi, joka pyörii käsi kädessä varsinaisen oppimisen kanssa. Tulos on kuin kaksoismoottori: sääntökirja paranee, mutta myös se, miten sääntöjä käytetään, terävöityy.

Käytännön esimerkki auttaa hahmottamaan ideaa ilman yhtälöitä. Kuvitellaan avustaja, joka auttaa viikonloppureissun suunnittelussa. Yhdessä versiossa ohje painottaa turvallisuutta ja budjettia, toisessa yllätyksellisyyttä ja paikallisia helmiä. Molemmilla perusohjeilla avustaja tekee ehdotuksia ja saa palautteen: onnistuiko aikataulu, oliko reitti järkevä? Parhaat piirteet eri ohjeista yhdistetään uuteen ohjeeseen, ja samalla avustajan sisäinen ”tatsi” reittien laatimiseen paranee kokemuksen myötä. Muutaman kierroksen jälkeen sekä ohje että avustaja ovat oppineet – kumpikin omalla tavallaan.

On houkuttelevaa julistaa, että tässä on uusi standardi tekoälyn kehittämiselle. Silti historian valossa varovaisuus kannattaa. Monet lupaavat tekniikat ovat loistaneet tietyissä kokeissa mutta karanneet käsistä käytännön sovelluksissa. Tässäkin menetelmässä on epävarmuuksia: miten hyvin ohjeiden kilpailu kestää aivan erilaisten tehtävien kirjoa, milloin ohjeesta tulee liian räätälöity tiettyihin testejin, ja kuinka herkkä järjestelmä on sattumanvaraisille variaatioille? Tutkimus tarjoaa avoimen lähdekoodin, joten vastauksia voi alkaa kertyä nopeasti, kun muut ryhmät toistavat kokeita.

Jos ohje ja oppija todella voivat kasvaa yhdessä, se saattaa muuttaa tapaa, jolla ajattelemme älykkäistä järjestelmistä: ei yhtenä möhkäleenä, jota aina vain koulutetaan lisää, vaan kaksikerroksisena kokonaisuutena, jossa kieli ja kyky tukevat toisiaan. Kysymys kuuluu: jos tekoälylle annettu sääntökirja voi kehittyä kuin laji evoluutiossa, millaisia ”hyviä tapoja” se alkaa suosia – ja kuka päättää, millaiset ohjeet saavat lisääntyä?

Paper: https://arxiv.org/abs/2602.14697v1

Register: https://www.AiFeta.com

tekoäly kielimallit vahvistusoppiminen tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen