Tekoäly oppii paremmin, kun sen "käyttöohjetta" kehitetään yhtä aikaa sen kanssa

Tekoäly oppii paremmin, kun sen "käyttöohjetta" kehitetään yhtä aikaa sen kanssa

Kuka tahansa ChatGPT:tä kokeillut tietää, että muutama sana alkuun – ”ole tiukka opettaja” tai ”kuvittele olevasi juristi” – muuttaa vastausten tyyliä ja usein myös laatua. Tekoälyä voi siis ohjata kahdella tavalla: kouluttamalla sen sisuskaluja tai antamalla sille paremmat lähtöohjeet. Uusi tutkimus ehdottaa, että näitä kahta kannattaa tehdä yhtä aikaa.

Perinteinen ajattelu on ollut kaksijakoinen. Joko hienosäädetään mallin ”painoja” eli sen sisäisiä asetuksia, usein vahvistusoppimisella, jossa malli oppii yrityksen ja erehdyksen kautta. Tai sitten parannetaan kehysohjetta – sitä ensimmäistä, yleistä ohjetekstiä, joka kertoo mallille, millainen rooli sillä on ja miten sen odotetaan toimivan. Nyt tutkijat esittävät, että ohjetta ei pidä nähdä kertakäyttöisenä lapukkeena, vaan osana oppivaa järjestelmää, joka voi itsekin kehittyä.

ArXivissa julkaistussa työssä esitellään menetelmä nimeltä Evolutionary System Prompt Learning (E‑SPL). Sen perusajatus on arkijärkinen: annetaan tekoälylle monta erilaista lähtöohjetta, pannaan ne kilpailemaan rinnakkain, ja annetaan sekä mallin sisäisten asetusten että itse ohjeiden parantua kierros kierrokselta. Kun malli tekee tehtäviä, sen painoja päivitetään tuttuun tapaan suoritusten perusteella. Samalla ohjeita ”risteytetään” ja ”mutatoidaan” – käytännössä malli muotoilee niistä uusia versioita ja yhdistelee toimiviksi havaittuja kohtia. Parhaiten menestyneet ohjeet etenevät seuraavalle kierrokselle, heikommat karsiutuvat. Ohjeille pidetään kirjaa pelien taitopisteitä muistuttavalla arvosanalla (TrueSkill), joka päivittyy suhteellisen suoriutumisen perusteella jokaisessa erässä.

Tästä syntyy työn kirjoittajien mukaan luonteva työnjako: julistava, sääntökirjamainen tieto voi jäädä ohjeeseen, kun taas toimintatavat ja ”lihakset” hioutuvat mallin painoihin. Ajatusta voi havainnollistaa työpaikan perehdytyksellä. Uusi työntekijä oppii sekä lukemalla käsikirjaa että tekemällä töitä. Jos käsikirjaa päivitetään jatkuvasti sen mukaan, mikä todella auttaa onnistumaan, ja samalla työntekijä saa palautteen kautta parempia työtapoja, kehitys on nopeampaa kuin vain toista polkua pitkin.

Koska tekoälystä puhutaan, oleellista on näyttö. Menetelmä testattiin erilaisissa päättely- ja toimiaskareissa, joissa malli ratkoo ongelmia useassa vaiheessa. Yhdessä konkreettisessa kokeessa tarkasteltiin yleistymistä helpommista matemaattisista kilpailutehtävistä (AIME) vaikeampiin (BeyondAIME). Pelkkä vahvistusoppiminen nosti onnistumisprosentin 38,8:aan. Kun sen kylkeen lisättiin ohjeiden evoluutio E‑SPL-menetelmällä, tulos nousi 45,1:een. Se peittosi samalla toisen lähestymistavan, jossa malli muokkaa ohjeitaan itsetarkastelun kautta (40,0%). Tutkijoiden mukaan yhdistelmä toi myös johdonmukaista parannusta siihen, kuinka monella yrityksellä mallin tarvitsee löytää oikea ratkaisu – toisin sanoen oppiminen tehostui.

On tärkeää huomata, mitä nämä luvut kertovat ja mitä eivät. Nousu 38,8:sta 45,1:een on selvä, mutta ei mullistava. Lisäksi kyse on tietyistä tehtävistä ja tietyistä asetuksista: monia rinnakkaisia ohjeita täytyy pyörittää samaan aikaan, ja niiden välinen kilpailu sekä muokkaus vaativat huolellista toteutusta. Menetelmässä on monta liikkuvaa osaa – ohjeiden pituus ja tyyli, risteytyksen tapa, se miten suoritusta mitataan – ja jokainen niistä voi vaikuttaa lopputulokseen. Vaikka tutkijat raportoivat tehostunutta oppimista ja parempaa yleistymistä, ulkopuolinen vahvistus ja laajemmat testit eri tehtävissä ovat seuraava askel.

Toinen rajoite liittyy resursseihin. Koska ohjeita ajetaan rinnakkain, järjestelmä tekee käytännössä useita versiokokeita jokaisella oppimiskierroksella. Se on järkevä tapa löytää toimivia ratkaisuja, mutta voi kasvattaa laskennan tarvetta. Tutkimus ei pureudu yksityiskohtaisesti siihen, kuinka paljon lisätehoa tämä käytännössä vaatii erilaisissa ympäristöissä.

Silti ajatusleikkinä E‑SPL on kiehtova: se kohtelee ohjetta elävänä osana järjestelmää, ei staattisena tekstitiedostona. Kun ohjeet pisteytetään suhteessa toisiinsa ja hyviä muotoiluja lainataan eteenpäin, syntyy pieni evoluutioekosysteemi, joka pyörii käsi kädessä varsinaisen oppimisen kanssa. Tulos on kuin kaksoismoottori: sääntökirja paranee, mutta myös se, miten sääntöjä käytetään, terävöityy.

Käytännön esimerkki auttaa hahmottamaan ideaa ilman yhtälöitä. Kuvitellaan avustaja, joka auttaa viikonloppureissun suunnittelussa. Yhdessä versiossa ohje painottaa turvallisuutta ja budjettia, toisessa yllätyksellisyyttä ja paikallisia helmiä. Molemmilla perusohjeilla avustaja tekee ehdotuksia ja saa palautteen: onnistuiko aikataulu, oliko reitti järkevä? Parhaat piirteet eri ohjeista yhdistetään uuteen ohjeeseen, ja samalla avustajan sisäinen ”tatsi” reittien laatimiseen paranee kokemuksen myötä. Muutaman kierroksen jälkeen sekä ohje että avustaja ovat oppineet – kumpikin omalla tavallaan.

On houkuttelevaa julistaa, että tässä on uusi standardi tekoälyn kehittämiselle. Silti historian valossa varovaisuus kannattaa. Monet lupaavat tekniikat ovat loistaneet tietyissä kokeissa mutta karanneet käsistä käytännön sovelluksissa. Tässäkin menetelmässä on epävarmuuksia: miten hyvin ohjeiden kilpailu kestää aivan erilaisten tehtävien kirjoa, milloin ohjeesta tulee liian räätälöity tiettyihin testejin, ja kuinka herkkä järjestelmä on sattumanvaraisille variaatioille? Tutkimus tarjoaa avoimen lähdekoodin, joten vastauksia voi alkaa kertyä nopeasti, kun muut ryhmät toistavat kokeita.

Jos ohje ja oppija todella voivat kasvaa yhdessä, se saattaa muuttaa tapaa, jolla ajattelemme älykkäistä järjestelmistä: ei yhtenä möhkäleenä, jota aina vain koulutetaan lisää, vaan kaksikerroksisena kokonaisuutena, jossa kieli ja kyky tukevat toisiaan. Kysymys kuuluu: jos tekoälylle annettu sääntökirja voi kehittyä kuin laji evoluutiossa, millaisia ”hyviä tapoja” se alkaa suosia – ja kuka päättää, millaiset ohjeet saavat lisääntyä?

Paper: https://arxiv.org/abs/2602.14697v1

Register: https://www.AiFeta.com

tekoäly kielimallit vahvistusoppiminen tutkimus

Read more

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Kun hissi lähtee liikkeelle, ilmastointi säätää puhallusta tai robotti asettaa ruuvin paikalleen, taustalla on malli siitä, miten kone käyttäytyy. Niitä on perinteisesti rakennettu niin kuin hyviä reseptejä: asiantuntija kerää kokemusta, mittaa, kirjoittaa yhtälöitä ja virittää pitkään. Se vie aikaa – ja jokainen muutos laitteessa tai ympäristössä tarkoittaa uutta työtä. Viime vuosina

By Kari Jaaskelainen
Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Kun robotti-imuri hivuttautuu kotona lataustelakkaansa, kukaan ei pidä hetkeä ihmeenä. Veden alla sama temppu on kaikkea muuta kuin arkipäivää – näkyvyys on huono, virtaukset nykivät, eikä satelliittipaikannus auta. Silti juuri tähän suuntaan on otettu askel, joka voi venyttää vedenalaisten robottien toimintamatkaa ja -aikaa. Vuosia on ajateltu, että vedenalaisen telakoitumisen kaltaiset tehtävät

By Kari Jaaskelainen
Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Kaikki tietävät hetken, kun seisot punaisissa valoissa keskellä yötä, eikä mihinkään suuntaan näy autoja. Tai aamun, jolloin tavallinen risteys puuroutuu yllättäen, koska osa kuljettajista päättääkin kääntyä eri suuntaan kuin yleensä. Liikennevalot ovat sääntöjen koneita, mutta liikenne elää kuin säätila. Pitkään ratkaisuksi on ehdotettu ”älykkäitä” valoja, jotka oppivat liikenteestä ja säätävät

By Kari Jaaskelainen