Parempi tulos syntyy, kun tekoäly yrittää samaa tehtävää monta kertaa

Parempi tulos syntyy, kun tekoäly yrittää samaa tehtävää monta kertaa

Kuvittele valmentavasi abiturienttia. Onko järkevämpää teettää hänellä nopeasti sata erilaista laskua, vai pysäyttää hänet viiden samanlaisen äärelle niin, että hän kokeilee eri tapoja ja oppii virheistään? Sama valinta vaivaa myös tekoälyn kouluttajia – vain että ”yritykset” maksavat rahaa ja sähköä.

Suuret kielimallit opetetaan ensin valtavilla tekstimäärillä. Sen jälkeen niitä hiotaan vaiheessa, jossa malli oppii yrityksen ja erehdyksen kautta tuottamaan vastauksia, joista palkitaan ja joista rangaistaan. Tämä jälkikoulutus on osoittautunut tehokkaaksi, mutta yksi käytännön kysymys on jäänyt auki: miten rajallinen laskentateho kannattaa käyttää? Pitäisikö mallille antaa paljon erilaisia tehtäviä, vai syventää oppimista kokeilemalla samaa tehtävää useita kertoja rinnakkain? Ja kuinka monta kierrosta koulutusta ylipäätään kannattaa tehdä?

Uusi arXivissa julkaistu analyysi ehdottaa yksinkertaista, mutta yllättävän johdonmukaista vastausta. Kun laskentabudjetti kasvaa, paras tapa käyttää se on pitkälle asti lisätä rinnakkaisia yrityksiä samaa tehtävää kohti – kunnes hyödyt tasaantuvat. Tämä pätee sekä helppoihin että vaikeisiin ongelmiin, joskin eri syistä. Samalla havaitaan, että sillä, kuinka monta erilaista tehtävää käsitellään kerralla, on lähinnä vaikutusta koulutuksen vakauteen, ei niinkään lopputulokseen, kunhan määrä pysyy kohtuullisella välillä.

Taustalla on käytännön optimointiongelma. Jälkikoulutuksessa malli tuottaa itse ehdotuksiaan ja saa niistä palautetta. Jokainen yritys kuluttaa laskentaa. Tutkijat kehystävät tilanteen kolmen säätönupin väliseksi valinnaksi: 1) montako rinnakkaista ratkaisuyritystä tehdään per tehtävä, 2) montako tehtävää otetaan käsittelyyn yhdessä erässä ja 3) montako päivityskertaa koulutusta ajetaan. Näiden välillä jaetaan laskentabudjetti. Tavoitteena ei ole enimmäistehoa laboratoriossa, vaan paras mahdollinen tulos annetulla rahalla ja ajalla.

Keskeinen tulos on, että rinnakkaisten yritysten määrää per tehtävä kannattaa kasvattaa budjetin mukana, mutta jossain vaiheessa lisähyöty kutistuu. Miksi? Helpoissa tehtävissä useat yritykset auttavat mallioppijaa hiomaan jo keksimäänsä ratkaisua: se oppii tekemään saman oikein useammin ja varmemmin. Vaikeissa tehtävissä monen yrityksen idea on toinen: ne laajentavat etsintää. Kun mallille annetaan lupaa kokeilla useita eri lähestymistapoja yhtä aikaa, se todennäköisemmin törmää toimivaan polkuun edes kerran – ja oppii siitä.

Arkipäiväinen esimerkki auttaa. Ajatellaan kielimallia, jota opetetaan ratkaisemaan sanallisia matematiikkatehtäviä palkkion avulla. Yhdellä budjetilla voimme näyttää sille sata tehtävää ja hyväksyä yhden yrityksen per tehtävä. Toisella budjetilla näytämme samat tehtävät, mutta sallimme viisi yritystä jokaiseen – malli voi siis kokeilla vaikkapa eri järjestyksessä eteneviä ratkaisuketjuja. Ensimmäisessä vaihtoehdossa malli näkee paljon, mutta oppii jokaisesta pinnallisesti. Jälkimmäisessä se oppii vähemmästä enemmän: helppoihin tehtäviin se vahvistaa rutiiniaan, vaikeissa se löytää edes yhden toimivan oivalluksen, jota voi vahvistaa.

Analyysin mukaan monen yrityksen taktiikalla on vielä yksi etu: se vähentää ristivetoa eri tehtävien välillä. Kun tekoäly yrittää oppia monta asiaa yhtä aikaa, eri tehtävät voivat vetää mallia eri suuntiin. Useat yritykset per tehtävä selkeyttävät palautetta: mallin on helpompi päätellä, mikä osa sen toiminnasta oli oikeasti hyvää ja mikä huonoa, kun peilauspintaa on enemmän kuin yksi näyte.

Entä kuinka monta erilaista tehtävää kannattaa käsitellä kerralla? Tutkijat raportoivat, että tämä vaikuttaa etenkin koulutuksen vakauteen – siihen, kuinka tasaisesti oppiminen etenee ilman häiriöitä – mutta oikean haarukan sisällä valinta ei ole yhtä herkkä kuin yritysten määrä per tehtävä. Toisin sanoen tämän säätönupin asennolla on varaa liikkua ilman, että tulos kärsii ratkaisevasti.

Tärkeää on, että havainnot toistuivat, kun perusmalli ja opetusaineisto vaihtuivat. Se antaa viitteitä siitä, että kyse ei ole yksittäisen järjestelmän tempusta, vaan laajemmasta säännöstä: jälkikoulutuksen ”skaalaussäännöt” voi muotoilla käytännön ohjeiksi siitä, mihin laskentaa kannattaa laittaa.

On silti syytä olla tarkkana, mitä väitetään ja mitä ei. Tulokset koskevat nimenomaan menetelmää, jossa malli oppii omista yrityksistään saatavan palautteen avulla; toisenlaiset koulutustavat voivat käyttäytyä eri tavalla. Tutkimus tarkastelee erityisesti sitä, miten laskenta käytetään yritysten tuottamiseen ja päivittämiseen, ei esimerkiksi koko järjestelmän muita pullonkauloja, kuten muistin tai viiveen rajoja. Lisäksi vaikka suunta on selvä – lisää yrityksiä auttaa, kunnes hyödyt tasaantuvat – tarkka kohta, jossa lisäyrityksistä tulee turhia, riippuu sekä tehtävistä että mallista. Tutkijat eivät tarjoa yhtä maagista numeroa, joka pätee kaikkialla.

Silti viesti on käytännöllinen. Kun tekoälyjen koulutusbudjetit paisuvat ja sähkölasku kipuaa, se, miten yritykset jaetaan syvyyden (monta yritystä samaan asiaan) ja leveyden (monta eri asiaa) välillä, ei ole sivuseikka vaan ydinkysymys. Jos analyysi pitää, monen laboratorion kannattaa kääntää vipujaan: vähemmän kiire oppia kaikkea kerralla, enemmän kärsivällisyyttä yrittää samaa asiaa useaan otteeseen – mutta ei loputtomiin.

Lopulta ohje muistuttaa yllättävän paljon ihmisoppimisen vanhoja viisauksia. Harjoittele samaa taitoa usealla tavalla, pysähdy korjaamaan virheesi, ja vaihtele lähestymistapaa vaikean kohdan äärellä. Jos se tekee koneista tehokkaampia oppijoita, miksei se ohjaisi myös meitä? Ja kun annamme koneille lisää mahdollisuuksia ”yrittää”, kuinka pitkälle haluamme viedä niiden etsinnän – ja kuka päättää, milloin on yritetty tarpeeksi?

Paper: https://arxiv.org/abs/2603.12151v1

Register: https://www.AiFeta.com

tekoäly koneoppiminen LLM vahvistusoppiminen laskentateho tutkimus

Read more

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Kun hissi lähtee liikkeelle, ilmastointi säätää puhallusta tai robotti asettaa ruuvin paikalleen, taustalla on malli siitä, miten kone käyttäytyy. Niitä on perinteisesti rakennettu niin kuin hyviä reseptejä: asiantuntija kerää kokemusta, mittaa, kirjoittaa yhtälöitä ja virittää pitkään. Se vie aikaa – ja jokainen muutos laitteessa tai ympäristössä tarkoittaa uutta työtä. Viime vuosina

By Kari Jaaskelainen
Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Kun robotti-imuri hivuttautuu kotona lataustelakkaansa, kukaan ei pidä hetkeä ihmeenä. Veden alla sama temppu on kaikkea muuta kuin arkipäivää – näkyvyys on huono, virtaukset nykivät, eikä satelliittipaikannus auta. Silti juuri tähän suuntaan on otettu askel, joka voi venyttää vedenalaisten robottien toimintamatkaa ja -aikaa. Vuosia on ajateltu, että vedenalaisen telakoitumisen kaltaiset tehtävät

By Kari Jaaskelainen
Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Kaikki tietävät hetken, kun seisot punaisissa valoissa keskellä yötä, eikä mihinkään suuntaan näy autoja. Tai aamun, jolloin tavallinen risteys puuroutuu yllättäen, koska osa kuljettajista päättääkin kääntyä eri suuntaan kuin yleensä. Liikennevalot ovat sääntöjen koneita, mutta liikenne elää kuin säätila. Pitkään ratkaisuksi on ehdotettu ”älykkäitä” valoja, jotka oppivat liikenteestä ja säätävät

By Kari Jaaskelainen