Tekoäly oppii paremmin, kun sen "käyttöohjetta" kehitetään yhtä aikaa sen kanssa

Tekoäly oppii paremmin, kun sen "käyttöohjetta" kehitetään yhtä aikaa sen kanssa

Kuka tahansa ChatGPT:tä kokeillut tietää, että muutama sana alkuun – ”ole tiukka opettaja” tai ”kuvittele olevasi juristi” – muuttaa vastausten tyyliä ja usein myös laatua. Tekoälyä voi siis ohjata kahdella tavalla: kouluttamalla sen sisuskaluja tai antamalla sille paremmat lähtöohjeet. Uusi tutkimus ehdottaa, että näitä kahta kannattaa tehdä yhtä aikaa.

Perinteinen ajattelu on ollut kaksijakoinen. Joko hienosäädetään mallin ”painoja” eli sen sisäisiä asetuksia, usein vahvistusoppimisella, jossa malli oppii yrityksen ja erehdyksen kautta. Tai sitten parannetaan kehysohjetta – sitä ensimmäistä, yleistä ohjetekstiä, joka kertoo mallille, millainen rooli sillä on ja miten sen odotetaan toimivan. Nyt tutkijat esittävät, että ohjetta ei pidä nähdä kertakäyttöisenä lapukkeena, vaan osana oppivaa järjestelmää, joka voi itsekin kehittyä.

ArXivissa julkaistussa työssä esitellään menetelmä nimeltä Evolutionary System Prompt Learning (E‑SPL). Sen perusajatus on arkijärkinen: annetaan tekoälylle monta erilaista lähtöohjetta, pannaan ne kilpailemaan rinnakkain, ja annetaan sekä mallin sisäisten asetusten että itse ohjeiden parantua kierros kierrokselta. Kun malli tekee tehtäviä, sen painoja päivitetään tuttuun tapaan suoritusten perusteella. Samalla ohjeita ”risteytetään” ja ”mutatoidaan” – käytännössä malli muotoilee niistä uusia versioita ja yhdistelee toimiviksi havaittuja kohtia. Parhaiten menestyneet ohjeet etenevät seuraavalle kierrokselle, heikommat karsiutuvat. Ohjeille pidetään kirjaa pelien taitopisteitä muistuttavalla arvosanalla (TrueSkill), joka päivittyy suhteellisen suoriutumisen perusteella jokaisessa erässä.

Tästä syntyy työn kirjoittajien mukaan luonteva työnjako: julistava, sääntökirjamainen tieto voi jäädä ohjeeseen, kun taas toimintatavat ja ”lihakset” hioutuvat mallin painoihin. Ajatusta voi havainnollistaa työpaikan perehdytyksellä. Uusi työntekijä oppii sekä lukemalla käsikirjaa että tekemällä töitä. Jos käsikirjaa päivitetään jatkuvasti sen mukaan, mikä todella auttaa onnistumaan, ja samalla työntekijä saa palautteen kautta parempia työtapoja, kehitys on nopeampaa kuin vain toista polkua pitkin.

Koska tekoälystä puhutaan, oleellista on näyttö. Menetelmä testattiin erilaisissa päättely- ja toimiaskareissa, joissa malli ratkoo ongelmia useassa vaiheessa. Yhdessä konkreettisessa kokeessa tarkasteltiin yleistymistä helpommista matemaattisista kilpailutehtävistä (AIME) vaikeampiin (BeyondAIME). Pelkkä vahvistusoppiminen nosti onnistumisprosentin 38,8:aan. Kun sen kylkeen lisättiin ohjeiden evoluutio E‑SPL-menetelmällä, tulos nousi 45,1:een. Se peittosi samalla toisen lähestymistavan, jossa malli muokkaa ohjeitaan itsetarkastelun kautta (40,0%). Tutkijoiden mukaan yhdistelmä toi myös johdonmukaista parannusta siihen, kuinka monella yrityksellä mallin tarvitsee löytää oikea ratkaisu – toisin sanoen oppiminen tehostui.

On tärkeää huomata, mitä nämä luvut kertovat ja mitä eivät. Nousu 38,8:sta 45,1:een on selvä, mutta ei mullistava. Lisäksi kyse on tietyistä tehtävistä ja tietyistä asetuksista: monia rinnakkaisia ohjeita täytyy pyörittää samaan aikaan, ja niiden välinen kilpailu sekä muokkaus vaativat huolellista toteutusta. Menetelmässä on monta liikkuvaa osaa – ohjeiden pituus ja tyyli, risteytyksen tapa, se miten suoritusta mitataan – ja jokainen niistä voi vaikuttaa lopputulokseen. Vaikka tutkijat raportoivat tehostunutta oppimista ja parempaa yleistymistä, ulkopuolinen vahvistus ja laajemmat testit eri tehtävissä ovat seuraava askel.

Toinen rajoite liittyy resursseihin. Koska ohjeita ajetaan rinnakkain, järjestelmä tekee käytännössä useita versiokokeita jokaisella oppimiskierroksella. Se on järkevä tapa löytää toimivia ratkaisuja, mutta voi kasvattaa laskennan tarvetta. Tutkimus ei pureudu yksityiskohtaisesti siihen, kuinka paljon lisätehoa tämä käytännössä vaatii erilaisissa ympäristöissä.

Silti ajatusleikkinä E‑SPL on kiehtova: se kohtelee ohjetta elävänä osana järjestelmää, ei staattisena tekstitiedostona. Kun ohjeet pisteytetään suhteessa toisiinsa ja hyviä muotoiluja lainataan eteenpäin, syntyy pieni evoluutioekosysteemi, joka pyörii käsi kädessä varsinaisen oppimisen kanssa. Tulos on kuin kaksoismoottori: sääntökirja paranee, mutta myös se, miten sääntöjä käytetään, terävöityy.

Käytännön esimerkki auttaa hahmottamaan ideaa ilman yhtälöitä. Kuvitellaan avustaja, joka auttaa viikonloppureissun suunnittelussa. Yhdessä versiossa ohje painottaa turvallisuutta ja budjettia, toisessa yllätyksellisyyttä ja paikallisia helmiä. Molemmilla perusohjeilla avustaja tekee ehdotuksia ja saa palautteen: onnistuiko aikataulu, oliko reitti järkevä? Parhaat piirteet eri ohjeista yhdistetään uuteen ohjeeseen, ja samalla avustajan sisäinen ”tatsi” reittien laatimiseen paranee kokemuksen myötä. Muutaman kierroksen jälkeen sekä ohje että avustaja ovat oppineet – kumpikin omalla tavallaan.

On houkuttelevaa julistaa, että tässä on uusi standardi tekoälyn kehittämiselle. Silti historian valossa varovaisuus kannattaa. Monet lupaavat tekniikat ovat loistaneet tietyissä kokeissa mutta karanneet käsistä käytännön sovelluksissa. Tässäkin menetelmässä on epävarmuuksia: miten hyvin ohjeiden kilpailu kestää aivan erilaisten tehtävien kirjoa, milloin ohjeesta tulee liian räätälöity tiettyihin testejin, ja kuinka herkkä järjestelmä on sattumanvaraisille variaatioille? Tutkimus tarjoaa avoimen lähdekoodin, joten vastauksia voi alkaa kertyä nopeasti, kun muut ryhmät toistavat kokeita.

Jos ohje ja oppija todella voivat kasvaa yhdessä, se saattaa muuttaa tapaa, jolla ajattelemme älykkäistä järjestelmistä: ei yhtenä möhkäleenä, jota aina vain koulutetaan lisää, vaan kaksikerroksisena kokonaisuutena, jossa kieli ja kyky tukevat toisiaan. Kysymys kuuluu: jos tekoälylle annettu sääntökirja voi kehittyä kuin laji evoluutiossa, millaisia ”hyviä tapoja” se alkaa suosia – ja kuka päättää, millaiset ohjeet saavat lisääntyä?

Paper: https://arxiv.org/abs/2602.14697v1

Register: https://www.AiFeta.com

tekoäly kielimallit vahvistusoppiminen tutkimus

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen