Huipputulokset koetesteissä eivät vielä todista aidosta päättelystä

Share
Huipputulokset koetesteissä eivät vielä todista aidosta päättelystä

Kuvittele, että sinulle annetaan ohjelmointikirja kielellä, jota et ole koskaan nähnyt. Selailisit dokumentaatiota, kokeilisit esimerkkejä ja muuttaisit koodia, kunnes se toimii. Ihminen oppii näin varsin nopeasti uuden kielen alkeet. Mutta osaavatko myös tekoälymallit oppia uutta näin, vai toistavatko ne lähinnä asioita, joita ovat aiemmin nähneet?

Viime vuosina suuret kielimallit ovat kiivenneet kooditestien huipulle. Tulokset ovat olleet niin hyviä, että moni on tulkinnut ne merkiksi ”aidosta päättelystä”. Uusi arXivissa julkaistu työ kuitenkin asettaa tälle tulkinnalle vakavan vastakysymyksen: entä jos suurin osa pisteistä selittyy muistamisella – sillä, että malli on törmännyt samaan tai hyvin samankaltaiseen koodiin koulutusdatassaan?

Todisteeksi tekijät rakentavat erikoisen mutta oivaltavan kokeen. He käyttävät viittä niin sanottua esoteerista ohjelmointikieltä – Brainfuck, Befunge-98, Whitespace, Unlambda ja Shakespeare – kieliä, jotka on suunniteltu enemmän taiteellisiksi kummallisuuksiksi kuin käytännön työkaluiksi. Yksi niistä rakentaa ohjelmat pelkistä merkeistä kuten + ja -, toisessa ohjelma näyttää näytelmäkäsikirjoitukselta, jossa hahmojen repliikit muuttavat muuttujia. Vaikka ne ovat outoja, ne nojaavat samoihin peruspalikoihin kuin tavalliset kielet: toistoihin, ehtoihin ja muistiin.

Miksi juuri nämä kielet? Siksi, että niihin on maailmanlaajuisesti tarjolla murto-osa aineistosta verrattuna vaikkapa Pythoniin. Tekijät arvioivat GitHub-haun perusteella, että julkisia ohjelmavarastoja on näille kielille noin tuhannesta jopa satatuhanteen kertaisesti vähemmän kuin Pythonille. Toisin sanoen niistä ei ole ollut juuri hyötyä mallien esikoulutuksessa, joten ”testipeluu” – eli tuttujen tehtävien läpimeno puhtaasti muistin varassa – on vaikeaa.

Tämän lähtökohdan varaan rakennettiin uusi vertailu, EsoLang-Bench. Sen idea on yksinkertainen: malli saa käyttöönsä kielen dokumentaation, tulkin virheilmoituksineen ja mahdollisuuden yrittää uudelleen. Tavoite on mitata, kuinka hyvin malli oppii vieraan, mutta periaatteessa samanlaisen ajattelun vaatiman kielen, ei sitä, kuinka paljon se muistaa.

Tulokset ovat raittiita. Tekijöiden mukaan viisi johtavaa kielimallia, jotka yltävät tavallisissa kooditesteissä 85–95 prosentin tasolle, saivat esoteerisissa kielissä aikaiseksi vain 0–11 prosentin osumatarkkuuden. Kun tehtävät vaikeutuivat helppotasoa pidemmälle, osumatarkkuus valahti nollaan. Eikä tyypillinen oikopolku auttanut: tekniikat kuten muutaman esimerkin antaminen etukäteen tai mallin pyytäminen arvioimaan ja korjaamaan omaa vastaustaan eivät parantaneet tulosta. Tutkijoiden tulkinnan mukaan nämä keinot nojaavat nekin koulutuksessa opittuihin ennakkotietoihin – eivätkä avaa aitoa kykyä oppia uutta lennosta.

Konkreettinen esimerkki auttaa hahmottamaan eron. Jos ihminen saa käteensä Shakespeare-kielen ohjeen, hän lukee, että ”Romeo sanoo Julialle” ei ole vuorosana vaan käsky muuttaa muistia, ja että tiettyjen ilmausten yhdistelmät vastaavat laskutoimituksia. Hän kokeilee pientä ohjelmaa tulkissa, korjaa virheen, ja pian teksti tulostaa sanan halutussa muodossa. Sama vaatii mallilta kykyä yhdistellä dokumentaatiosta poimittuja sääntöjä, tulkita virheilmoitus ja muuttaa suunnitelmaa – ilman aiempaa altistusta kielen tavallisiin ratkaisuihin. Juuri tässä, tekijöiden mukaan, mallit nyt kompastuvat.

Mitä tästä pitäisi päätellä? Ensinnäkin, että korkea pistemäärä tutuissa koesarjoissa ei automaattisesti kerro päättelystä, joka siirtyy uusiin ja yllättäviin tilanteisiin. Toiseksi, että on mahdollista suunnitella testejä, jotka vastustavat datavuotoa: jos tehtävässä käytetty muotokieli on koulutusdatassa lähes näkymätön, mallin on pakko raapia kasaan ratkaisu dokumentaatiosta ja yrityksen ja erehdyksen kautta.

Rajoituksiakin on syytä punnita. Esoteeriset kielet ovat tarkoituksella kummallisia. Vaikka ne vaativat samoja ajattelun peruspalikoita kuin arkipäiväiset kielet, ne eivät ehkä mittaa aivan sitä, mitä ohjelmoijat työssään tarvitsevat. Lisäksi kukaan ei voi varmuudella tietää, mitä koulutusdata on sisältänyt; GitHub-haku on suuntaa antava mittari, ei todiste täydellisestä puhtaudesta. On myös mahdollista, että mallien heikkous selittää osin tämänhetkinen käyttötapa: mallit eivät ole vielä hyviä oppimaan interaktiivisesti dokumentaatiosta ja työkalujen palautteesta – taito, jota ihmiset harjoittelevat koko ajan.

Silti esitys on tervetullut muistutus: kun mallien suorituskyky lähenee ”kattoa” tutuissa testeissä, itse testi menettää kyvyn erotella. Tarvitaan tehtäviä, joissa malli ei voi nojata muistivarastoonsa. EsoLang-Bench on yksi ehdotus koodimaailmaan. Samaa ajatusta voisi soveltaa myös muilla aloilla: voiko malli oppia vieraan kirjaston, uuden viitekehyksen tai oudossa muodossa annetun ohjeen pelkän kuvauksen ja palautteen avulla?

Jos tavoitteena on tekoäly, joka ei vain muista vaan myös ymmärtää, ydinkysymys kuuluu: millaiset koetilanteet todella pakottavat mallit ajattelemaan – ja miten opettaisimme niille saman taidon, jonka ihminen omaksuu selaamalla ohjeen, kokeilemalla ja korjaamalla?

Paper: https://arxiv.org/abs/2603.09678v1

Register: https://www.AiFeta.com

tekoäly ohjelmointi tutkimus kielimallit arxiv

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen