Huipputulokset koetesteissä eivät vielä todista aidosta päättelystä
Kuvittele, että sinulle annetaan ohjelmointikirja kielellä, jota et ole koskaan nähnyt. Selailisit dokumentaatiota, kokeilisit esimerkkejä ja muuttaisit koodia, kunnes se toimii. Ihminen oppii näin varsin nopeasti uuden kielen alkeet. Mutta osaavatko myös tekoälymallit oppia uutta näin, vai toistavatko ne lähinnä asioita, joita ovat aiemmin nähneet?
Viime vuosina suuret kielimallit ovat kiivenneet kooditestien huipulle. Tulokset ovat olleet niin hyviä, että moni on tulkinnut ne merkiksi ”aidosta päättelystä”. Uusi arXivissa julkaistu työ kuitenkin asettaa tälle tulkinnalle vakavan vastakysymyksen: entä jos suurin osa pisteistä selittyy muistamisella – sillä, että malli on törmännyt samaan tai hyvin samankaltaiseen koodiin koulutusdatassaan?
Todisteeksi tekijät rakentavat erikoisen mutta oivaltavan kokeen. He käyttävät viittä niin sanottua esoteerista ohjelmointikieltä – Brainfuck, Befunge-98, Whitespace, Unlambda ja Shakespeare – kieliä, jotka on suunniteltu enemmän taiteellisiksi kummallisuuksiksi kuin käytännön työkaluiksi. Yksi niistä rakentaa ohjelmat pelkistä merkeistä kuten + ja -, toisessa ohjelma näyttää näytelmäkäsikirjoitukselta, jossa hahmojen repliikit muuttavat muuttujia. Vaikka ne ovat outoja, ne nojaavat samoihin peruspalikoihin kuin tavalliset kielet: toistoihin, ehtoihin ja muistiin.
Miksi juuri nämä kielet? Siksi, että niihin on maailmanlaajuisesti tarjolla murto-osa aineistosta verrattuna vaikkapa Pythoniin. Tekijät arvioivat GitHub-haun perusteella, että julkisia ohjelmavarastoja on näille kielille noin tuhannesta jopa satatuhanteen kertaisesti vähemmän kuin Pythonille. Toisin sanoen niistä ei ole ollut juuri hyötyä mallien esikoulutuksessa, joten ”testipeluu” – eli tuttujen tehtävien läpimeno puhtaasti muistin varassa – on vaikeaa.
Tämän lähtökohdan varaan rakennettiin uusi vertailu, EsoLang-Bench. Sen idea on yksinkertainen: malli saa käyttöönsä kielen dokumentaation, tulkin virheilmoituksineen ja mahdollisuuden yrittää uudelleen. Tavoite on mitata, kuinka hyvin malli oppii vieraan, mutta periaatteessa samanlaisen ajattelun vaatiman kielen, ei sitä, kuinka paljon se muistaa.
Tulokset ovat raittiita. Tekijöiden mukaan viisi johtavaa kielimallia, jotka yltävät tavallisissa kooditesteissä 85–95 prosentin tasolle, saivat esoteerisissa kielissä aikaiseksi vain 0–11 prosentin osumatarkkuuden. Kun tehtävät vaikeutuivat helppotasoa pidemmälle, osumatarkkuus valahti nollaan. Eikä tyypillinen oikopolku auttanut: tekniikat kuten muutaman esimerkin antaminen etukäteen tai mallin pyytäminen arvioimaan ja korjaamaan omaa vastaustaan eivät parantaneet tulosta. Tutkijoiden tulkinnan mukaan nämä keinot nojaavat nekin koulutuksessa opittuihin ennakkotietoihin – eivätkä avaa aitoa kykyä oppia uutta lennosta.
Konkreettinen esimerkki auttaa hahmottamaan eron. Jos ihminen saa käteensä Shakespeare-kielen ohjeen, hän lukee, että ”Romeo sanoo Julialle” ei ole vuorosana vaan käsky muuttaa muistia, ja että tiettyjen ilmausten yhdistelmät vastaavat laskutoimituksia. Hän kokeilee pientä ohjelmaa tulkissa, korjaa virheen, ja pian teksti tulostaa sanan halutussa muodossa. Sama vaatii mallilta kykyä yhdistellä dokumentaatiosta poimittuja sääntöjä, tulkita virheilmoitus ja muuttaa suunnitelmaa – ilman aiempaa altistusta kielen tavallisiin ratkaisuihin. Juuri tässä, tekijöiden mukaan, mallit nyt kompastuvat.
Mitä tästä pitäisi päätellä? Ensinnäkin, että korkea pistemäärä tutuissa koesarjoissa ei automaattisesti kerro päättelystä, joka siirtyy uusiin ja yllättäviin tilanteisiin. Toiseksi, että on mahdollista suunnitella testejä, jotka vastustavat datavuotoa: jos tehtävässä käytetty muotokieli on koulutusdatassa lähes näkymätön, mallin on pakko raapia kasaan ratkaisu dokumentaatiosta ja yrityksen ja erehdyksen kautta.
Rajoituksiakin on syytä punnita. Esoteeriset kielet ovat tarkoituksella kummallisia. Vaikka ne vaativat samoja ajattelun peruspalikoita kuin arkipäiväiset kielet, ne eivät ehkä mittaa aivan sitä, mitä ohjelmoijat työssään tarvitsevat. Lisäksi kukaan ei voi varmuudella tietää, mitä koulutusdata on sisältänyt; GitHub-haku on suuntaa antava mittari, ei todiste täydellisestä puhtaudesta. On myös mahdollista, että mallien heikkous selittää osin tämänhetkinen käyttötapa: mallit eivät ole vielä hyviä oppimaan interaktiivisesti dokumentaatiosta ja työkalujen palautteesta – taito, jota ihmiset harjoittelevat koko ajan.
Silti esitys on tervetullut muistutus: kun mallien suorituskyky lähenee ”kattoa” tutuissa testeissä, itse testi menettää kyvyn erotella. Tarvitaan tehtäviä, joissa malli ei voi nojata muistivarastoonsa. EsoLang-Bench on yksi ehdotus koodimaailmaan. Samaa ajatusta voisi soveltaa myös muilla aloilla: voiko malli oppia vieraan kirjaston, uuden viitekehyksen tai oudossa muodossa annetun ohjeen pelkän kuvauksen ja palautteen avulla?
Jos tavoitteena on tekoäly, joka ei vain muista vaan myös ymmärtää, ydinkysymys kuuluu: millaiset koetilanteet todella pakottavat mallit ajattelemaan – ja miten opettaisimme niille saman taidon, jonka ihminen omaksuu selaamalla ohjeen, kokeilemalla ja korjaamalla?
Paper: https://arxiv.org/abs/2603.09678v1
Register: https://www.AiFeta.com
tekoäly ohjelmointi tutkimus kielimallit arxiv