Höttö ei enää hämäytä tekoälyä esseekokeissa
Huolellisesti suunniteltu kielimalliin nojaava pisteytys rankaisee jaarittelusta ja aiheen sivuuttamisesta – ja voi siten olla aiempia konearvioijia reilumpi.
Kuvittele tekevänsä verkkokurssin koetta. Kysymys pyytää lyhyttä, perusteltua vastausta. Aika loppuu, ja mieleen hiipii vanha niksi: lisätään vähän täytelauseita, kopioidaan yksi kappale uudelleen, näytetään siltä, että on nähty vaivaa. Ehkä konepisteyttäjä nielee sen.
Vuosien ajan juuri tätä on pelätty – ja usein perustellusti. Aiemmat automaattiset esseearvioijat antoivat herkästi lisäpisteitä pituudesta, vaikeista sanoista ja muista seikoista, joilla ei ollut juuri mitään tekemistä itse tehtävän ytimen kanssa. Niillä mitattiin sitä, mikä oli kätevää, ei sitä, mikä oli olennaista.
Tuore arXiv-arkistossa julkaistu tutkimus tarjoaa kuitenkin valonpilkahduksen: kun arviointi rakennetaan suurten kielimallien varaan ja sen suunnittelussa pidetään tiukasti mielessä, mitä todella halutaan mitata, halvat temput eivät näytä tehoavan entiseen tapaan.
Tutkijat Cole Walsh ja Rodica Ivan tarkastelivat järjestelmää, joka pisteytti lyhyitä, esseemäisiä vastauksia niin sanotussa tilanteiden arviointikokeessa. Tällaisissa tehtävissä vastaaja kertoo omin sanoin, miten toimisi tietyssä arjen tai työn tilanteessa ja miksi. Tarkoitus on arvioida harkintaa ja perustelukykyä – ei kaunokirjallista taituruutta.
Ryhmän havainnot olivat ytimekkäät. Ensinnäkin vastaukseen lisätty merkityksetön täyteteksti ei keskimäärin kohottanut pisteitä. Kirjoitusvirheetkään eivät juuri horjuttaneet arviota. Myöskään kielen koukeroisuus – se, että teksti "kuulostaa hienolta" – ei tuottanut etua.
Vielä kiinnostavampaa on, mitä tapahtui, kun vastauksesta tehtiin näennäisesti vaikuttavampi silkalla toistolla. Aiemmissa, kielimalleja edeltäneissä järjestelmissä pitkät pätkät kertaavaa tekstiä saattoi yllättäen nostaa pisteitä. Nyt kävi päinvastoin: saman kappaleen kopiointi laski pisteitä keskimäärin. Toisin sanoen järjestelmä näytti tunnistavan, että toisto ei tuo uutta asiaa.
Ja jos vastaus lähti kokonaan sivuraiteille, seuraus oli selvä. Aiheen vierestä kirjoittaminen rankaistiin ankarasti. Tässä ei ole mitään yllättävää ihmisarvioijille, mutta koneille tämä on ollut aiemmin vaikeaa: ne ovat helposti tarttuneet pinnallisiin yhtäläisyyksiin sen sijaan, että olisivat arvioineet vastausten sisällöllistä osuvuutta.
Konkreettinen esimerkki auttaa. Ajatellaan kysymystä: "Miten toimisit, jos tiimissäsi syntyy jännite kahden kollegan välille?" Vanhaa koulukuntaa edustava konepisteyttäjä saattoi palkita pitkän, koristeellisen tekstin, jossa vilisee johtamiseen viittaavia sanoja, vaikka vastaus ei koskaan kertoisi, mitä kirjoittaja oikeasti tekisi. Nyt tutkittu järjestelmä ei tällaisesta hätkähdä. Jos vastaus pysyy asiassa – kuvaa lyhyesti ja selkeästi, miten kuuntelisi osapuolet, sopisi jatkosta ja seuraisi tilannetta – se menestyy. Jos se taas eksyy puhumaan esimerkiksi yrityskulttuurin historiasta tai toistaa saman kappaleen kahdesti, pisteet putoavat.
On houkuttelevaa julistaa ongelma ratkaistuksi. Silti viileä pää on paikallaan. Tutkimus käsitteli yhtä, nimenomaan tähän tarkoitukseen suunniteltua kielimallipohjaista pisteyttintä ja yhtä tehtävätyyppiä: lyhyitä vastauksia tilanteiden arviointikokeessa. Tuloksia ei voi mekaanisesti yleistää pitkiin esseisiin, muihin koemuotoihin tai toisiin järjestelmiin.
Lisäksi järjestelmän kestävyys todettiin tiettyjä, yleisiä kikkailun muotoja vastaan: täyte, kirjoitusvirheet, kielen näennäinen hienostuneisuus, toisto ja aiheen sivuuttaminen. Maailma on kuitenkin täynnä luovia testinkiertäjiä. On mahdollista, että vielä ovelammat keinot – esimerkiksi näennäisen relevantit mutta sisällöttömät johtopäätökset – voisivat hämäyttää myös tätä lähestymistapaa. Tutkimus ei myöskään ota kantaa muihin tärkeisiin kysymyksiin, kuten siihen, arvioiko järjestelmä oikeudenmukaisesti eri taustoista tulevien kirjoittajien vastauksia.
Silti suunta on merkittävä. Jos automaattinen pisteytys alkaa aidosti palkita asiaa eikä muotoa, se voi vähentää tarvetta "pelata järjestelmää" ja vapauttaa sekä opettajien että opiskelijoiden aikaa. Se voi myös tehdä arvioinnista ennustettavampaa: jos tiedetään, että täyte ei auta, panos siirtyy sisältöön. Jotta tämä toteutuisi, järjestelmien suunnittelussa on pidettävä koko ajan mielessä kysymys, jota tutkijatkin painottavat: mitataanko sitä, mikä on olennaista, vai sitä, mikä on helpointa mitata?
Teknologian historia opettaa, että työkalut muokkaavat myös tapaa, jolla niitä käytetään. Jos kielimalleihin nojaava pisteytys yleistyy ja näyttää suuntaa sille, millainen teksti on "hyvää", se voi vaikuttaa opetukseen, viestintään ja siihen, mitä pidämme vakuuttavana. Siksi kysymys ei ole vain tekniikasta, vaan myös arvoista ja läpinäkyvyydestä. Millaisin pelisäännöin varmistamme, että kone mittaa sitä, mitä oikeasti pidämme tärkeänä – ja että ihmisellä on aina mahdollisuus tulla kuulluksi, jos kone on väärässä?
Paper: https://arxiv.org/abs/2603.25674v1
Register: https://www.AiFeta.com
koulutus tekoäly arviointi kielimallit tutkimus arXiv