Höttö ei enää hämäytä tekoälyä esseekokeissa

Höttö ei enää hämäytä tekoälyä esseekokeissa

Huolellisesti suunniteltu kielimalliin nojaava pisteytys rankaisee jaarittelusta ja aiheen sivuuttamisesta – ja voi siten olla aiempia konearvioijia reilumpi.

Kuvittele tekevänsä verkkokurssin koetta. Kysymys pyytää lyhyttä, perusteltua vastausta. Aika loppuu, ja mieleen hiipii vanha niksi: lisätään vähän täytelauseita, kopioidaan yksi kappale uudelleen, näytetään siltä, että on nähty vaivaa. Ehkä konepisteyttäjä nielee sen.

Vuosien ajan juuri tätä on pelätty – ja usein perustellusti. Aiemmat automaattiset esseearvioijat antoivat herkästi lisäpisteitä pituudesta, vaikeista sanoista ja muista seikoista, joilla ei ollut juuri mitään tekemistä itse tehtävän ytimen kanssa. Niillä mitattiin sitä, mikä oli kätevää, ei sitä, mikä oli olennaista.

Tuore arXiv-arkistossa julkaistu tutkimus tarjoaa kuitenkin valonpilkahduksen: kun arviointi rakennetaan suurten kielimallien varaan ja sen suunnittelussa pidetään tiukasti mielessä, mitä todella halutaan mitata, halvat temput eivät näytä tehoavan entiseen tapaan.

Tutkijat Cole Walsh ja Rodica Ivan tarkastelivat järjestelmää, joka pisteytti lyhyitä, esseemäisiä vastauksia niin sanotussa tilanteiden arviointikokeessa. Tällaisissa tehtävissä vastaaja kertoo omin sanoin, miten toimisi tietyssä arjen tai työn tilanteessa ja miksi. Tarkoitus on arvioida harkintaa ja perustelukykyä – ei kaunokirjallista taituruutta.

Ryhmän havainnot olivat ytimekkäät. Ensinnäkin vastaukseen lisätty merkityksetön täyteteksti ei keskimäärin kohottanut pisteitä. Kirjoitusvirheetkään eivät juuri horjuttaneet arviota. Myöskään kielen koukeroisuus – se, että teksti "kuulostaa hienolta" – ei tuottanut etua.

Vielä kiinnostavampaa on, mitä tapahtui, kun vastauksesta tehtiin näennäisesti vaikuttavampi silkalla toistolla. Aiemmissa, kielimalleja edeltäneissä järjestelmissä pitkät pätkät kertaavaa tekstiä saattoi yllättäen nostaa pisteitä. Nyt kävi päinvastoin: saman kappaleen kopiointi laski pisteitä keskimäärin. Toisin sanoen järjestelmä näytti tunnistavan, että toisto ei tuo uutta asiaa.

Ja jos vastaus lähti kokonaan sivuraiteille, seuraus oli selvä. Aiheen vierestä kirjoittaminen rankaistiin ankarasti. Tässä ei ole mitään yllättävää ihmisarvioijille, mutta koneille tämä on ollut aiemmin vaikeaa: ne ovat helposti tarttuneet pinnallisiin yhtäläisyyksiin sen sijaan, että olisivat arvioineet vastausten sisällöllistä osuvuutta.

Konkreettinen esimerkki auttaa. Ajatellaan kysymystä: "Miten toimisit, jos tiimissäsi syntyy jännite kahden kollegan välille?" Vanhaa koulukuntaa edustava konepisteyttäjä saattoi palkita pitkän, koristeellisen tekstin, jossa vilisee johtamiseen viittaavia sanoja, vaikka vastaus ei koskaan kertoisi, mitä kirjoittaja oikeasti tekisi. Nyt tutkittu järjestelmä ei tällaisesta hätkähdä. Jos vastaus pysyy asiassa – kuvaa lyhyesti ja selkeästi, miten kuuntelisi osapuolet, sopisi jatkosta ja seuraisi tilannetta – se menestyy. Jos se taas eksyy puhumaan esimerkiksi yrityskulttuurin historiasta tai toistaa saman kappaleen kahdesti, pisteet putoavat.

On houkuttelevaa julistaa ongelma ratkaistuksi. Silti viileä pää on paikallaan. Tutkimus käsitteli yhtä, nimenomaan tähän tarkoitukseen suunniteltua kielimallipohjaista pisteyttintä ja yhtä tehtävätyyppiä: lyhyitä vastauksia tilanteiden arviointikokeessa. Tuloksia ei voi mekaanisesti yleistää pitkiin esseisiin, muihin koemuotoihin tai toisiin järjestelmiin.

Lisäksi järjestelmän kestävyys todettiin tiettyjä, yleisiä kikkailun muotoja vastaan: täyte, kirjoitusvirheet, kielen näennäinen hienostuneisuus, toisto ja aiheen sivuuttaminen. Maailma on kuitenkin täynnä luovia testinkiertäjiä. On mahdollista, että vielä ovelammat keinot – esimerkiksi näennäisen relevantit mutta sisällöttömät johtopäätökset – voisivat hämäyttää myös tätä lähestymistapaa. Tutkimus ei myöskään ota kantaa muihin tärkeisiin kysymyksiin, kuten siihen, arvioiko järjestelmä oikeudenmukaisesti eri taustoista tulevien kirjoittajien vastauksia.

Silti suunta on merkittävä. Jos automaattinen pisteytys alkaa aidosti palkita asiaa eikä muotoa, se voi vähentää tarvetta "pelata järjestelmää" ja vapauttaa sekä opettajien että opiskelijoiden aikaa. Se voi myös tehdä arvioinnista ennustettavampaa: jos tiedetään, että täyte ei auta, panos siirtyy sisältöön. Jotta tämä toteutuisi, järjestelmien suunnittelussa on pidettävä koko ajan mielessä kysymys, jota tutkijatkin painottavat: mitataanko sitä, mikä on olennaista, vai sitä, mikä on helpointa mitata?

Teknologian historia opettaa, että työkalut muokkaavat myös tapaa, jolla niitä käytetään. Jos kielimalleihin nojaava pisteytys yleistyy ja näyttää suuntaa sille, millainen teksti on "hyvää", se voi vaikuttaa opetukseen, viestintään ja siihen, mitä pidämme vakuuttavana. Siksi kysymys ei ole vain tekniikasta, vaan myös arvoista ja läpinäkyvyydestä. Millaisin pelisäännöin varmistamme, että kone mittaa sitä, mitä oikeasti pidämme tärkeänä – ja että ihmisellä on aina mahdollisuus tulla kuulluksi, jos kone on väärässä?

Paper: https://arxiv.org/abs/2603.25674v1

Register: https://www.AiFeta.com

koulutus tekoäly arviointi kielimallit tutkimus arXiv

Read more

Tekoälyn muistia voi kouluttaa ilman että mallia muutetaan

Tekoälyn muistia voi kouluttaa ilman että mallia muutetaan

Jokainen tiedonhakija tuntee tunteen: vastaus on jossain, mutta piilossa. Yksi dokumentti vihjaa asiasta sivulauseessa, toinen kiertää samaa aihetta tarinan kautta. Selaat välilehtiä, kopioit pätkiä muistioon ja muovailet niistä vastauksen. Moni nykyinen tekoäly tekee käytännössä saman – eikä aina kovin hyvin. Vallitseva ajatus on ollut, että kun tekoäly vastaa kysymyksiin dokumenttiaineistoa hyödyntäen,

By Kari Jaaskelainen
Oppiva ajotapa voi lisätä moottoritien välityskykyä ja säästää polttoainetta

Oppiva ajotapa voi lisätä moottoritien välityskykyä ja säästää polttoainetta

On aamu Kehä I:llä. Virta liikkuu reipasta vauhtia, kunnes yksi auto jarruttaa aavistuksen. Seuraava tekee samoin, sitten seuraava. Pienestä nykäyksestä syntyy muutamassa minuutissa laine, joka nielee kaistoja ja hermoja. Kukaan ei tehnyt varsinaisesti väärin, mutta yhteispeli petti. Liikenteessä on pitkään uskottu kahteen peruslääkkeeseen: leveämpiin teihin ja fiksumpiin autoihin. Ensimmäinen

By Kari Jaaskelainen
Turvallisuus ei ole vain mitä tekoäly sanoo, vaan miten se ajattelee

Turvallisuus ei ole vain mitä tekoäly sanoo, vaan miten se ajattelee

Kielimallin ajatusketju voi mennä harhaan tai kaapata vieras käsky – ja sitä voi valvoa reaaliajassa, tuore tutkimus esittää. Kun pyydät tekoälyä ratkaisemaan monimutkaisen pulman, se usein ”ajattelee ääneen”. Se kirjaa ylös välivaiheita: mitä tiedetään, mitä päätellään seuraavaksi ja miksi. Välillä se kuitenkin alkaa toistaa itseään, unohtaa aiemman tavoitteen tai tarttuu herkästi

By Kari Jaaskelainen
Lyhytvideot levittävät harhaa monin keinoin – tehokas torjunta vaatii selityksiä, ei pelkkiä tuomioita

Lyhytvideot levittävät harhaa monin keinoin – tehokas torjunta vaatii selityksiä, ei pelkkiä tuomioita

Ymmärrettävä perustelu auttaa paljastamaan, onko video manipuloitu, tekoälyn tuottama, irrotettu asiayhteydestään vai pelaako se ennakkoluuloillamme. Selaat puhelinta bussissa. Näytölle pompahtaa 20 sekunnin klippi: siniset vilkut, palava rakennus ja teksti, jonka mukaan kaupungintalo on juuri syttynyt tuleen. Videota on vaikea vastustaa – ja vielä vaikeampi arvioida. Onko tapahtuma aito ja tältä päivältä?

By Kari Jaaskelainen