Höttö ei enää hämäytä tekoälyä esseekokeissa

Share
Höttö ei enää hämäytä tekoälyä esseekokeissa

Huolellisesti suunniteltu kielimalliin nojaava pisteytys rankaisee jaarittelusta ja aiheen sivuuttamisesta – ja voi siten olla aiempia konearvioijia reilumpi.

Kuvittele tekevänsä verkkokurssin koetta. Kysymys pyytää lyhyttä, perusteltua vastausta. Aika loppuu, ja mieleen hiipii vanha niksi: lisätään vähän täytelauseita, kopioidaan yksi kappale uudelleen, näytetään siltä, että on nähty vaivaa. Ehkä konepisteyttäjä nielee sen.

Vuosien ajan juuri tätä on pelätty – ja usein perustellusti. Aiemmat automaattiset esseearvioijat antoivat herkästi lisäpisteitä pituudesta, vaikeista sanoista ja muista seikoista, joilla ei ollut juuri mitään tekemistä itse tehtävän ytimen kanssa. Niillä mitattiin sitä, mikä oli kätevää, ei sitä, mikä oli olennaista.

Tuore arXiv-arkistossa julkaistu tutkimus tarjoaa kuitenkin valonpilkahduksen: kun arviointi rakennetaan suurten kielimallien varaan ja sen suunnittelussa pidetään tiukasti mielessä, mitä todella halutaan mitata, halvat temput eivät näytä tehoavan entiseen tapaan.

Tutkijat Cole Walsh ja Rodica Ivan tarkastelivat järjestelmää, joka pisteytti lyhyitä, esseemäisiä vastauksia niin sanotussa tilanteiden arviointikokeessa. Tällaisissa tehtävissä vastaaja kertoo omin sanoin, miten toimisi tietyssä arjen tai työn tilanteessa ja miksi. Tarkoitus on arvioida harkintaa ja perustelukykyä – ei kaunokirjallista taituruutta.

Ryhmän havainnot olivat ytimekkäät. Ensinnäkin vastaukseen lisätty merkityksetön täyteteksti ei keskimäärin kohottanut pisteitä. Kirjoitusvirheetkään eivät juuri horjuttaneet arviota. Myöskään kielen koukeroisuus – se, että teksti "kuulostaa hienolta" – ei tuottanut etua.

Vielä kiinnostavampaa on, mitä tapahtui, kun vastauksesta tehtiin näennäisesti vaikuttavampi silkalla toistolla. Aiemmissa, kielimalleja edeltäneissä järjestelmissä pitkät pätkät kertaavaa tekstiä saattoi yllättäen nostaa pisteitä. Nyt kävi päinvastoin: saman kappaleen kopiointi laski pisteitä keskimäärin. Toisin sanoen järjestelmä näytti tunnistavan, että toisto ei tuo uutta asiaa.

Ja jos vastaus lähti kokonaan sivuraiteille, seuraus oli selvä. Aiheen vierestä kirjoittaminen rankaistiin ankarasti. Tässä ei ole mitään yllättävää ihmisarvioijille, mutta koneille tämä on ollut aiemmin vaikeaa: ne ovat helposti tarttuneet pinnallisiin yhtäläisyyksiin sen sijaan, että olisivat arvioineet vastausten sisällöllistä osuvuutta.

Konkreettinen esimerkki auttaa. Ajatellaan kysymystä: "Miten toimisit, jos tiimissäsi syntyy jännite kahden kollegan välille?" Vanhaa koulukuntaa edustava konepisteyttäjä saattoi palkita pitkän, koristeellisen tekstin, jossa vilisee johtamiseen viittaavia sanoja, vaikka vastaus ei koskaan kertoisi, mitä kirjoittaja oikeasti tekisi. Nyt tutkittu järjestelmä ei tällaisesta hätkähdä. Jos vastaus pysyy asiassa – kuvaa lyhyesti ja selkeästi, miten kuuntelisi osapuolet, sopisi jatkosta ja seuraisi tilannetta – se menestyy. Jos se taas eksyy puhumaan esimerkiksi yrityskulttuurin historiasta tai toistaa saman kappaleen kahdesti, pisteet putoavat.

On houkuttelevaa julistaa ongelma ratkaistuksi. Silti viileä pää on paikallaan. Tutkimus käsitteli yhtä, nimenomaan tähän tarkoitukseen suunniteltua kielimallipohjaista pisteyttintä ja yhtä tehtävätyyppiä: lyhyitä vastauksia tilanteiden arviointikokeessa. Tuloksia ei voi mekaanisesti yleistää pitkiin esseisiin, muihin koemuotoihin tai toisiin järjestelmiin.

Lisäksi järjestelmän kestävyys todettiin tiettyjä, yleisiä kikkailun muotoja vastaan: täyte, kirjoitusvirheet, kielen näennäinen hienostuneisuus, toisto ja aiheen sivuuttaminen. Maailma on kuitenkin täynnä luovia testinkiertäjiä. On mahdollista, että vielä ovelammat keinot – esimerkiksi näennäisen relevantit mutta sisällöttömät johtopäätökset – voisivat hämäyttää myös tätä lähestymistapaa. Tutkimus ei myöskään ota kantaa muihin tärkeisiin kysymyksiin, kuten siihen, arvioiko järjestelmä oikeudenmukaisesti eri taustoista tulevien kirjoittajien vastauksia.

Silti suunta on merkittävä. Jos automaattinen pisteytys alkaa aidosti palkita asiaa eikä muotoa, se voi vähentää tarvetta "pelata järjestelmää" ja vapauttaa sekä opettajien että opiskelijoiden aikaa. Se voi myös tehdä arvioinnista ennustettavampaa: jos tiedetään, että täyte ei auta, panos siirtyy sisältöön. Jotta tämä toteutuisi, järjestelmien suunnittelussa on pidettävä koko ajan mielessä kysymys, jota tutkijatkin painottavat: mitataanko sitä, mikä on olennaista, vai sitä, mikä on helpointa mitata?

Teknologian historia opettaa, että työkalut muokkaavat myös tapaa, jolla niitä käytetään. Jos kielimalleihin nojaava pisteytys yleistyy ja näyttää suuntaa sille, millainen teksti on "hyvää", se voi vaikuttaa opetukseen, viestintään ja siihen, mitä pidämme vakuuttavana. Siksi kysymys ei ole vain tekniikasta, vaan myös arvoista ja läpinäkyvyydestä. Millaisin pelisäännöin varmistamme, että kone mittaa sitä, mitä oikeasti pidämme tärkeänä – ja että ihmisellä on aina mahdollisuus tulla kuulluksi, jos kone on väärässä?

Paper: https://arxiv.org/abs/2603.25674v1

Register: https://www.AiFeta.com

koulutus tekoäly arviointi kielimallit tutkimus arXiv

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen