Hyvin laskeva tekoäly ei vielä osaa korjata muiden virheitä
Kuvittele opettaja, joka käy läpi oppilaan monivaiheista ratkaisua rivi riviltä. Hän ei katso vain lopputulosta, vaan yrittää löytää kohdan, jossa ajatus ensimmäisen kerran kääntyi väärään suuntaan. Se hetki ratkaisee, millaista palautetta oppilas tarvitsee. Tähän työhön on nyt toivottu apua tekoälyltä.
Viime vuosina on ajateltu, että kun kielimallit – tekoälyt, jotka tuottavat tekstiä – paranevat matematiikan ratkaisijoina, ne pystyvät myös arvioimaan toisten ratkaisuja. Jos kone ymmärtää ongelman, sen pitäisi nähdä, missä ajatus menee vikaan. Uusi arXivissa julkaistu tutkimus tuo tähän toiveeseen sekä vahvistusta että varoituksen.
Tutkijat vertasivat kahta suurta kielimallia kahdessa tehtävässä samoilla matematiikan ongelmilla. Ensin mallit yrittivät ratkaista tehtävän itse. Sen jälkeen ne arvioivat toisen ”oppilaan” ratkaisua ja yrittivät tunnistaa varhaisimmän virheaskeleen. Aineistona oli ihmisten huolellisesti merkitsemiä esimerkkejä, joissa jokaisesta ratkaisuketjusta tiedettiin, missä kohtaa ajatus lipsahti ensi kerran. Tehtävät vaihtelivat peruskoulun tasolta vaativampiin pulmiin.
Tulos oli johdonmukainen: mallit arvioivat muita selvästi paremmin juuri niissä tehtävissä, jotka ne itsekin onnistuivat ratkaisemaan. Yhteys oli tilastollisesti merkitsevä molemmilla malleilla ja kummassakin tehtäväjoukossa. Toisin sanoen ongelmanratkaisun taito näyttää auttavan myös arvioinnissa.
Samalla kävi ilmi jotain vähemmän imartelevaa. Toisen ratkaisun läpikäyminen ja virheen täsmällinen paikantaminen oli vaikeampaa kuin suoran vastauksen löytäminen. Tämä korostui erityisesti silloin, kun arvioitavassa ratkaisussa todella oli virhe: mallit hapuilivat sen tarkkaa sijaintia ja saattoivat harhautua myöhempiin, virheen seurauksena syntyneisiin väärinpäätelmiin – aivan kuten ihminenkin tekisi kiireessä.
Arjen esimerkki auttaa hahmottamaan eron. Oman voileivän voi tehdä selkäytimeen nojaamalla. Mutta kun katsoo videolta, miten joku toinen tekee leivän, ja tehtävänä on osoittaa tarkka hetki, jolloin ohjeen tulkinta meni pieleen – vaihtoiko tekijä suolan ja sokerin vai unohtuiko voin levitys kokonaan – työ on yllättävän vaativaa. Se edellyttää askeleiden seuraamista, muistamista ja sitä, ettei sekoita ensivirhettä sen seurauksiin. Juuri tätä tarkkuutta tekoälyltä nyt puuttuu.
Tutkimus antaa siis kahdenlaisen viestin. Ensimmäinen on myönteinen: kun kielimalli todella hallitsee ongelman, se on myös todennäköisemmin hyödyllinen toisten ratkaisujen arvioija. Toisen viestin pitäisi hillitä liiallista intoa: hyväkään laskurutiini ei automaattisesti muutu luotettavaksi palautteeksi oppilaalle. Jotta malli osaisi kertoa, missä ajatus ensimmäiseksi karkasi, sen pitäisi pystyä seuraamaan ratkaisua askel askeleelta, valvomaan omaa ymmärrystään ja paikantamaan virhe täsmällisesti. Nämä taidot ovat eri asia kuin oikean vastauksen tuottaminen.
Vertailu tehtiin kahdella nykymalleista tunnetulla versiolla, jotka usein asetetaan virtuaalisen ”matikanopettajan” rooliin. Molemmille annettiin samat ongelmat ja samat, ihmisten tarkistamat esimerkkiratkaisut. Tämä asettelu on tärkeä, sillä se erottaa kaksi työtä, joita haluamme tekoälyn tekevän luokassa: ratkaisemisen ja arvioimisen. Tutkimus osoittaa, että ne kulkevat käsi kädessä, mutta eivät ole sama asia.
On myös syytä korostaa rajoituksia. Tulokset koskevat kahta mallia ja kahta aineistoa. Ne kertovat selkeästä yhteydestä mallin oman onnistumisen ja sen arviointitarkkuuden välillä, mutta eivät takaa, että mallit olisivat yleisesti luotettavia opettajan korvikkeita. Lisäksi arviointitehtävä oli kapea: tarkoitus oli löytää nimenomaan ensivirhe annetusta ratkaisuketjusta. Se on opetuksen kannalta hyödyllinen tavoite, mutta ei kata kaikkea, mitä hyvä palautteenanto vaatii, kuten selittävää, oppilaan ymmärrystasoon mukautuvaa ohjausta.
Yksi käytännön johtopäätös on kuitenkin selvä. Jos kouluissa ja oppimisalustoilla halutaan käyttää tekoälyä jatkuvaan, oppimista tukevaan palautteeseen, mallien arviointikykyä on kehitettävä ja mitattava erikseen – ei pelkästään ratkaisujen pistetaulukon perusteella. Tutkimus vihjaa, että ”pelkkä fiksuus” ei riitä, vaan tarvitaan mekanismeja, jotka auttavat konetta seuraamaan vierasta ajattelua kärsivällisesti ja tarkasti.
Toinen seuraus koskee turvallisuutta. Koska mallit kompastuvat erityisesti virheellisiin ratkaisuihin, niiden antamaa palautetta ei pidä käyttää sellaisenaan korkean panoksen arvioinneissa. Ihmisen rooli viimekätisenä arvioijana näyttää edelleen perustellulta – ainakin kunnes mallit oppivat paremmin erottamaan syyn ja seurauksen pitkissä päättelyketjuissa.
Suunta on silti kiinnostava. Matematiikan oppimisessa virhe on usein tärkein hetki: se paljastaa, mitä oppilas ajatteli. Jos tekoäly oppii näkemään juuri tuon hetken luotettavasti, se voi auttaa opettajaa kohdentamaan aikansa ja ohjauksensa paremmin. Kysymys kuuluu: haluammeko tekoälyn, joka osaa vastata oikein, vai tekoälyn, joka ymmärtää meidän erehdyksemme – ja kuka opettaa sitä siihen?
Paper: https://arxiv.org/abs/2603.25633v1
Register: https://www.AiFeta.com
tekoäly koulutus matematiikka arviointi GPT tutkimus