Hyvin laskeva tekoäly ei vielä osaa korjata muiden virheitä

Share
Hyvin laskeva tekoäly ei vielä osaa korjata muiden virheitä

Kuvittele opettaja, joka käy läpi oppilaan monivaiheista ratkaisua rivi riviltä. Hän ei katso vain lopputulosta, vaan yrittää löytää kohdan, jossa ajatus ensimmäisen kerran kääntyi väärään suuntaan. Se hetki ratkaisee, millaista palautetta oppilas tarvitsee. Tähän työhön on nyt toivottu apua tekoälyltä.

Viime vuosina on ajateltu, että kun kielimallit – tekoälyt, jotka tuottavat tekstiä – paranevat matematiikan ratkaisijoina, ne pystyvät myös arvioimaan toisten ratkaisuja. Jos kone ymmärtää ongelman, sen pitäisi nähdä, missä ajatus menee vikaan. Uusi arXivissa julkaistu tutkimus tuo tähän toiveeseen sekä vahvistusta että varoituksen.

Tutkijat vertasivat kahta suurta kielimallia kahdessa tehtävässä samoilla matematiikan ongelmilla. Ensin mallit yrittivät ratkaista tehtävän itse. Sen jälkeen ne arvioivat toisen ”oppilaan” ratkaisua ja yrittivät tunnistaa varhaisimmän virheaskeleen. Aineistona oli ihmisten huolellisesti merkitsemiä esimerkkejä, joissa jokaisesta ratkaisuketjusta tiedettiin, missä kohtaa ajatus lipsahti ensi kerran. Tehtävät vaihtelivat peruskoulun tasolta vaativampiin pulmiin.

Tulos oli johdonmukainen: mallit arvioivat muita selvästi paremmin juuri niissä tehtävissä, jotka ne itsekin onnistuivat ratkaisemaan. Yhteys oli tilastollisesti merkitsevä molemmilla malleilla ja kummassakin tehtäväjoukossa. Toisin sanoen ongelmanratkaisun taito näyttää auttavan myös arvioinnissa.

Samalla kävi ilmi jotain vähemmän imartelevaa. Toisen ratkaisun läpikäyminen ja virheen täsmällinen paikantaminen oli vaikeampaa kuin suoran vastauksen löytäminen. Tämä korostui erityisesti silloin, kun arvioitavassa ratkaisussa todella oli virhe: mallit hapuilivat sen tarkkaa sijaintia ja saattoivat harhautua myöhempiin, virheen seurauksena syntyneisiin väärinpäätelmiin – aivan kuten ihminenkin tekisi kiireessä.

Arjen esimerkki auttaa hahmottamaan eron. Oman voileivän voi tehdä selkäytimeen nojaamalla. Mutta kun katsoo videolta, miten joku toinen tekee leivän, ja tehtävänä on osoittaa tarkka hetki, jolloin ohjeen tulkinta meni pieleen – vaihtoiko tekijä suolan ja sokerin vai unohtuiko voin levitys kokonaan – työ on yllättävän vaativaa. Se edellyttää askeleiden seuraamista, muistamista ja sitä, ettei sekoita ensivirhettä sen seurauksiin. Juuri tätä tarkkuutta tekoälyltä nyt puuttuu.

Tutkimus antaa siis kahdenlaisen viestin. Ensimmäinen on myönteinen: kun kielimalli todella hallitsee ongelman, se on myös todennäköisemmin hyödyllinen toisten ratkaisujen arvioija. Toisen viestin pitäisi hillitä liiallista intoa: hyväkään laskurutiini ei automaattisesti muutu luotettavaksi palautteeksi oppilaalle. Jotta malli osaisi kertoa, missä ajatus ensimmäiseksi karkasi, sen pitäisi pystyä seuraamaan ratkaisua askel askeleelta, valvomaan omaa ymmärrystään ja paikantamaan virhe täsmällisesti. Nämä taidot ovat eri asia kuin oikean vastauksen tuottaminen.

Vertailu tehtiin kahdella nykymalleista tunnetulla versiolla, jotka usein asetetaan virtuaalisen ”matikanopettajan” rooliin. Molemmille annettiin samat ongelmat ja samat, ihmisten tarkistamat esimerkkiratkaisut. Tämä asettelu on tärkeä, sillä se erottaa kaksi työtä, joita haluamme tekoälyn tekevän luokassa: ratkaisemisen ja arvioimisen. Tutkimus osoittaa, että ne kulkevat käsi kädessä, mutta eivät ole sama asia.

On myös syytä korostaa rajoituksia. Tulokset koskevat kahta mallia ja kahta aineistoa. Ne kertovat selkeästä yhteydestä mallin oman onnistumisen ja sen arviointitarkkuuden välillä, mutta eivät takaa, että mallit olisivat yleisesti luotettavia opettajan korvikkeita. Lisäksi arviointitehtävä oli kapea: tarkoitus oli löytää nimenomaan ensivirhe annetusta ratkaisuketjusta. Se on opetuksen kannalta hyödyllinen tavoite, mutta ei kata kaikkea, mitä hyvä palautteenanto vaatii, kuten selittävää, oppilaan ymmärrystasoon mukautuvaa ohjausta.

Yksi käytännön johtopäätös on kuitenkin selvä. Jos kouluissa ja oppimisalustoilla halutaan käyttää tekoälyä jatkuvaan, oppimista tukevaan palautteeseen, mallien arviointikykyä on kehitettävä ja mitattava erikseen – ei pelkästään ratkaisujen pistetaulukon perusteella. Tutkimus vihjaa, että ”pelkkä fiksuus” ei riitä, vaan tarvitaan mekanismeja, jotka auttavat konetta seuraamaan vierasta ajattelua kärsivällisesti ja tarkasti.

Toinen seuraus koskee turvallisuutta. Koska mallit kompastuvat erityisesti virheellisiin ratkaisuihin, niiden antamaa palautetta ei pidä käyttää sellaisenaan korkean panoksen arvioinneissa. Ihmisen rooli viimekätisenä arvioijana näyttää edelleen perustellulta – ainakin kunnes mallit oppivat paremmin erottamaan syyn ja seurauksen pitkissä päättelyketjuissa.

Suunta on silti kiinnostava. Matematiikan oppimisessa virhe on usein tärkein hetki: se paljastaa, mitä oppilas ajatteli. Jos tekoäly oppii näkemään juuri tuon hetken luotettavasti, se voi auttaa opettajaa kohdentamaan aikansa ja ohjauksensa paremmin. Kysymys kuuluu: haluammeko tekoälyn, joka osaa vastata oikein, vai tekoälyn, joka ymmärtää meidän erehdyksemme – ja kuka opettaa sitä siihen?

Paper: https://arxiv.org/abs/2603.25633v1

Register: https://www.AiFeta.com

tekoäly koulutus matematiikka arviointi GPT tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen