Hyvin laskeva tekoäly ei vielä osaa korjata muiden virheitä

Hyvin laskeva tekoäly ei vielä osaa korjata muiden virheitä

Kuvittele opettaja, joka käy läpi oppilaan monivaiheista ratkaisua rivi riviltä. Hän ei katso vain lopputulosta, vaan yrittää löytää kohdan, jossa ajatus ensimmäisen kerran kääntyi väärään suuntaan. Se hetki ratkaisee, millaista palautetta oppilas tarvitsee. Tähän työhön on nyt toivottu apua tekoälyltä.

Viime vuosina on ajateltu, että kun kielimallit – tekoälyt, jotka tuottavat tekstiä – paranevat matematiikan ratkaisijoina, ne pystyvät myös arvioimaan toisten ratkaisuja. Jos kone ymmärtää ongelman, sen pitäisi nähdä, missä ajatus menee vikaan. Uusi arXivissa julkaistu tutkimus tuo tähän toiveeseen sekä vahvistusta että varoituksen.

Tutkijat vertasivat kahta suurta kielimallia kahdessa tehtävässä samoilla matematiikan ongelmilla. Ensin mallit yrittivät ratkaista tehtävän itse. Sen jälkeen ne arvioivat toisen ”oppilaan” ratkaisua ja yrittivät tunnistaa varhaisimmän virheaskeleen. Aineistona oli ihmisten huolellisesti merkitsemiä esimerkkejä, joissa jokaisesta ratkaisuketjusta tiedettiin, missä kohtaa ajatus lipsahti ensi kerran. Tehtävät vaihtelivat peruskoulun tasolta vaativampiin pulmiin.

Tulos oli johdonmukainen: mallit arvioivat muita selvästi paremmin juuri niissä tehtävissä, jotka ne itsekin onnistuivat ratkaisemaan. Yhteys oli tilastollisesti merkitsevä molemmilla malleilla ja kummassakin tehtäväjoukossa. Toisin sanoen ongelmanratkaisun taito näyttää auttavan myös arvioinnissa.

Samalla kävi ilmi jotain vähemmän imartelevaa. Toisen ratkaisun läpikäyminen ja virheen täsmällinen paikantaminen oli vaikeampaa kuin suoran vastauksen löytäminen. Tämä korostui erityisesti silloin, kun arvioitavassa ratkaisussa todella oli virhe: mallit hapuilivat sen tarkkaa sijaintia ja saattoivat harhautua myöhempiin, virheen seurauksena syntyneisiin väärinpäätelmiin – aivan kuten ihminenkin tekisi kiireessä.

Arjen esimerkki auttaa hahmottamaan eron. Oman voileivän voi tehdä selkäytimeen nojaamalla. Mutta kun katsoo videolta, miten joku toinen tekee leivän, ja tehtävänä on osoittaa tarkka hetki, jolloin ohjeen tulkinta meni pieleen – vaihtoiko tekijä suolan ja sokerin vai unohtuiko voin levitys kokonaan – työ on yllättävän vaativaa. Se edellyttää askeleiden seuraamista, muistamista ja sitä, ettei sekoita ensivirhettä sen seurauksiin. Juuri tätä tarkkuutta tekoälyltä nyt puuttuu.

Tutkimus antaa siis kahdenlaisen viestin. Ensimmäinen on myönteinen: kun kielimalli todella hallitsee ongelman, se on myös todennäköisemmin hyödyllinen toisten ratkaisujen arvioija. Toisen viestin pitäisi hillitä liiallista intoa: hyväkään laskurutiini ei automaattisesti muutu luotettavaksi palautteeksi oppilaalle. Jotta malli osaisi kertoa, missä ajatus ensimmäiseksi karkasi, sen pitäisi pystyä seuraamaan ratkaisua askel askeleelta, valvomaan omaa ymmärrystään ja paikantamaan virhe täsmällisesti. Nämä taidot ovat eri asia kuin oikean vastauksen tuottaminen.

Vertailu tehtiin kahdella nykymalleista tunnetulla versiolla, jotka usein asetetaan virtuaalisen ”matikanopettajan” rooliin. Molemmille annettiin samat ongelmat ja samat, ihmisten tarkistamat esimerkkiratkaisut. Tämä asettelu on tärkeä, sillä se erottaa kaksi työtä, joita haluamme tekoälyn tekevän luokassa: ratkaisemisen ja arvioimisen. Tutkimus osoittaa, että ne kulkevat käsi kädessä, mutta eivät ole sama asia.

On myös syytä korostaa rajoituksia. Tulokset koskevat kahta mallia ja kahta aineistoa. Ne kertovat selkeästä yhteydestä mallin oman onnistumisen ja sen arviointitarkkuuden välillä, mutta eivät takaa, että mallit olisivat yleisesti luotettavia opettajan korvikkeita. Lisäksi arviointitehtävä oli kapea: tarkoitus oli löytää nimenomaan ensivirhe annetusta ratkaisuketjusta. Se on opetuksen kannalta hyödyllinen tavoite, mutta ei kata kaikkea, mitä hyvä palautteenanto vaatii, kuten selittävää, oppilaan ymmärrystasoon mukautuvaa ohjausta.

Yksi käytännön johtopäätös on kuitenkin selvä. Jos kouluissa ja oppimisalustoilla halutaan käyttää tekoälyä jatkuvaan, oppimista tukevaan palautteeseen, mallien arviointikykyä on kehitettävä ja mitattava erikseen – ei pelkästään ratkaisujen pistetaulukon perusteella. Tutkimus vihjaa, että ”pelkkä fiksuus” ei riitä, vaan tarvitaan mekanismeja, jotka auttavat konetta seuraamaan vierasta ajattelua kärsivällisesti ja tarkasti.

Toinen seuraus koskee turvallisuutta. Koska mallit kompastuvat erityisesti virheellisiin ratkaisuihin, niiden antamaa palautetta ei pidä käyttää sellaisenaan korkean panoksen arvioinneissa. Ihmisen rooli viimekätisenä arvioijana näyttää edelleen perustellulta – ainakin kunnes mallit oppivat paremmin erottamaan syyn ja seurauksen pitkissä päättelyketjuissa.

Suunta on silti kiinnostava. Matematiikan oppimisessa virhe on usein tärkein hetki: se paljastaa, mitä oppilas ajatteli. Jos tekoäly oppii näkemään juuri tuon hetken luotettavasti, se voi auttaa opettajaa kohdentamaan aikansa ja ohjauksensa paremmin. Kysymys kuuluu: haluammeko tekoälyn, joka osaa vastata oikein, vai tekoälyn, joka ymmärtää meidän erehdyksemme – ja kuka opettaa sitä siihen?

Paper: https://arxiv.org/abs/2603.25633v1

Register: https://www.AiFeta.com

tekoäly koulutus matematiikka arviointi GPT tutkimus

Read more

Tekoäly ei enää vain ehdota – se myös koettaa

Tekoäly ei enää vain ehdota – se myös koettaa

Kuvittele tutkija, joka esittää tietokoneelle väitteen: “Tämä rakenne voisi kestää kuumuutta paremmin.” Ennen vastaus olisi ollut viittauksia artikkeleihin ja arveluja. Nyt kone voi myös yrittää: se luonnostelee kokeen, simuloi atomien liikettä ja palaa perusteltuun arvioon – heti samassa istunnossa. Tämä on hienovarainen mutta merkittävä muutos. Vielä hiljattain kielimallipohjaiset tekoälyt olivat taitavia

By Kari Jaaskelainen
Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Uusi menetelmä lupaa vaihtaa suttuiset korostukset teräviin todisteisiin, jotta lääkärille näkyy täsmälleen se, mihin päätös perustui. Kuvittele rutiininen hetki sairaalassa: tietokone katsoo keuhkokuvaa, antaa tulokseksi “poikkeava” ja levittää kuvan päälle oranssin läiskän. Läiskä kertoo, että jossain siinä suunnassa oli jotain tärkeää. Mutta mitä tarkalleen? Onko ratkaisevaa pieni varjo kylkiluussa vai

By Kari Jaaskelainen
Kaksi tekoälyä voi olla reilumpi kuin yksi

Kaksi tekoälyä voi olla reilumpi kuin yksi

Tutkijoiden simuloimassa päivystyksessä oikeudenmukaisuus syntyi neuvottelusta, ei yhdestä auktoriteetista. Se haastaa tavan, jolla tekoälyä on tähän asti arvioitu ja säädelty. Kuvittele ruuhkainen päivystysilta: paikkoja on liian vähän, potilaita liikaa. Yhden älykkään järjestelmän sijaan päätöksiä valmistelee kaksi tekoälyä. Ne käyvät muutaman kierroksen keskustelun siitä, kenelle hoito kuuluu ensin ja millä perusteilla.

By Kari Jaaskelainen