Tekoäly kirii salapoliisitehtävissä ihmisten kärkijoukkoon – mutta väsyy pitkissä jutuissa
Uusi pelipohjainen mittari vihjaa, että tekstintuottavien tekoälyjen päättely lähestyy luonnollisia tilanteita – ja kehittyy nopeasti.
Kuvittele ilta ystävien kanssa. Pöydälle on levitetty salapoliisipeli, jossa vihjeitä tipahtelee vähitellen: vaivihkainen todistajanlausunto, nurkasta löytynyt käsine, ristiriitainen alibi. Et vastaa monivalintaan etkä täytä ruutua kaavalla, vaan muotoilet oman näkemyksesi siitä, mitä tapahtui – ja muutat sitä, kun tarina etenee.
Juuri tällaista päättelyä tekoälyiltä on pitkään mitattu varsin karkeilla koetilanteilla. Kysymykset ovat olleet usein irrallisia ja vastaukset rajoitettuja. Tuore arXivissa julkaistu tutkimus ehdottaa toisenlaista näkymää: mittaria, joka matkkii arkista päättelyä paremmin. Siinä tekoälyä koetellaan mukautetulla versiolla Watson & Holmes -salapoliisipelistä. Vihjeet esitetään vaiheittain, kysymykset ovat avoimia ja vastaukset saa kirjoittaa omin sanoin.
Tutkijat rakensivat lisäksi automaattisen arviointijärjestelmän, jonka he vertasivat ihmisarvioijien tekemiin pisteytyksiin. Tavoitteena oli, että arviointi olisi yhtenäistä ja toistettavaa myös silloin, kun tapauksia ja malleja on paljon.
Miksi tällä on väliä? Siksi, että tulokset antavat harvinaisen selkeän kuvan siitä, miten nopeasti tekstintuottavat tekoälyt oppivat luonnollista päättelyä. Yhdeksän kuukauden aikana vuonna 2025 mallien suoritustaso nousi ihmisvertailuryhmän heikommasta neljänneksestä noin parhaaseen viiteen prosenttiin. Tutkimuksen mukaan noin puolet noususta selittyi tasaisella kehityksellä uusien malliversioiden myötä. Toinen puolikas liittyi selkeään loikkaan, kun käyttöön tuli malleja, jotka on suunniteltu nimenomaan päättelyn parantamiseen.
Tärkeä havainto on myös se, missä tekoälyt pärjäävät – ja missä eivät. Laajoja, systemaattisia eroja ihmisten ja mallien välillä ei juuri löytynyt, kun tarkasteltiin eri tyyppisiä salapoliisitehtäviä. Poikkeuksia kuitenkin oli kaksi. Ensinnäkin mallit heikkenivät, kun tapaus venyi pitkäksi: tällä mittarilla pitkät tapaukset olivat noin 1 900–4 000 sanan mittaisia. Toiseksi päättelyyn panostetut mallit osoittivat etulyöntiasemaa aivan alussa, kun tietoa oli niukasti ja piti silti muodostaa uskottava suunta hypoteesille.
Miltä tämä näyttää käytännössä? Varhaisessa vaiheessa salapoliisitehtävässä on usein vain pari hajanaista vihjettä. Ihminen saattaa odottaa lisää, ennen kuin uskaltaa hahmotella kokonaiskuvaa. Päättelyyn viritetty malli taas tekee nopeasti alustavan yleistyksen vähästä: jos kahdessa eri vihjeessä esiintyy sama nimi, se ehdottaa varhain, että henkilöllä on keskeinen rooli. Tulos voi osua oikeaan – tai ei – mutta nopea hahmotus auttaa suuntaamaan katseen seuraaviin kysymyksiin.
Entä pitkät tapaukset? Kuvitellaan, että tapaus polveilee useiden sivujen verran, joissa vilisee paikkoja, ajankohtia ja sivuhenkilöitä. Tällöin mallin on pidettävä langat käsissään pitkään ja päivitettävä tulkintaansa jokaisen pienen uuden tiedonmurun myötä. Tutkimuksessa tällaiset tapaukset olivat selvästi hankalampia tekoälyille kuin lyhyemmät. Ihmisillä sama heikkeneminen ei näkynyt samalla tavalla.
Tällaisten kokeiden arvo ei ole vain siinä, että ne tuottavat ranking-listoja. Ne voivat kertoa, milloin tekoälyjen tuottama vastaus on todennäköisesti hyödyllinen ja milloin varauksia tarvitaan. Avoimet, omin sanoin kirjoitetut vastaukset muistuttavat todellisia työtilanteita enemmän kuin perinteiset monivalinnat: asiantuntijan – tai tekoälyn – on osattava perustella, muuttaa mieltään ja sitoa irralliset havainnot kokonaisuudeksi.
Samalla on syytä olla täsmällinen siinä, mitä tutkimus todella mittaa. Se tarkastelee nimenomaan tarinallista päättelyä, jossa vihjeitä tulee vähitellen ja vastaus muotoillaan vapaasti. Se ei kerro, miten mallit selviävät esimerkiksi numeerisista ongelmista, koneensuunnittelusta tai muista erikoistehtävistä. Myös arviointi perustuu automaattiseen pisteytykseen, joka tosin on kalibroitu ihmisarvioijia vasten. Tämä tekee mittaamisesta nopeaa ja yhtenäistä, mutta ei poista tarvetta tarkastella yksittäisiä vastauksia kriittisesti.
Kehityksen vauhti herättää toisen, laajemman kysymyksen. Jos mallit yltävät jo ihmisten kärkijoukkoon tällä tavoin mitatussa päättelyssä, milloin – ja mihin – niitä kannattaa alkaa käyttää sellaisissa tehtävissä, joissa panokset ovat oikeasti suuria? Salapoliisitehtävät ovat turvallinen harjoituskenttä, mutta todellisuudessa ”tapaukset” ovat usein pidempiä ja sotkuisempia. Tutkimus osoittaa, että malleilla on etuja, kun tietoa on niukasti, ja että ne kompuroivat, kun tarina venyy. Kumman tilanteen kaltaisessa maailmassa me elämme – ja osaammeko rakentaa käyttöä, jossa vahvuudet hyödynnetään ja heikkoudet tunnistetaan ajoissa?
Paper: https://arxiv.org/abs/2602.19914v1
Register: https://www.AiFeta.com
tekoäly päättely tutkimus kielimallit pelit arviointi