Tekoäly kirii salapoliisitehtävissä ihmisten kärkijoukkoon – mutta väsyy pitkissä jutuissa

Tekoäly kirii salapoliisitehtävissä ihmisten kärkijoukkoon – mutta väsyy pitkissä jutuissa

Uusi pelipohjainen mittari vihjaa, että tekstintuottavien tekoälyjen päättely lähestyy luonnollisia tilanteita – ja kehittyy nopeasti.

Kuvittele ilta ystävien kanssa. Pöydälle on levitetty salapoliisipeli, jossa vihjeitä tipahtelee vähitellen: vaivihkainen todistajanlausunto, nurkasta löytynyt käsine, ristiriitainen alibi. Et vastaa monivalintaan etkä täytä ruutua kaavalla, vaan muotoilet oman näkemyksesi siitä, mitä tapahtui – ja muutat sitä, kun tarina etenee.

Juuri tällaista päättelyä tekoälyiltä on pitkään mitattu varsin karkeilla koetilanteilla. Kysymykset ovat olleet usein irrallisia ja vastaukset rajoitettuja. Tuore arXivissa julkaistu tutkimus ehdottaa toisenlaista näkymää: mittaria, joka matkkii arkista päättelyä paremmin. Siinä tekoälyä koetellaan mukautetulla versiolla Watson & Holmes -salapoliisipelistä. Vihjeet esitetään vaiheittain, kysymykset ovat avoimia ja vastaukset saa kirjoittaa omin sanoin.

Tutkijat rakensivat lisäksi automaattisen arviointijärjestelmän, jonka he vertasivat ihmisarvioijien tekemiin pisteytyksiin. Tavoitteena oli, että arviointi olisi yhtenäistä ja toistettavaa myös silloin, kun tapauksia ja malleja on paljon.

Miksi tällä on väliä? Siksi, että tulokset antavat harvinaisen selkeän kuvan siitä, miten nopeasti tekstintuottavat tekoälyt oppivat luonnollista päättelyä. Yhdeksän kuukauden aikana vuonna 2025 mallien suoritustaso nousi ihmisvertailuryhmän heikommasta neljänneksestä noin parhaaseen viiteen prosenttiin. Tutkimuksen mukaan noin puolet noususta selittyi tasaisella kehityksellä uusien malliversioiden myötä. Toinen puolikas liittyi selkeään loikkaan, kun käyttöön tuli malleja, jotka on suunniteltu nimenomaan päättelyn parantamiseen.

Tärkeä havainto on myös se, missä tekoälyt pärjäävät – ja missä eivät. Laajoja, systemaattisia eroja ihmisten ja mallien välillä ei juuri löytynyt, kun tarkasteltiin eri tyyppisiä salapoliisitehtäviä. Poikkeuksia kuitenkin oli kaksi. Ensinnäkin mallit heikkenivät, kun tapaus venyi pitkäksi: tällä mittarilla pitkät tapaukset olivat noin 1 900–4 000 sanan mittaisia. Toiseksi päättelyyn panostetut mallit osoittivat etulyöntiasemaa aivan alussa, kun tietoa oli niukasti ja piti silti muodostaa uskottava suunta hypoteesille.

Miltä tämä näyttää käytännössä? Varhaisessa vaiheessa salapoliisitehtävässä on usein vain pari hajanaista vihjettä. Ihminen saattaa odottaa lisää, ennen kuin uskaltaa hahmotella kokonaiskuvaa. Päättelyyn viritetty malli taas tekee nopeasti alustavan yleistyksen vähästä: jos kahdessa eri vihjeessä esiintyy sama nimi, se ehdottaa varhain, että henkilöllä on keskeinen rooli. Tulos voi osua oikeaan – tai ei – mutta nopea hahmotus auttaa suuntaamaan katseen seuraaviin kysymyksiin.

Entä pitkät tapaukset? Kuvitellaan, että tapaus polveilee useiden sivujen verran, joissa vilisee paikkoja, ajankohtia ja sivuhenkilöitä. Tällöin mallin on pidettävä langat käsissään pitkään ja päivitettävä tulkintaansa jokaisen pienen uuden tiedonmurun myötä. Tutkimuksessa tällaiset tapaukset olivat selvästi hankalampia tekoälyille kuin lyhyemmät. Ihmisillä sama heikkeneminen ei näkynyt samalla tavalla.

Tällaisten kokeiden arvo ei ole vain siinä, että ne tuottavat ranking-listoja. Ne voivat kertoa, milloin tekoälyjen tuottama vastaus on todennäköisesti hyödyllinen ja milloin varauksia tarvitaan. Avoimet, omin sanoin kirjoitetut vastaukset muistuttavat todellisia työtilanteita enemmän kuin perinteiset monivalinnat: asiantuntijan – tai tekoälyn – on osattava perustella, muuttaa mieltään ja sitoa irralliset havainnot kokonaisuudeksi.

Samalla on syytä olla täsmällinen siinä, mitä tutkimus todella mittaa. Se tarkastelee nimenomaan tarinallista päättelyä, jossa vihjeitä tulee vähitellen ja vastaus muotoillaan vapaasti. Se ei kerro, miten mallit selviävät esimerkiksi numeerisista ongelmista, koneensuunnittelusta tai muista erikoistehtävistä. Myös arviointi perustuu automaattiseen pisteytykseen, joka tosin on kalibroitu ihmisarvioijia vasten. Tämä tekee mittaamisesta nopeaa ja yhtenäistä, mutta ei poista tarvetta tarkastella yksittäisiä vastauksia kriittisesti.

Kehityksen vauhti herättää toisen, laajemman kysymyksen. Jos mallit yltävät jo ihmisten kärkijoukkoon tällä tavoin mitatussa päättelyssä, milloin – ja mihin – niitä kannattaa alkaa käyttää sellaisissa tehtävissä, joissa panokset ovat oikeasti suuria? Salapoliisitehtävät ovat turvallinen harjoituskenttä, mutta todellisuudessa ”tapaukset” ovat usein pidempiä ja sotkuisempia. Tutkimus osoittaa, että malleilla on etuja, kun tietoa on niukasti, ja että ne kompuroivat, kun tarina venyy. Kumman tilanteen kaltaisessa maailmassa me elämme – ja osaammeko rakentaa käyttöä, jossa vahvuudet hyödynnetään ja heikkoudet tunnistetaan ajoissa?

Paper: https://arxiv.org/abs/2602.19914v1

Register: https://www.AiFeta.com

tekoäly päättely tutkimus kielimallit pelit arviointi

Read more

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Kun hissi lähtee liikkeelle, ilmastointi säätää puhallusta tai robotti asettaa ruuvin paikalleen, taustalla on malli siitä, miten kone käyttäytyy. Niitä on perinteisesti rakennettu niin kuin hyviä reseptejä: asiantuntija kerää kokemusta, mittaa, kirjoittaa yhtälöitä ja virittää pitkään. Se vie aikaa – ja jokainen muutos laitteessa tai ympäristössä tarkoittaa uutta työtä. Viime vuosina

By Kari Jaaskelainen
Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Kun robotti-imuri hivuttautuu kotona lataustelakkaansa, kukaan ei pidä hetkeä ihmeenä. Veden alla sama temppu on kaikkea muuta kuin arkipäivää – näkyvyys on huono, virtaukset nykivät, eikä satelliittipaikannus auta. Silti juuri tähän suuntaan on otettu askel, joka voi venyttää vedenalaisten robottien toimintamatkaa ja -aikaa. Vuosia on ajateltu, että vedenalaisen telakoitumisen kaltaiset tehtävät

By Kari Jaaskelainen
Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Kaikki tietävät hetken, kun seisot punaisissa valoissa keskellä yötä, eikä mihinkään suuntaan näy autoja. Tai aamun, jolloin tavallinen risteys puuroutuu yllättäen, koska osa kuljettajista päättääkin kääntyä eri suuntaan kuin yleensä. Liikennevalot ovat sääntöjen koneita, mutta liikenne elää kuin säätila. Pitkään ratkaisuksi on ehdotettu ”älykkäitä” valoja, jotka oppivat liikenteestä ja säätävät

By Kari Jaaskelainen