Tekoäly väittelee kuin oikeussalissa – ja tarkistaa todisteet matkan varrella
Puhelimeen kilahtaa viesti perheen WhatsApp-ryhmässä: linkki ja napakka väite koronaviruksesta. Pitäisikö uskoa? Moni on jo tottunut kysymään tekoälyltä, joka vastaa sujuvasti – joskus myös aivan väärin. Kun panoksena on terveys tai politiikka, ylimielinen arvaus ei riitä.
Vuosien ajan on ajateltu, että parempi malli ja isompi tietomäärä ratkaisevat ongelman. Toinen suosittu ajatus on ollut panna useampi tekoäly keskustelemaan keskenään ja katsoa, mihin ne päätyvät. Nämä tavat auttavat, mutta niissä on ilmeinen puute: jos taustatiedot haetaan kerran ja väittely on vapaamuotoista, keskustelu voi juuttua samaan kapeaan lähdepalaan – tai kiertää kehää ilman selkeää rakennetta.
Tuore arXivissa julkaistu työ ehdottaa toisenlaista lähestymistapaa: kohdellaan kiistanalaisen väitteen tarkistamista kuin oikeudenkäyntiä. Eri tehtäviin erikoistuneet tekoälyroolit – kantaja, vastaaja ja tuomari – käyvät läpi todisteita määrämittaisen menettelyn mukaan. Samalla taustatietoja ei haeta vain kerran, vaan niitä laajennetaan ja tarkennetaan kierros kierrokselta sitä mukaa kun väittely paljastaa aukkoja. Tekijät kutsuvat tätä “progressiiviseksi tiedonhauksi” eli käytännössä jatkuvaksi, vaiheittain paranevaksi tiedonkeruuksi.
Rakenteen ydin on helppo ymmärtää ilman yksityiskohtia. Kantaja etsii ja esittää lähteitä, jotka tukevat väitettä. Vastaaja tekee saman vastakkaiselta kannalta. Osapuolet voivat myös neuvotella siitä, mitkä todisteet ovat oikeasti olennaisia. Kummallekin annetaan hetki “itsepohdintaa”, jolloin ne arvioivat, missä oma päättely ontuu ja mitä lisätietoa tarvittaisiin. Tuomarit – useampi, hieman erilaiseksi viritetty malli – kuuntelevat ja tekevät yhteenvedon. Lopullinen päätös syntyy näiden tuomarien yhteisestä arviosta.
Kuvitellaan arkipäiväinen esimerkki. Joku väittää, että tietty toimenpide “ehkäisee tartunnat täysin”. Oikeussalityylisessä menettelyssä kantaja nostaa esiin tutkimuksia, joissa tartunnat vähenivät. Vastaaja etsii todisteita olosuhteista, joissa väite ei pitänytkään – vaikkapa uusista virusmuunnoksista tai tilanteista, joissa ohjeita ei noudatettu. Jos käy ilmi, että aiemmat lähteet käsittelivät vain tiettyä vaihetta epidemiassa, mallit laajentavat hakua uudempiin aineistoihin. Tuomarit punnitsevat, mitä lähteet oikeasti sanovat, ja muodostavat loppupäätelmän: pitiikö alkuperäinen väite, missä rajoissa ja millaisin ehdoin.
Tutkijat testasivat ideaa Check-COVID-nimisessä vertailussa, jossa mitataan, pystyykö järjestelmä arvioimaan koronaan liittyvien väitteiden paikkansapitävyyttä. Ilman erillistä opettamista juuri tähän aineistoon tämä oikeussalimenettely saavutti 81,7 prosentin tarkkuuden. Se oli kymmenen prosenttiyksikköä parempi kuin tavanomainen malli, jossa useampi tekoäly väittelee, mutta ilman selkeää roolijakoa tai etenevää tiedonhakua. Tekijöiden mukaan etenkin vaiheittain laajeneva tiedonkeruu selitti erotusta: se toi yksin 7,5 prosenttiyksikön parannuksen. He päätyvät myös siihen, että selkeä menettely ja hieman eri tavoin viritettyjen tuomareiden käyttäminen yhdessä voivat lieventää mallien järjestelmällisiä vinoumia.
Miksi tällä on väliä? Koska monissa korkean riskin tilanteissa – lääketieteessä, politiikassa, oikeudessa – kysymys ei ole vain siitä, osaako malli tuottaa vakuuttavan tekstin. Tärkeämpää on, että vastaus nojaa läpinäkyvästi tarkistettuihin todisteisiin ja että järjestelmä pystyy myöntämään epävarmuutensa. Oikeussalista lainattu menettely tarjoaa rungon, joka pakottaa tekoälyn hankkimaan lisää tietoa silloin, kun sitä ei ole tarpeeksi, ja kirjaamaan, mihin se lopulta tukeutuu.
On silti syytä olla maltillinen. Tulokset on toistaiseksi raportoitu yhdellä korona-aiheisella aineistolla. Se, että järjestelmä toimii tässä, ei vielä kerro, kuinka hyvin se pärjää muissa aiheissa tai väite-tyypeissä. Myös 81,7 prosenttia tarkoittaa, että virheitä syntyy yhä. Tutkijat korostavat rakenteen ja mallien erilaisuuden etuja vinoumien vähentämisessä, mutta se ei poista kaikkea epävarmuutta yksittäisten lähteiden laadusta tai ristiriitaisista tutkimustuloksista. On myös ilmeistä, että tällainen moniroolinen menettely on monimutkaisempi kuin yhden vastauksen pyytäminen yhdeltä mallilta.
Havainnon arvo on kuitenkin laajempi kuin yksi koe. Se vihjaa, että tekoälyn luotettavuus ei synny vain suuremmista malleista tai pidemmistä koulutuksista, vaan myös menettelytavoista: siitä, miten kysymykset pilkotaan, miten todisteita etsitään ja kuka niistä päättää. Tekijät ovat julkaisseet koodinsa ja aineistonsa avoimesti, mikä helpottaa riippumatonta arviointia ja jatkokehitystä.
Jos haluamme tekoälyn, johon voi tukeutua kiistanalaisissa väitteissä, pitäisikö meidän siis vaatia siltä vähemmän nokkeluutta ja enemmän prosessia – vähemmän yksittäisen vastauksen loistoa ja enemmän oikeussalin kurinalaisuutta? Vastaus voi määrittää, millaiseksi faktantarkistuksen ja julkisen keskustelun perusta tulevina vuosina rakentuu.
Paper: https://arxiv.org/abs/2603.28488v1
Register: https://www.AiFeta.com
tekoäly faktantarkistus väitteet korona tutkimus