Uutisissa totuudenetsijä ei ehkä ole tuomari vaan opas
Aamukahvi kädessä selaat puhelimesta näyttävää uutista. Osa kommenteista vannoo jutun puolesta, osa tyrmää sen harhaanjohtavana. Pitäisikö juttu uskoa, sivuuttaa vai etsiä lisää taustaa? Valmiin tuomion pyytäminen on helppoa – mutta entä jos parempi tapa on kysyä parempia kysymyksiä?
Uutisten luotettavuudesta puhutaan usein kuin liikennevaloista: vihreä on totta, punainen ei. Tällainen kaksijako houkuttelee, mutta harvoin tekee oikeutta monimutkaiselle todellisuudelle. Tuore kansainvälinen työ ehdottaa toisenlaista lähestymistapaa: tekoäly ei julista totuutta vaan auttaa lukijaa tutkimaan. Se tekee sen kahdella tavalla – ehdottamalla tutkivia jatkokysymyksiä ja kokoamalla lyhyen, lähteistetyn yhteenvedon – ja tarjoaa samalla mittarit, joilla tällaisia apuvälineitä voidaan arvioida.
Taustalla on TREC 2025 -tapahtuman DRAGUN-osa-alue, jossa kehitettiin ja testattiin lukijaa auttavia järjestelmiä. Niiden idea on arkinen: työkalu hakee taustamateriaalia rajatusta dokumenttikokoelmasta ja kirjoittaa lukijalle ymmärrettävän, lähteisiin nojaavan selosteen. Ennen selostetta se laatii listan kymmenestä jatkokysymyksestä, jotka ohjaavat huomion olennaiseen. Tarkoitus ei ole päättää keskustelua, vaan avata sitä.
Näiden apuvälineiden arviointi on vaikeaa, ellei ole yhteistä käsitystä siitä, mikä tekee lukijan kannalta hyvän kysymyksen tai hyvän tiivistelmän. DRAGUNin arvioijat ratkaisivat ongelman laatimalla 30 eri uutisartikkelille tarkistuslistat: joukko tärkeysjärjestykseen asetettuja kysymyksiä ja kuhunkin odotettuja, lyhyitä vastauksia. Listat kuvaavat, mitä tietoa arvioijat pitivät olennaisena, jotta jutun luotettavuutta voisi puntaroida. Tämän jälkeen arvioijat käyttivät listojaan pisteyttääkseen kilpailuun osallistuneiden järjestelmien tuotoksia.
Jotta tehtävät ja niiden tarkistuslistat olisivat muidenkin käytettävissä, järjestäjät rakensivat automatisoidun arvioijan. Se pystyy antamaan pisteitä myös sellaisille järjestelmäajoille, joita ihmiset eivät alkuperäisessä arvioinnissa käyneet läpi. Miten hyvin kone osuu yksiin ihmisten kanssa? Melko hyvin: automatisoitu arviointi tuotti samansuuntaisia järjestyksiä kuin ihmisten käsin tekemä arviointi sekä kysymyslistojen että 250 sanan raporttien kohdalla. Yhtenevyyttä mitattiin tilastollisella kertoimella, joka oli kysymystehtävässä 0,678 ja raporttitehtävässä 0,872 – ensin mainitussa kohtalainen, jälkimmäisessä jo varsin korkea.
Ajatuksen arvo selviää parhaiten esimerkillä. Kuvitellaan uutinen, jossa väitetään, että jokin toimenpide vähentää rikollisuutta kaupungissa. Lukijaa auttava järjestelmä ei lyö leimaa ”tosi” tai ”epätosi”. Sen sijaan se tuottaa kymmenen kysymystä: Kuka väittää ja mihin perustaa? Mitä ajanjaksoa luvut koskevat? Onko vertailukohta sama? Mitä muut riippumattomat lähteet sanovat? Minkälaisia vastaväitteitä on esitetty? Samalla järjestelmä kokoaa lyhyen, viitteistetyn raportin: ”Tässä on tiivistelmä siitä, mitä asiasta löytyy taustadokumenteista, ja tässä ne lähteet, joihin väitteet nojaavat.” Lukijan ei tarvitse uskoa konetta, vaan hänelle annetaan työkalut puntaroida itse.
Työ on kiinnostava kahdesta syystä. Ensinnäkin se siirtää painopistettä väittämän tuomitsemisesta lukijan tukemiseen. Toiseksi se tarjoaa yhteiset tehtävät ja arviointitavat, joiden avulla tällaisia apuvälineitä voidaan kehittää ja vertailla. Avoimesti julkaistut resurssit – kaksi selkeästi määriteltyä tehtävää, niihin liittyvät tarkistuslistat ja automatisoitu arvioija – tekevät kokeilusta toistettavaa ja antavat lähtökohdan jatkotutkimukselle. Ihmisten tekemä arviointi toimii samalla mittapuuna, johon automaatiota voidaan verrata.
Rajoituksiakin on. Arviointiaineisto kattaa 30 uutisartikkelia, ei koko mediakenttää. Tarkistuslistat heijastavat niiden arvioijien käsityksiä siitä, mitä lukijan kannattaa tietää – toiset olisivat ehkä painottaneet toisin. Automaattinen arviointi seuraa ihmisiä melko hyvin, muttei täydellisesti, etenkin kysymystehtävässä. Ja koska raportit ovat rajattu 250 sanaan ja pohjautuvat tiettyyn dokumenttikokoelmaan, ne eivät kata kaikkea mahdollista taustaa. Näistä syistä ihmisarvio säilyy vertailukohtana, ei korvattavana.
Silti lähestymistapa tuntuu ajassa oikealta. Uutiset elävät nopeasti, eikä kukaan yksin pysty kaivamaan kaikkea olennaista esiin. Jos kone voi auttaa meitä muotoilemaan parempia kysymyksiä ja löytämään lähteet, se voi vahvistaa sitä lukutaitoa, jolle demokraattinen keskustelu rakentuu. DRAGUNin kaltaiset mittarit eivät ratkaise, mikä on totta, mutta ne voivat kertoa, mikä auttaa meitä ottamaan siitä selvän – ja kuinka hyvin avustajat tässä onnistuvat.
Lopulta kysymys kohdistuu meihin lukijoihin: haluammeko tekoälyn, joka päättää puolestamme, vai apurin, joka terävöittää omaa ajatteluamme? Ja jos valitsemme jälkimmäisen, miten varmistamme, että apuri kysyy juuri ne kysymykset, joita meidän olisi pitänyt kysyä alun perinkin?
Paper: https://arxiv.org/abs/2602.24277v1
Register: https://www.AiFeta.com
uutiset tekoäly luotettavuus media arviointi tutkimus