tekoäly

Kun tekoäly saa sanoa “en tiedä”, sen tuomiot pitävät paremmin

Kari Jaaskelainen

16 Feb 2026 — 3 min read

Kuvittele kahden chatbottivastauksen vertailua: näytöllä on vastaus A ja vastaus B, ja pitäisi klikata kumpi on parempi. Joskus valinta on helppo. Usein ei. Silti koneet tekevät näitä valintoja jo teollisessa mitassa — suuria kielimalleja käytetään yhä useammin tuomareina päättämään, kumpi vastaus voittaa. Ja aivan kuten ihmiset, myös nämä tuomarit erehtyvät.

Vakiintunut ajatus on ollut, että mitä isompi ja taitavampi malli, sitä luotettavampi tuomio. Tai että mallin omasta “varmuudesta” voi lukea, milloin se on oikeassa. Uusi tutkimus ehdottaa maltillisempaa lähestymistapaa: ei yritetä kaikissa tilanteissa olla varmoja, vaan opetetaan tuomari jättämään epävarmat tapaukset väliin — ja kalibroidaan tämä varovaisuus niin, että hyväksyttyjen tuomioiden virheosuus pysyy ennalta asetun rajan alapuolella.

Tämä ajatus konkretisoituu SCOPE-nimisessä kehyksessä, joka on suunniteltu nimenomaan parivertaeluihin, joissa valitaan kahdesta vastauksesta parempi. Periaate on yksinkertainen: malli antaa tuomion vain, jos sen epävarmuus on tarpeeksi pieni. Kynnys, jonka alapuolella tuomio sallitaan, säädetään tilastollisesti niin, että hyväksyttyjen päätösten joukossa virheiden osuus on korkeintaan käyttäjän etukäteen määrittämä taso. Ehto on, että harjoitus- ja tuotantotapaukset ovat vertailukelpoisia — toisin sanoen uudet vertailut eivät ole systemaattisesti erilaisia kuin ne, joiden avulla kynnys on kalibroitu.

Mutta mistä malli tietää, milloin se on epävarma? Yksi yllättävän arkinen vinouma on vastausten esitysjärjestys: kun A näytetään ensin ja B toisena, osa malleista suosii jompaakumpaa pelkän paikan vuoksi. Tutkimuksessa esitelty BPE-menetelmä (Bidirectional Preference Entropy) lähtee tästä ongelmasta. Se kysyy tuomarilta saman vertailun kahdesti, mutta vaihtaa vastausten järjestyksen. Jos tuomio vaihtelee järjestyksen mukana tai jos malli arvioi molemmat vastaukset lähes yhtä hyviksi, epävarmuus luokitellaan suureksi. Jos malli pysyy päätöksessään riippumatta järjestyksestä, epävarmuus on pieni. Ajatus on arkipäiväinen: jos mieli muuttuu jo pelkän asettelun vuoksi, vakaata perustelua ei todennäköisesti ole.

Otetaan konkreettinen esimerkki. Kaksi mallia vastaa samaan kysymykseen junalipun vaihtamisesta. Ensimmäinen vastaus on selkeä mutta unohtaa mainita poikkeusajan; toinen on rönsyilevä mutta sisältää täsmällisen säännön. Kun vastaukset näytetään järjestyksessä A–B, tuomari kallistuu selkeyden puoleen. Kun järjestys käännetään B–A, tuomari pitääkin täsmällisyyttä tärkeämpänä. BPE lukee tästä ristiriidasta: kyseessä on epävarma tapaus, jossa on syytä pidättäytyä tuomiosta tai siirtää päätös ihmiselle tai vahvemmalle mallille. Sen sijaan tilanteessa, jossa tuomari valitsee johdonmukaisesti saman vastauksen molemmissa järjestyksissä, SCOPE ohjaa antamaan tuomion.

Kuinka pitkälle tällainen varovaisuus kantaa? Tutkimuksessa SCOPE ja BPE koeteltiin kolmessa laajasti käytetyssä vertailussa: MT-Benchissä, RewardBenchissä ja Chatbot Arenassa. Kun tavoiteriskiksi — siis hyväksyttyjen tuomioiden enimmäisvirheosuudeksi — asetettiin kymmenen prosenttia, järjestelmä pysyi käytännössä tämän rajan alapuolella eri mallikokoluokissa (empiria osoitti noin 9,7–9,9 prosentin virheriskin). Samalla se antoi tuomion valtaosassa tapauksia: RewardBenchissä hyväksyttyjen vertailujen osuus ylsi 0,89:ään keskikokoisella Qwen-14B-mallilla ja 0,98:aan suuremmalla Qwen-32B:llä. Lisäksi SCOPE kykeni hyväksymään jopa 2,4-kertaisesti enemmän tuomioita kuin yksinkertaiset vertailumenetelmät MT-Benchissä Qwen-7B:llä, kun riskiraja pidettiin samana. Näissä kokeissa BPE tuotti laadukkaamman epävarmuussignaalin kuin tavalliset “varmuusmittarit”, mikä auttoi karsimaan juuri ne tapaukset, joissa tuomio olisi todennäköisimmin väärä.

Miksi tämä on tärkeää? Suuret kielimallit toimivat jo monissa paikoissa halpoina sijaisina ihmisarvioijille: ne seulovat sisältöä, arvioivat vastauksia ja tekevät esivalintoja. Jos voidaan hallita virheiden osuutta hyväksytyissä tuomioissa ja ohjata vaikeat jutut muualle, ihmisten aikaa ja rahaa säästyy sinne, missä niistä on eniten hyötyä. Varovainen kieltäytyminen päätöksestä ei ole heikkous vaan ominaisuus — varsinkin, jos se on kalibroitu ennakoitavaksi.

Silti rajoituksia on. SCOPE käsittelee vain parivertaelua: se ei kerro, onko jokin vastaus itsessään “oikea”, vaan vain kumpi kahdesta on todennäköisesti parempi. Tilastollinen takuu edellyttää, että kalibrointiin käytetyt ja uudet vertailut ovat samaa maata; jos tehtävät muuttuvat tai ympäristö vaihtuu, takuu voi pettää. Menetelmä ei myöskään poista itse tuomarin — käytetyn kielimallin — mahdollisia vinoumia. Jos malli on järjestelmällisesti sokea tietyille virheille, se voi olla sokea niille myös silloin, kun se on “varma”. Ja kun malli jättää tuomitsematta, jonkun muun pitää ottaa vastuu: ihminen, suurempi malli tai toinen prosessi. Se maksaa, ja siksi kynnysten säätö on väistämättä myös taloudellinen päätös.

On hyvä muistaa, mitä tilastollinen lupaus tarkoittaa ja mitä ei: se kertoo, että hyväksyttyjen tuomioiden joukossa virheitä on keskimäärin korkeintaan ennalta määritetty osuus. Se ei takaa virheettömyyttä yksittäisessä tapauksessa, eikä se määrittele, mikä on “paras” vastaus tilanteissa, joissa arvoista voidaan olla eri mieltä.

Silti linjaus on tervetullut: parempi harkittu hiljaisuus kuin itsevarma erhe. Jos koneet jo arvioivat koneita, on reilua vaatia niiltä myös itsehillintää ja läpinäkyvää epävarmuutta. Seuraava kysymys kuuluu: opimmeko soveltamaan samaa periaatetta myös muihin automaattisiin päätöksiin — sisällön moderointiin, suosituksiin, ehkä eräänä päivänä terveydenhuollon esiseulontoihin — ja milloin olemme valmiit hyväksymään sen, että joskus viisainta on pyytää toinen mielipide?

Paper: https://arxiv.org/abs/2602.13110v1

Register: https://www.AiFeta.com

tekoäly kielimallit arviointi luotettavuus tilastot tutkimus

Kun tekoäly saa sanoa “en tiedä”, sen tuomiot pitävät paremmin

Kari Jaaskelainen

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen