tekoäly

Tekoälyn komitea puhuu totta useammin kuin yksittäinen asiantuntija

Kari Jaaskelainen

06 Apr 2026 — 3 min read

Moni on kokenut hetken, jossa kielimalli vastaa kysymykseen suvereenisti – ja väärin. Vaikkapa matkailija, joka selvittää netistä viisumisääntöjä ja saa itsevarman mutta virheellisen ohjeen. Tällaiset “harhat” eivät ole harvinaisia: suuret kielimallit osaavat kirjoittaa vakuuttavasti, mutta eivät aina tiedä, milloin ne eivät tiedä.

Pitkään on ajateltu, että lääkkeeksi auttaa vain suurempi ja taitavampi yksittäinen malli. Tuore arXiv-julkaisu ehdottaa toisenlaista reseptiä: laitetaan useampi malli saman pöydän ääreen, annetaan kullekin puheenvuoro ja pyydetään sitten puheenjohtajaa tiivistämään, missä osallistujat ovat samaa ja eri mieltä. Tutkimus esittelee “neuvostotilan”, jossa kysymys lähetetään rinnakkain useille erilaisille kielimalleille ja erillinen yhteenvetomalli kokoaa näiden näkemyksistä lopullisen vastauksen.

Lähtökohta on arkijärkinen. Jos yksi asiantuntija voi erehtyä, joukko erilaisia asiantuntijoita saattaa korjata toistensa sokeat pisteet. Kielimalleissa tämä tarkoittaa kahta asiaa. Ensiksi, kaikkiin kysymyksiin ei tarvita koko komiteaa: tutkimus kuvaa “triagen”, eli älykkään päivystyksen, joka arvioi ensin kysymyksen vaikeuden. Helppoon tiedusteluun vastataan suoraan. Vain monimutkaisemmat aiheet viedään neuvoston käsittelyyn. Toiseksi, kun useat mallit ovat saaneet sanoa sanottavansa, puheenjohtaja ei vain sulauta niitä yhdeksi mössöksi, vaan nimeää eksplisiittisesti sen, mistä mallit ovat yhtä mieltä, missä ne poikkeavat toisistaan ja mitä ainutlaatuista kukin nosti esiin.

Esimerkki auttaa hahmottamaan ideaa. Kysy: “Kuka keksi radion?” Historiankirjoissa vastaus ei ole yksiselitteinen. Yksi malli voisi korostaa Guglielmo Marconia, toinen nostaa esiin Nikola Teslan ja kolmas muistuttaa useista samanaikaisista keksinnöistä. Neuvosto-otteen puheenjohtaja kokoaisi: “Kaksi lähdettä korostaa Marconia langattoman lennättimen käytännön läpimurroista, yksi viittaa Teslan patentteihin ja riitoihin. Yhteenvetona: keksintö syntyi usean tutkijan työnä, mutta Marconia pidetään usein radion kaupallistajana.” Lopputulos ei ole vain yksi nimi, vaan reunaehdot ja epävarmuus tulevat näkyviin.

Tutkimus asettaa tämän lähestymistavan kilpasille yksittäisten mallien kanssa. Mittareina käytettiin julkisia testejä, joissa arvioidaan, kuinka usein malli “keksii” faktoja tai toistaa yleisiä harhaluuloja. Näissä kokeissa neuvoston linja toi tulosta: se vähensi harhaksi tulkittavia väitteitä 35,9 prosenttia HaluEval-testissä ja paransi tulosta TruthfulQA:ssa 7,8 pistettä verrattuna parhaaseen yksittäiseen malliin. Tutkijat raportoivat myös, että harhojen vaihtelu eri aihealueiden välillä pieneni. Suomeksi: malli ei ollut yhdessä teemassa kohtalainen ja toisessa huono, vaan sen käytös oli tasaisempaa aiheen vaihtuessa.

Miksi tällainen komitea voi auttaa? Osa nykyisistä suurista kielimalleista toimii “asiantuntijasekoituksena”: niiden sisällä on useita erikoistuneita alajärjestelmiä. Tutkijoiden mukaan vinoumat voivat pahentua, jos vain osa näistä sisäisistä asiantuntijoista aktivoituu vastaushetkellä. Monimuotoinen neuvosto, jossa eri taustaiset mallit pääsevät rinnakkain ääneen ja erillinen yhteenvetäjä tekee näkyväksi sekä yksimielisyyden että kiistat, voi tasata tätä epätasaisuutta.

On tärkeää huomata, mitä uusi tutkimus ei väitä. Se ei lupaa erehtymätöntä konetta. Jos kaikki neuvoston jäsenet ovat samaa mieltä väärästä asiasta, yhteenveto toistaa virheen, tosin mahdollisesti varovaisemmin sanankääntein. Myös testiympäristö on rajattu: tulokset perustuvat olemassa oleviin arviointiaineistoihin, jotka mittaavat tiettyjä kykyjä eivätkä välttämättä kata kaikkea todellista käyttöä. Neuvostomalli ei myöskään ole ilmainen lounas. Tutkimus lähettää kysymyksiä “rinnakkain useille eritaustaisille suurille malleille” ja käyttää erillistä konsensusmallia. Jo tämä prosessin kuvaus kertoo, että ratkaisu nojaa useaan voimakkaaseen komponenttiin yhtä aikaa. Se tekee järjestelmästä vääjäämättä raskaamman kuin yhden mallin ajaminen – olipa mittari sitten laskenta-aika, energiankulutus tai kustannus.

Silti lähestymistapa nostaa mielenkiintoisen peilin koko alalle. Tekoälykehitys on toistaiseksi painottanut yksittäisten mallien kasvattamista yhä suuremmiksi ja taitavammiksi. Neuvostotila ehdottaa toista polkua: järjestetään keskustelu, ei monologia. Se on teknisesti toteutettu avoimen lähdekoodin työtilassa, mutta idea on yleisempi. Myös ihmisorganisaatioissa monimutkaisia päätöksiä parannetaan usein sillä, että kuullaan useampaa asiantuntijaa ja tehdään näkyväksi, mistä he ovat samaa mieltä ja missä näkemykset eroavat.

Arjen sovelluksissa tällainen läpinäkyvyys voisi olla yhtä tärkeää kuin tarkkuuden parantaminen. Jos älykäs avustaja kertoisi, että “kolme mallia viidestä on tätä mieltä, kaksi esittää vaihtoehdon”, käyttäjä osaisi säätää luottamustaan. Se ei poista vastuuta lähteiden tarkistamisesta, mutta auttaa näkemään, milloin ollaan vankalla maaperällä ja milloin hiekalla.

Paljon jää vielä avoimeksi. Miten monta “ääntä” tarvitaan eri tehtäviin? Millainen yhdistelmä erilaisia malleja tuo parhaan lisäarvon ilman, että järjestelmä käy liian hitaaksi tai kalliiksi? Ja jos tulevaisuuden tekoäly on luotettavimmillaan komiteana, miten opetamme sen olemaan myös tiivis, selkeä ja ajassa kiinni? Voi olla, että seuraavan sukupolven luotettavin tekoäly ei näytä yhdeltä nerolta, vaan harkitsevalta kokouspöydältä.

Paper: https://arxiv.org/abs/2604.02923v1

Register: https://www.AiFeta.com

tekoäly kielimallit tutkimus luotettavuus harhat vinoumat

Tekoälyn komitea puhuu totta useammin kuin yksittäinen asiantuntija

Kari Jaaskelainen

Read more

Pieni kielimalli oppi kysymään taulukoilta ihmisen puolesta

Pelkkä kielto ei saa kuvallista tekoälyä unohtamaan

Tekoäly vastaa fiksummin, kun sille annetaan oikea tieto oikealla tavalla

Tekoäly voi olla sekä nopea että säästeliäs – jos se oppii milloin ajatella ääneen