Fiilistesti voi kääntää voimasuhteet tekoälymallien välillä
Fiilistesti voi kääntää voimasuhteet tekoälymallien välillä
Kun mallit arvioidaan käyttäjän omilla tehtävillä ja mieltymyksillä, voittaja ei aina ole se, joka johtaa mittaristoja.
Kaksi tekoälyapuria, sama kysymys – ja silti toinen vain tuntuu osuvan paremmin. Se ei ehkä ole nopeampi eikä saanut korkeinta arvosanaa vertailulistoilla, mutta sen vastaukset ovat selkeämpiä juuri sinulle. Moni tekee valintansa tämän tunteen, fiiliksen, perusteella, oli kyseessä koodari, opettaja tai yrittäjä.
Vuosien ajan on ajateltu, että paras kielimalli löytyy taulukoista: standardikokeista kootuista pisteistä, jotka järjestävät mallit paremmuusjärjestykseen. Tuore arXiv-esijulkaisu ehdottaa, että käytännön hyötyä etsivälle ihmiselle tätä tärkeämpi mittari on usein henkilökohtainen fiilistesti – ja että sen voisi tehdä näkyväksi ja toistettavaksi ilman taikatemppuja.
Kirjoittajat tutkivat ensin, miten ihmiset oikeasti arvioivat suuria kielimalleja, eli ChatGPT-tyyppisiä tekstiapureita. Aineistona oli kaksi lähdettä: kysely käyttäjien arviointitavoista sekä kokoelma netissä julkaistuja mallivertailuja blogeista ja sosiaalisesta mediasta. Yhteinen piirre löytyi: ihmiset muokkaavat sekä sen, mitä he testaavat, että sen, millä perusteilla he pitävät vastauksia hyvinä.
Tätä he kutsuvat fiilistestiksi ja määrittelevät sen kaksiosaiseksi: ensin käyttäjä valitsee omasta arjestaan tyypillisiä tehtäviä, sitten hän arvioi vastauksia omien kriteeriensä mukaan. Kriteerit voivat olla yllättävän arkisia: ymmärrettävyys, selitysaskelten näkyvyys, suomen kielen sujuvuus, turvallisuusohjeiden noudattaminen – tai vaikka se, että vastaus sopii suoraan liitettäväksi olemassa olevaan dokumenttiin.
Tutkimus ei jäänyt ilmiön kuvaamiseen. Kirjoittajat rakensivat myös kokeellisen menettelyn, joka yrittää toistaa tämän fiilistestin perusidean. Siinä mallille annetaan henkilökohtaisiksi muotoiltuja kysymyksiä ja vastauksia verrataan toisiinsa käyttäjää huomioivien, subjektiivisten kriteerien mukaan. Kokeet tehtiin ohjelmointitehtävillä, koska niissä on helppo määritellä käytännönläheisiä mieltymyksiä, kuten koodin luettavuus tai ohjeiden täsmällisyys.
Yksi esimerkki selventää ajatusta. Kuvitellaan kaksi mallia, jotka ratkaisevat saman pienen ohjelmointihaasteen. Toinen tuottaa tiiviin vastauksen, jossa on valmis koodipätkä – tehokas, mutta vaikealukuinen. Toinen antaa pidemmän selityksen ja jakaa ratkaisun vaiheisiin, jolloin koodia on helpompi sovittaa osaksi olemassa olevaa projektia. Perinteisessä pistetaulukossa kumpikin saattaa saada saman teknisen tuloksen, jos molempien koodi toimii. Henkilökohtaisessa arvioinnissa kriteerit ratkaisevat: kiireinen kehittäjä, joka haluaa nopeasti kopioitavaa koodia, suosii ensimmäistä; tiimissä työskentelevä kollega, joka arvostaa ylläpidettävyyttä ja selkeyttä, valitsee toisen. Tutkimuksen kokeissa kävi ilmi, että kun tehtävät ja arviointitapa henkilökohtaistettiin, myös suosikkimalli saattoi vaihtua.
Miksi tällä on väliä? Siksi, että arjen hyödyllisyys ei aina näy laboratoriossa mitatuissa pisteissä. Vertailulistat kertovat, miten malli pärjäsi tiettyjen kysymyspatteristojen kanssa, mutta eivät sitä, miten se auttaa juuri sinun työssäsi, omalla kielelläsi ja omilla tavoillasi. Fiilistestin muodollistaminen ei korvaa numeroita, mutta se voi täydentää niitä: pisteiden rinnalle tulee kuva siitä, milloin malli on käytännössä miellyttävä ja tehokas.
Tutkimuksen vahvuus on yksinkertainen havainto siitä, että arviointi on aina jossain määrin henkilökohtaista. Tämän näkyväksi tekeminen voi auttaa niin mallien ostajia kuin kehittäjiä: päätöksiä ei tarvitsisi perustaa pelkkiin listojen sija- ja pistelukemiin, vaan niihin voisi liittää läpinäkyvän kuvauksen siitä, millaisissa tehtävissä malli todella loistaa.
On kuitenkin syytä olla maltillinen. Esitelty menettely on toistaiseksi todiste-ideasta: se on kokeiltu ohjelmointitehtävissä, ei vielä esimerkiksi terveydenhuollon ohjeissa, opetuksessa tai oikeudellisissa luonnoksissa. Subjektiiviset kriteerit ovat juuri sitä – subjektiivisia. Se, mikä on yhdessä tiimissä hyvää kirjoitustyyliä, voi toisessa hidastaa. Lisäksi netistä koottu vertailuaineisto heijastaa juuri niiden ihmisten ääntä, jotka ylipäätään julkaisevat kokemuksiaan. Siksi tuloksia ei pidä lukea kuvauksena kaikkien käyttäjien tottumuksista.
Toinen avoin kysymys on toistettavuus. Jos fiilistesti räätälöidään vahvasti yksi käyttäjä mielessä, miten varmistetaan, ettei arviointi muutu sattumanvaraiseksi? Kirjoittajien ratkaisu on tehdä sekä tehtävien valinnasta että arviointiperusteista eksplisiittisiä: kirjataan auki, mitä testataan ja millä mitalla mitataan. Se on askel kohti läpinäkyvyyttä, mutta ei vielä takaa, että eri ihmiset päätyisivät samaan tulokseen samoilla ohjeilla.
Huomionarvoista on myös se, mitä tutkimus ei väitä. Se ei sano, että vertailulistat olisivat turhia tai että paras malli on aina se, joka tuntuu parhaalta. Ehdotus on vaatimattomampi: kun käyttäjien omat tehtävät ja mieltymykset otetaan osaksi arviointia, syntyy kuva, joka on lähempänä todellista käyttökokemusta. Kokeet viittaavat siihen, että tällainen arviointi voi jopa muuttaa käsitystä voittajasta.
Jos fiilistesti ja mittarit kulkevat jatkossa rinnakkain, seurauksena voi olla terveempi keskustelu tekoälyn hyödyistä ja haitoista. Numerot kertovat yleisestä suorituskyvystä, fiilistesti paljastaa, miten työ oikeasti sujuu. Jäljelle jää iso kysymys: kun yhä useampi arjen tehtävä siirtyy kielimalleille, miten tasapainotamme henkilökohtaisen mieltymyksen, yhteiset laatuvaatimukset ja turvallisuuden – ja kenen fiiliksestä lopulta tulee standardi?
Paper: https://arxiv.org/abs/2604.14137v1
Register: https://www.AiFeta.com
tekoäly arviointi kielimallit ohjelmointi tutkimus käyttäjäkokemus