Fiilistesti voi kääntää voimasuhteet tekoälymallien välillä

Share
Fiilistesti voi kääntää voimasuhteet tekoälymallien välillä

Fiilistesti voi kääntää voimasuhteet tekoälymallien välillä

Kun mallit arvioidaan käyttäjän omilla tehtävillä ja mieltymyksillä, voittaja ei aina ole se, joka johtaa mittaristoja.

Kaksi tekoälyapuria, sama kysymys – ja silti toinen vain tuntuu osuvan paremmin. Se ei ehkä ole nopeampi eikä saanut korkeinta arvosanaa vertailulistoilla, mutta sen vastaukset ovat selkeämpiä juuri sinulle. Moni tekee valintansa tämän tunteen, fiiliksen, perusteella, oli kyseessä koodari, opettaja tai yrittäjä.

Vuosien ajan on ajateltu, että paras kielimalli löytyy taulukoista: standardikokeista kootuista pisteistä, jotka järjestävät mallit paremmuusjärjestykseen. Tuore arXiv-esijulkaisu ehdottaa, että käytännön hyötyä etsivälle ihmiselle tätä tärkeämpi mittari on usein henkilökohtainen fiilistesti – ja että sen voisi tehdä näkyväksi ja toistettavaksi ilman taikatemppuja.

Kirjoittajat tutkivat ensin, miten ihmiset oikeasti arvioivat suuria kielimalleja, eli ChatGPT-tyyppisiä tekstiapureita. Aineistona oli kaksi lähdettä: kysely käyttäjien arviointitavoista sekä kokoelma netissä julkaistuja mallivertailuja blogeista ja sosiaalisesta mediasta. Yhteinen piirre löytyi: ihmiset muokkaavat sekä sen, mitä he testaavat, että sen, millä perusteilla he pitävät vastauksia hyvinä.

Tätä he kutsuvat fiilistestiksi ja määrittelevät sen kaksiosaiseksi: ensin käyttäjä valitsee omasta arjestaan tyypillisiä tehtäviä, sitten hän arvioi vastauksia omien kriteeriensä mukaan. Kriteerit voivat olla yllättävän arkisia: ymmärrettävyys, selitysaskelten näkyvyys, suomen kielen sujuvuus, turvallisuusohjeiden noudattaminen – tai vaikka se, että vastaus sopii suoraan liitettäväksi olemassa olevaan dokumenttiin.

Tutkimus ei jäänyt ilmiön kuvaamiseen. Kirjoittajat rakensivat myös kokeellisen menettelyn, joka yrittää toistaa tämän fiilistestin perusidean. Siinä mallille annetaan henkilökohtaisiksi muotoiltuja kysymyksiä ja vastauksia verrataan toisiinsa käyttäjää huomioivien, subjektiivisten kriteerien mukaan. Kokeet tehtiin ohjelmointitehtävillä, koska niissä on helppo määritellä käytännönläheisiä mieltymyksiä, kuten koodin luettavuus tai ohjeiden täsmällisyys.

Yksi esimerkki selventää ajatusta. Kuvitellaan kaksi mallia, jotka ratkaisevat saman pienen ohjelmointihaasteen. Toinen tuottaa tiiviin vastauksen, jossa on valmis koodipätkä – tehokas, mutta vaikealukuinen. Toinen antaa pidemmän selityksen ja jakaa ratkaisun vaiheisiin, jolloin koodia on helpompi sovittaa osaksi olemassa olevaa projektia. Perinteisessä pistetaulukossa kumpikin saattaa saada saman teknisen tuloksen, jos molempien koodi toimii. Henkilökohtaisessa arvioinnissa kriteerit ratkaisevat: kiireinen kehittäjä, joka haluaa nopeasti kopioitavaa koodia, suosii ensimmäistä; tiimissä työskentelevä kollega, joka arvostaa ylläpidettävyyttä ja selkeyttä, valitsee toisen. Tutkimuksen kokeissa kävi ilmi, että kun tehtävät ja arviointitapa henkilökohtaistettiin, myös suosikkimalli saattoi vaihtua.

Miksi tällä on väliä? Siksi, että arjen hyödyllisyys ei aina näy laboratoriossa mitatuissa pisteissä. Vertailulistat kertovat, miten malli pärjäsi tiettyjen kysymyspatteristojen kanssa, mutta eivät sitä, miten se auttaa juuri sinun työssäsi, omalla kielelläsi ja omilla tavoillasi. Fiilistestin muodollistaminen ei korvaa numeroita, mutta se voi täydentää niitä: pisteiden rinnalle tulee kuva siitä, milloin malli on käytännössä miellyttävä ja tehokas.

Tutkimuksen vahvuus on yksinkertainen havainto siitä, että arviointi on aina jossain määrin henkilökohtaista. Tämän näkyväksi tekeminen voi auttaa niin mallien ostajia kuin kehittäjiä: päätöksiä ei tarvitsisi perustaa pelkkiin listojen sija- ja pistelukemiin, vaan niihin voisi liittää läpinäkyvän kuvauksen siitä, millaisissa tehtävissä malli todella loistaa.

On kuitenkin syytä olla maltillinen. Esitelty menettely on toistaiseksi todiste-ideasta: se on kokeiltu ohjelmointitehtävissä, ei vielä esimerkiksi terveydenhuollon ohjeissa, opetuksessa tai oikeudellisissa luonnoksissa. Subjektiiviset kriteerit ovat juuri sitä – subjektiivisia. Se, mikä on yhdessä tiimissä hyvää kirjoitustyyliä, voi toisessa hidastaa. Lisäksi netistä koottu vertailuaineisto heijastaa juuri niiden ihmisten ääntä, jotka ylipäätään julkaisevat kokemuksiaan. Siksi tuloksia ei pidä lukea kuvauksena kaikkien käyttäjien tottumuksista.

Toinen avoin kysymys on toistettavuus. Jos fiilistesti räätälöidään vahvasti yksi käyttäjä mielessä, miten varmistetaan, ettei arviointi muutu sattumanvaraiseksi? Kirjoittajien ratkaisu on tehdä sekä tehtävien valinnasta että arviointiperusteista eksplisiittisiä: kirjataan auki, mitä testataan ja millä mitalla mitataan. Se on askel kohti läpinäkyvyyttä, mutta ei vielä takaa, että eri ihmiset päätyisivät samaan tulokseen samoilla ohjeilla.

Huomionarvoista on myös se, mitä tutkimus ei väitä. Se ei sano, että vertailulistat olisivat turhia tai että paras malli on aina se, joka tuntuu parhaalta. Ehdotus on vaatimattomampi: kun käyttäjien omat tehtävät ja mieltymykset otetaan osaksi arviointia, syntyy kuva, joka on lähempänä todellista käyttökokemusta. Kokeet viittaavat siihen, että tällainen arviointi voi jopa muuttaa käsitystä voittajasta.

Jos fiilistesti ja mittarit kulkevat jatkossa rinnakkain, seurauksena voi olla terveempi keskustelu tekoälyn hyödyistä ja haitoista. Numerot kertovat yleisestä suorituskyvystä, fiilistesti paljastaa, miten työ oikeasti sujuu. Jäljelle jää iso kysymys: kun yhä useampi arjen tehtävä siirtyy kielimalleille, miten tasapainotamme henkilökohtaisen mieltymyksen, yhteiset laatuvaatimukset ja turvallisuuden – ja kenen fiiliksestä lopulta tulee standardi?

Paper: https://arxiv.org/abs/2604.14137v1

Register: https://www.AiFeta.com

tekoäly arviointi kielimallit ohjelmointi tutkimus käyttäjäkokemus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen