Kielimallit noudattavat ohjeita valikoiden – jopa ohjeiden järjestys vaikuttaa

Share
Kielimallit noudattavat ohjeita valikoiden – jopa ohjeiden järjestys vaikuttaa

Pyydä tekoälyä kirjoittamaan viisi lausetta, välttämään sanaa “mutta”, käyttämään kohteliasta sävyä ja päättämään tekstin kysymykseen. Usein saat kelvollisen vastauksen – kunnes huomaat, että viimeinen lause ei ole kysymys tai kielletty sana on livahtanut mukaan. Tuttu pieni särö paljastaa isomman ilmiön: kone ei aina tottele kaikkia ohjeita, vaikka tehtävä muuten onnistuisi.

Arkinen havainto on pitkään jäänyt taustalle, koska suuri yleiskuva on ollut optimistinen. Kun mallit ovat kasvaneet, niiden on sanottu “seuraavan ohjeita” yhä paremmin. Uusi tutkimus kääntää tätä oletusta: ohjeiden noudattaminen ei ole yksi yhtenäinen kyky. Se riippuu siitä, millaisia ehtoja annetaan, kuinka monta niitä on – ja jopa siitä, missä kohtaa tekstiä ne mainitaan.

Tätä väitettä ei esitetä pelkän vaikutelman varassa. Tutkijat rakensivat MOSAIC-nimisen testipaketin, joka arpoo käytännönläheisiä kirjoitustehtäviä ja liittää niihin jopa 20 erilaista ehtoa. Jipot ovat sellaisia, joita ihmiset oikeasti toivovat: tietty pituus, luettelomuoto, sävy, kiellettyjä sanoja, päivämäärän formaatti, lähteiden määrä. Testi tarkistaa nimenomaan ohjeiden toteutumisen – erillään siitä, sujuuko varsinainen tehtävä sinänsä.

Kun viittä eri kielimallia koeteltiin tällä tavalla, tulos oli yksiselitteinen: tottelevaisuus elää ehtojen laadun, määrän ja järjestyksen mukana. Mallit poimivat joitakin ehtoja johdonmukaisesti, mutta unohtavat toisia. Ehdot voivat myös tukea tai kampittaa toisiaan. Lisäksi havaittiin järjestysvinoumia: varhain annetut ohjeet painoivat välillä eniten, toisinaan taas loppuun asetetut säännöt veivät voiton.

Mitä tämä tarkoittaa käytännössä? Kuvitellaan pyyntö: “Kirjoita 120 sanan resepti, käytä passiivia, älä käytä sanaa ‘sokeri’, lisää kolme kohtaa luettelona lopussa.” Malli saattaa muistaa passiivin ja listan, mutta unohtaa sanamäärän – tai vältellä kiellettyä sanaa ja pysyä mitassa, mutta tehdä vahingossa listan alkuun. Kun ehtoja kasataan, jokin alkaa lipsua. Tutkimuksen viesti ei ole, että mallit epäonnistuvat aina, vaan että niiden onnistuminen ei ole tasalaatuista. Se riippuu siitä, mitä täsmälleen pyydetään ja miten pyyntö muotoillaan.

Tutkimuksen ansio on, että se erottaa toisistaan kaksi asiaa, jotka arjessa helposti sekoittuvat: tehtävän tuloksen ja sääntöjen noudattamisen. Ohjeiden noudattaminen on olennaista esimerkiksi silloin, kun viestinnässä on velvoitteita (lakiteksti, potilasohje, tarjouspyyntö) tai kun järjestelmä käyttää mallin tuottamaa tekstiä automaattisesti eteenpäin. On eri asia kirjoittaa “ihan kelpo vastaus” kuin tuottaa teksti, joka täyttää tietyt rajat pilkun tarkasti.

Samalla testaaminen paljastaa mallikohtaisia heikkouksia. Joillekin vaikeaa on pituuden hallinta, toisille kiellot. Yhdistelmäehdot voivat hämätä: kun pyydetään sekä tiettyä sävyä että tiettyä rakennetta, toinen kärsii. Tällaiset havainnot ovat kehittäjille arvokkaita, koska ne kertovat, mitä pitäisi korjata – muistia, päättelyä vai ohjeiden “tarkastuslistaa”.

Lukijan kannalta löydöksillä on kaksi käytännön seurasta. Ensinnäkin: järjestys vaikuttaa. Jos jokin sääntö on ehdottoman tärkeä, kannattaako se mainita alussa vai lopussa? Tutkimuksen perusteella molemmilla tavoilla on ollut merkitystä, mutta vaikutus riippuu mallista. Toiseksi: vähemmän voi olla enemmän. Kun ehtoja on paljon, noudattaminen hapertuu. Ytimekäs pyyntö ja kriittisten rajojen korostus parantavat todennäköisyyttä, että juuri ne toteutuvat.

On silti syytä olla varovainen tulkinnassa. MOSAIC on synteettinen testi: tehtävät ja ehdot rakennetaan sääntöjen perusteella, eivätkä ne ole peräisin oikeista asiakirjoista tai käyttötilanteista. Vaikka ehdot ovat käytännönläheisiä, voi olla, että todellisessa työssä esiintyvät epäselvyydet, konteksti ja neuvottelu pyyntöjen merkityksestä muuttavat kuvaa. Lisäksi arvio on rajattu ohjeiden noudattamiseen. Se ei kerro, ovatko väitteet tosia, tyyli luettava tai sisältö hyödyllinen – vain sen, toteutuivatko annetut rajat. Mukana oli viisi mallia, mikä antaa laajan, muttei kattavaa yleiskuvaa. Ja koska mallit päivittyvät nopeasti, tulokset ovat väistämättä hetkellisiä.

Silti perushavainto on vaikea ohittaa. Jos ohjeiden noudattaminen on pirstaleinen kyky, voimme lopettaa odottamasta yhtä nappia, joka korjaa kaiken. Silloin edistys syntyy kahdesta suunnasta: testien avulla paikannetaan, mitkä säännöt mallit oppivat ja mitkä unohtavat, ja käyttöliittymät auttavat ihmistä asettamaan tärkeimmät rajat selkeästi – ehkä jopa valitsemaan, mitkä säännöt ovat neuvoteltavia ja mitkä kiveen hakattuja.

Tekoälyltä odotetaan sekä luovuutta että kurinalaisuutta. Se on vaikea yhdistelmä, kun sääntöjä on paljon ja ne voivat olla ristiriidassa keskenään. Kysymys jää ilmaan: opimmeko me muotoilemaan pyyntömme koneille, vai pystymmekö rakentamaan koneita, jotka pystyvät lukemaan ja noudattamaan meidän sääntökirjaamme – myös silloin, kun sivuja on enemmän kuin yksi?

Paper: https://arxiv.org/abs/2601.18554v1

Register: https://www.AiFeta.com

tekoäly kielimallit ohjeet luotettavuus tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen