Kielimallit noudattavat ohjeita valikoiden – jopa ohjeiden järjestys vaikuttaa

Kielimallit noudattavat ohjeita valikoiden – jopa ohjeiden järjestys vaikuttaa

Pyydä tekoälyä kirjoittamaan viisi lausetta, välttämään sanaa “mutta”, käyttämään kohteliasta sävyä ja päättämään tekstin kysymykseen. Usein saat kelvollisen vastauksen – kunnes huomaat, että viimeinen lause ei ole kysymys tai kielletty sana on livahtanut mukaan. Tuttu pieni särö paljastaa isomman ilmiön: kone ei aina tottele kaikkia ohjeita, vaikka tehtävä muuten onnistuisi.

Arkinen havainto on pitkään jäänyt taustalle, koska suuri yleiskuva on ollut optimistinen. Kun mallit ovat kasvaneet, niiden on sanottu “seuraavan ohjeita” yhä paremmin. Uusi tutkimus kääntää tätä oletusta: ohjeiden noudattaminen ei ole yksi yhtenäinen kyky. Se riippuu siitä, millaisia ehtoja annetaan, kuinka monta niitä on – ja jopa siitä, missä kohtaa tekstiä ne mainitaan.

Tätä väitettä ei esitetä pelkän vaikutelman varassa. Tutkijat rakensivat MOSAIC-nimisen testipaketin, joka arpoo käytännönläheisiä kirjoitustehtäviä ja liittää niihin jopa 20 erilaista ehtoa. Jipot ovat sellaisia, joita ihmiset oikeasti toivovat: tietty pituus, luettelomuoto, sävy, kiellettyjä sanoja, päivämäärän formaatti, lähteiden määrä. Testi tarkistaa nimenomaan ohjeiden toteutumisen – erillään siitä, sujuuko varsinainen tehtävä sinänsä.

Kun viittä eri kielimallia koeteltiin tällä tavalla, tulos oli yksiselitteinen: tottelevaisuus elää ehtojen laadun, määrän ja järjestyksen mukana. Mallit poimivat joitakin ehtoja johdonmukaisesti, mutta unohtavat toisia. Ehdot voivat myös tukea tai kampittaa toisiaan. Lisäksi havaittiin järjestysvinoumia: varhain annetut ohjeet painoivat välillä eniten, toisinaan taas loppuun asetetut säännöt veivät voiton.

Mitä tämä tarkoittaa käytännössä? Kuvitellaan pyyntö: “Kirjoita 120 sanan resepti, käytä passiivia, älä käytä sanaa ‘sokeri’, lisää kolme kohtaa luettelona lopussa.” Malli saattaa muistaa passiivin ja listan, mutta unohtaa sanamäärän – tai vältellä kiellettyä sanaa ja pysyä mitassa, mutta tehdä vahingossa listan alkuun. Kun ehtoja kasataan, jokin alkaa lipsua. Tutkimuksen viesti ei ole, että mallit epäonnistuvat aina, vaan että niiden onnistuminen ei ole tasalaatuista. Se riippuu siitä, mitä täsmälleen pyydetään ja miten pyyntö muotoillaan.

Tutkimuksen ansio on, että se erottaa toisistaan kaksi asiaa, jotka arjessa helposti sekoittuvat: tehtävän tuloksen ja sääntöjen noudattamisen. Ohjeiden noudattaminen on olennaista esimerkiksi silloin, kun viestinnässä on velvoitteita (lakiteksti, potilasohje, tarjouspyyntö) tai kun järjestelmä käyttää mallin tuottamaa tekstiä automaattisesti eteenpäin. On eri asia kirjoittaa “ihan kelpo vastaus” kuin tuottaa teksti, joka täyttää tietyt rajat pilkun tarkasti.

Samalla testaaminen paljastaa mallikohtaisia heikkouksia. Joillekin vaikeaa on pituuden hallinta, toisille kiellot. Yhdistelmäehdot voivat hämätä: kun pyydetään sekä tiettyä sävyä että tiettyä rakennetta, toinen kärsii. Tällaiset havainnot ovat kehittäjille arvokkaita, koska ne kertovat, mitä pitäisi korjata – muistia, päättelyä vai ohjeiden “tarkastuslistaa”.

Lukijan kannalta löydöksillä on kaksi käytännön seurasta. Ensinnäkin: järjestys vaikuttaa. Jos jokin sääntö on ehdottoman tärkeä, kannattaako se mainita alussa vai lopussa? Tutkimuksen perusteella molemmilla tavoilla on ollut merkitystä, mutta vaikutus riippuu mallista. Toiseksi: vähemmän voi olla enemmän. Kun ehtoja on paljon, noudattaminen hapertuu. Ytimekäs pyyntö ja kriittisten rajojen korostus parantavat todennäköisyyttä, että juuri ne toteutuvat.

On silti syytä olla varovainen tulkinnassa. MOSAIC on synteettinen testi: tehtävät ja ehdot rakennetaan sääntöjen perusteella, eivätkä ne ole peräisin oikeista asiakirjoista tai käyttötilanteista. Vaikka ehdot ovat käytännönläheisiä, voi olla, että todellisessa työssä esiintyvät epäselvyydet, konteksti ja neuvottelu pyyntöjen merkityksestä muuttavat kuvaa. Lisäksi arvio on rajattu ohjeiden noudattamiseen. Se ei kerro, ovatko väitteet tosia, tyyli luettava tai sisältö hyödyllinen – vain sen, toteutuivatko annetut rajat. Mukana oli viisi mallia, mikä antaa laajan, muttei kattavaa yleiskuvaa. Ja koska mallit päivittyvät nopeasti, tulokset ovat väistämättä hetkellisiä.

Silti perushavainto on vaikea ohittaa. Jos ohjeiden noudattaminen on pirstaleinen kyky, voimme lopettaa odottamasta yhtä nappia, joka korjaa kaiken. Silloin edistys syntyy kahdesta suunnasta: testien avulla paikannetaan, mitkä säännöt mallit oppivat ja mitkä unohtavat, ja käyttöliittymät auttavat ihmistä asettamaan tärkeimmät rajat selkeästi – ehkä jopa valitsemaan, mitkä säännöt ovat neuvoteltavia ja mitkä kiveen hakattuja.

Tekoälyltä odotetaan sekä luovuutta että kurinalaisuutta. Se on vaikea yhdistelmä, kun sääntöjä on paljon ja ne voivat olla ristiriidassa keskenään. Kysymys jää ilmaan: opimmeko me muotoilemaan pyyntömme koneille, vai pystymmekö rakentamaan koneita, jotka pystyvät lukemaan ja noudattamaan meidän sääntökirjaamme – myös silloin, kun sivuja on enemmän kuin yksi?

Paper: https://arxiv.org/abs/2601.18554v1

Register: https://www.AiFeta.com

tekoäly kielimallit ohjeet luotettavuus tutkimus

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen