Pelkkä älykkyys ei riitä – tekoälyn käytöksessä ratkaisee osuminen “ihannevyöhykkeelle”

Share
Pelkkä älykkyys ei riitä – tekoälyn käytöksessä ratkaisee osuminen “ihannevyöhykkeelle”

Oletko joskus pyytänyt tekoälyä auttamaan, ja saanut joko pitkän, varovaisen kiemurtelun tai toisaalta itsevarman vastauksen, joka menee pieleen? Kumpikaan ääripää ei ole toivottava. Monessa tehtävässä – oli kyseessä lääkärikirjeen luonnostelu, ohjelmakoodin ehdotus tai vaikkapa matkavinkin antaminen – paras tulos syntyy, kun malli on sopivasti määrätietoinen, muttei holtiton; varovainen, muttei halvaantunut.

Tekoälyä on tähän asti mitattu pääosin sen mukaan, mihin se pystyy: pisteisiin kokeissa, tehtävien läpäisyihin, muistettujen faktojen määrään. Näin on syntynyt kuva kyvyistä, ikään kuin yleissivistyskoe koneille. Tuore esijulkaisu arXiv-palvelussa ehdottaa kuitenkin, että tämä jättää varjoon toisen, käytännössä ratkaisevan piirteen: mallien taipumukset. Ne ovat tapoja, joihin järjestelmä luontaisesti kallistuu – onko se altis ottamaan riskejä vai taipuvainen perääntymään, väittämään napakasti vai varmistamaan liikaa. Olennaista on, että sekä liika että liian vähän voivat olla ongelma.

Uuden työn keskeinen ajatus on yksinkertainen: monissa tehtävissä on olemassa “ihannevyöhyke”, jolle tekoälyn käyttäytymisen olisi syytä osua. Kun se osuu vyöhykkeelle, onnistumisen todennäköisyys kasvaa; kun se lipsuu sen ulkopuolelle, suoritus heikkenee – riippumatta siitä, onko mallilla sinänsä paljon tietoa tai laskentatehoa.

Ajatusta voi havainnollistaa arkisesti. Moottoritielläkään pelkkä auton teho ei ratkaise. Liian hidas vauhti tukkii liikennettä, liian kova aiheuttaa vaaratilanteita. Sujuva matka edellyttää sopivaa nopeutta, joka vaihtelee sään ja muun liikenteen mukaan. Samoin tekoälyn “nopeus” – esimerkiksi sen päättäväisyys tai varovaisuus – tarvitsee kontekstiin sopivan tason.

Tutkijat eivät tyydy periaatejulistukseen, vaan esittävät ensimmäisen täsmällisen tavan mitata tällaisia taipumuksia. He kuvaavat mallin onnistumisen todennäköisyyttä tilastollisesti niin, että se on suurimmillaan, kun käyttäytyminen asettuu ihannealueelle – ja pienenee, jos suunta karkaa kummallekin reunalle. Ihannevyöhykkeen rajoja he arvioivat suurten kielimallien avulla laadituilla, tehtävästä riippumattomilla arviointiperiaatteilla: yleisillä “tarkistuslistoilla”, jotka määrittelevät, millainen käytös on kulloinkin sopivaa.

Menetelmää sovellettiin kuuteen eri kielimalliperheeseen. Mallien käytöstä houkutteltiin kumpaankin suuntaan – joskus kohti liiallista varovaisuutta, joskus kohti ylikorostunutta itsevarmuutta – ja mitattiin, kuinka paljon taipumus siirtyi ja mitä seurauksia sillä oli tehtävissä. Tulokset olivat kaksihaaraiset, mutta valaisevat: taipumusmittarit, jotka arvioitiin yhdessä vertailussa, ennustivat mallien käyttäytymistä myös erillisissä, pidossa pidetyissä tehtävissä. Vielä parempia ennusteita saatiin, kun kykyjä ja taipumuksia yhdistettiin samaan arvioon.

Mitä tämä tarkoittaa arkikäytössä? Kuvitellaan sähköpostiluonnos, jossa pitää pyytää kollegalta lisäselvitystä virheestä. Jos tekoäly on liian varovainen, se saattaa rakentaa kirjeen niin pehmeäksi, että viesti hukkuu. Jos se on liian ponnekas, sävy kiristyy ja yhteistyö kärsii. Paras lopputulos syntyy, kun sävy osuu tiettyyn kaistaan: asiallinen, selkeä ja kunnioittava. Uusi mittaustapa yrittää nimenomaan löytää tämän kaistan ja kertoa, missä mallin luontainen suunta on siihen nähden – vasemmalla, oikealla vai keskellä.

Tähän asti kykytestit ovat antaneet meille summittaisen vastauksen kysymykseen: “Kuinka paljon malli osaa?” Nyt mukaan tulee toinen: “Miten malli tottuu käyttäytymään?” Tutkimus viittaa siihen, että jälkimmäisen ymmärtäminen auttaa ennustamaan sekä tehtävien sujumista että ei-toivottujen tilanteiden todennäköisyyttä paremmin kuin pelkkä kyvykkyyksien mittaaminen.

On kuitenkin syytä pitää jalat maassa. Kyse on varhaisesta kehikosta, joka nojaa monessa kohdassa oletuksiin. Ihannevyöhykkeen rajat päätellään sekin mallien avulla laadituilla periaatteilla – valinnoilla, joihin voi kätkeytyä vinoumia. Se, mikä on “ihanne”, riippuu tehtävästä ja ympäristöstä, ja vaihtelee ajassa. Tilastollinen oletus siitä, että ongelmia on molemmilla laidoilla, ei välttämättä päde kaikkiin käyttäytymisen piirteisiin tai kaikkiin sovelluksiin. Lisäksi kuusi malliperhettä on enemmän kuin anekdootti, mutta vähemmän kuin varma yleistys: emme vielä tiedä, miten hyvin malli skaalautuu muihin kielimalleihin, tutkimusalueisiin tai todellisiin käyttötilanteisiin.

Silti suunta on kiinnostava. Jos taipumuksia voidaan mitata johdonmukaisesti, mallien koulutuksessa ja käyttöönotossa voidaan tehdä tietoisempia valintoja: mihin suuntaan oletusasetuksia kannattaa säätää, miten malleja hankitaan eri tehtäviin, ja millä perusteella vertaillaan järjestelmiä, jotka paperilla ovat “yhtä hyviä”. Sääntelyssä ja julkisissa hankinnoissa saattaisi syntyä uudenlaisia laatukriteereitä, jotka eivät katso vain pistemääriä vaan myös todennäköisyyttä pysyä ihannekäytöksen sisällä.

Viime kädessä kysymys palaa ihmisille: kuka päättää, mikä on kussakin tilanteessa “ihanne”? Kun tekoäly toimii eri kulttuureissa, eri aloilla ja eri riskitasoilla, yhteinen kaista ei aina ole sama. Jos kyvykkyys kertoo, mihin malli pystyy, taipumusmittarit kysyvät, mihin suuntaan se todennäköisesti lähtee. Osaammeko me itse määritellä suunnan riittävän hyvin?

Paper: https://arxiv.org/abs/2602.18182v1

Register: https://www.AiFeta.com

tekoäly arviointi kielimallit tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen