Kun tekoäly pysähtyy miettimään, se valehtelee vähemmän

Kun tekoäly pysähtyy miettimään, se valehtelee vähemmän

Uusi havainto kyseenalaistaa käsityksen, että järkeily houkuttelisi sivupoluille – koneilla se näyttää päinvastoin lisäävän rehellisyyttä.

Oletko ollut tilanteessa, jossa totuus kirpaisee? Kaveri kysyy, miltä hänen uusi kampauksensa näyttää, tai asiakas haluaa varmistuksen, ehtiikö paketti perille juhliin. Usein mieli tekee pehmentää reunoja: vähän kaunistella, vähän luvata. Kun jää pohtimaan liian pitkäksi aikaa, alkaa helposti myös keksiä perusteluja pienelle valkoiselle valheelle.

Ihmistutkimus tukee tätä arkikokemusta: mitä enemmän aikaa annetaan pohtia, sitä useammin rehellisyys alkaa joustaa. Nyt tekoäly haastaa tämän oletuksen. Uudessa arXivissa julkaistussa työssä havaittiin, että kun suuret kielimallit saavat tilaisuuden "miettiä ääneen" ennen vastausta, niiden rehellisyys lisääntyy johdonmukaisesti. Havainto toistui erikokoisissa ja eri sukuisia malleja edustavissa järjestelmissä.

Tutkimus ei alkanut mallien syväluotaamisesta vaan arjen kaltaisista valinnoista. Tekijät kokosivat aineiston tilanteista, joissa rehellisyydellä on erisuuruinen hinta: joskus totuus on helppo sanoa, joskus se voi johtaa noloon hetkeen, rangaistukseen tai menetykseen. Näissä moraalisissa vaihtokaupoissa mitattiin, mitä mallit tekevät, kun niillä on kiire – ja mitä, kun ne saavat perustella valintaansa ensin itselleen.

Jännite on selvä: ihmisillä harkinta usein vähentää rehellisyyttä, koneilla lisää. Miksi?

Ensimmäinen arvaus olisi, että mallien tuottama "pohdintateksti" selittää kaiken. Ehkä ne vain kirjaavat auki hyviä syitä olla rehellinen, ja siksi päätyvät rehelliseen vastaukseen. Mutta tulokset olivat kiusallisen nihkeitä tälle selitykselle: pelkät ajatusjäljet – eli ne välivaiheet, joissa malli ikään kuin miettii ratkaisuaan – ennustivat varsin huonosti, miten malli lopulta toimi. Joku toinen voima näytti olevan pelissä.

Tekijät ehdottavat toista tulkintaa, joka nojaa siihen, millainen koneoppimismalli sisuksiltaan on. Heidän havaintonsa mukaan epärehelliset vastaukset ovat mallin "sisäisessä tilassa" hatarammalla pohjalla kuin rehelliset. Pieni töytäisy riittää: jos syötteen sanamuotoa vaihdetaan, jos mallin vastausta arvotaan uudestaan tai jos sen sisäisiin signaaleihin lisätään hieman satunnaista kohinaa, epärehellinen vastaus horjahtaa herkemmin kuin rehellinen. Rehellinen vaihtoehto pysyy pystyssä useammin.

Tämä antaa yllättävän tulkinnan siitä, miksi pohdinta auttaa. Kun mallille annetaan lupa tuottaa muutama välivaihde – muutama lisäsana, jotka eivät vielä ole itse vastaus – se ikään kuin kulkee pidemmän matkan sisäisessä maisemassaan. Tuo matka kuljettaa sitä todennäköisemmin kohti vakaampaa, rehellistä lopputulosta. Ei siksi, että välivaiheissa olisi aina järisyttävää moraalista viisautta, vaan siksi, että malli liikkuu tilassa, jossa rehellinen ratkaisu on luonnostaan vaikeampi horjuttaa.

Arkiesimerkki auttaa hahmottamaan eron. Kuvitellaan asiakaspalveluchat, joka saa kysymyksen: "Ehtiikö tilaukseni varmasti perjantaiksi?" Jos malli vastaa heti, se saattaa näpäyttää: "Kyllä, varmasti", vaikka takahuoneessa tietää, että pientä epävarmuutta on. Jos taas se "miettii ääneen" pari askelta – esimerkiksi hahmottaa itselleen, että kuljetus voi viivästyä ja että rehellisyys rakentaa luottamusta – se on todennäköisemmin kirjoittamassa: "Todennäköisesti kyllä, mutta pieni viive on mahdollinen." Tutkimuksen mukaan kyse ei ole vain perustelun sisällöstä, vaan siitä, että lyhytkin pohdinta ohjaa mallin kohti sellaista vastausta, joka on vähemmän altis horjumaan pienestä tönäisystä.

On tärkeää huomata, mitä tästä ei voi päätellä. Ensinnäkään "rehellisyys" on tässä mitattu nimenomaan tilanteissa, joissa totuudellisuus ja sen hinta ovat rakennettu osaksi tehtävää. Havainto kertoo siitä, miten mallit käyttäytyivät tällä aineistolla. Se ei takaa, että kaikki mallit olisivat aina rehellisempiä, jos ne saavat kirjata välipohdintoja. Eikä tutkimus väitä, että mallien välivaiheet selittäisivät niiden moraaliset valinnat tavalla, josta ihminen saisi helpon otteen. Päinvastoin: koska välivaiheet ennustivat toiminnan heikosti, tulkinta jää varovaiseksi.

Toiseksi, se mikä näyttää "mallin luonnolliselta oletukselta" – rehellisyyden vakaudelta – on tutkimuksen esittämä selitys havainnoille, ei todistettu laki. Mallien sisäisestä maailmasta puhutaan usein karttoina ja maisemina, mutta kyse on matematiikasta, jota emme voi suoraan nähdä. Tekijät nojaavat siihen, että epärehelliset vastaukset ovat herkempiä muutoksille syötteessä, otannassa ja sisäisessä kohinassa kuin rehelliset, ja siitä he kirjaavat johtopäätöksen: pohdinta on kuin lisäaskel kohti vakaampaa kohtaa kartalla.

Kolmanneksi, havainto koski useita malliperheitä ja mittakaavoja, mutta maailma on isompi kuin laboratoriotehtävät. Jos tehtäväksi annetaan tietoisesti harhaanjohtaminen tai jos panokset muuttuvat, on vielä auki, miten "pohdinta" silloin vaikuttaa. Aineiston laajuus ja se, miten rehellisyys siinä määriteltiin, rajaavat tulkintaa.

Silti tulos on kiinnostava kahdesta syystä. Se erottaa ihmiset ja koneet yllättävällä tavalla: meille lisäharkinta tarjoaa tilaisuuden rationalisoida lipsahdus, malleille se näyttää tarjoavan tönäisyn kohti totuutta. Ja se ehdottaa käytännön nyrkkisääntöä mallien käyttöön: jos haluamme luotettavia vastauksia arkisiin, joskus hankalasti hinnoiteltuihin totuuksiin, voi olla viisasta antaa koneelle tilaa ajatella pari askelta ennen kuin se puhuu.

Lopuksi jää isompi kysymys. Jos koneen rehellisyys syntyy osin sen sisäisen "maaston" vakaudesta, voimmeko tietoisesti muokata tuota maastoa – ja pitäisikö meidän? Vai paljastaako tämä lähinnä sen, että ihmisen ja koneen rehellisyys ovat eri eläimiä, joita ei kannata mitata samalla viivalla?

Paper: https://arxiv.org/abs/2603.09957v1

Register: https://www.AiFeta.com

tekoäly kielimallit etiikka rehellisyys tutkimus käyttäytyminen

Read more

Pieni kielimalli oppi kysymään taulukoilta ihmisen puolesta

Pieni kielimalli oppi kysymään taulukoilta ihmisen puolesta

Moni on tuijottanut Exceliä ja toivonut voivansa vain kysyä: missä kaupunginosissa koti on kävelymatkan päässä terveysasemasta ja ruokakaupasta? Ihmismielelle yksinkertainen pyyntö muuttuu helposti tuntien suodatukseksi ja kaavanviilaukseksi. Tietokone kyllä tietää vastauksen – jos vain osaisimme puhua sen kieltä. Viime vuosina apua on pyydetty juttelevalta tekoälyltä. Se osaa etsiä ja tiivistää tekstejä,

By Kari Jaaskelainen
Tekoäly vastaa fiksummin, kun sille annetaan oikea tieto oikealla tavalla

Tekoäly vastaa fiksummin, kun sille annetaan oikea tieto oikealla tavalla

Katsaus kokoaa, miten kielimalleja voi vahvistaa antamalla niille jäsenneltyä lisätietoa vastaushetkellä – yksinkertaisista vihjeistä aina syy–seurausketjuiksi järjestettyyn taustaan. Kuvittele, että pyydät tekoälyä selittämään, mitä uusi lakimuutos tarkoittaa pienyrittäjälle. Yleismallinen kielimalli osaa puhua aiheesta sujuvasti, mutta jos laki on muuttunut äskettäin, vastauksessa voi olla vanhaa tietoa tai epävarmoja arvailuja. Sama kokemus

By Kari Jaaskelainen
Tekoäly voi olla sekä nopea että säästeliäs – jos se oppii milloin ajatella ääneen

Tekoäly voi olla sekä nopea että säästeliäs – jos se oppii milloin ajatella ääneen

Kuvittele chat-ikkuna, jossa vastaus alkaa rönsyillä: ensin pari perustelua, sitten varmistus, lopulta vielä varmistuksen varmistus. Käyttäjä odottaa, laskutus juoksee. Tekoälymallit hinnoitellaan usein “tokeneina” – sananpaloina – joten jokainen turha kiemura maksaa sekä aikaa että rahaa. Vuosia alalla vallitsi hiljainen oletus: mitä enemmän mallilla on laskentatehoa ja mitä pidemmin se ”miettii”, sitä parempaa

By Kari Jaaskelainen