Tekoälyavustaja on taitavimmillaan, kun se ponnistelee vain silloin kun päätös on aidosti vaikea
Kuka tahansa on klikkaillut verkkopalvelussa väärää nappia ja huomannut olevansa takaisin lähtöruudussa. Ihminen oppii nopeasti: selvässä tilanteessa ei jäädä märehtimään, epävarmassa pysähdytään ja tarkistetaan. Sama periaate alkaa hiipiä myös verkkosivuilla toimiviin tekoälyavustajiin.
Vielä hiljattain ajateltiin, että tekoälyn suoritusta voi parantaa yksinkertaisesti antamalla sille enemmän ”miettimisaikaa” joka vaiheessa. Kun malli kirjoittaa, klikkaa ja täyttää lomakkeita askel askeleelta, sille voi teettää samasta päätöksestä useita yrityksiä ja valita paras. Tätä tapaa on pidetty varmana keinona lisätä luotettavuutta.
Tuore tutkimus kyseenalaistaa tämän yhden koon politiikan. Kun tehtävä koostuu monista pienistä valinnoista – kuten verkossa navigoiminen – pienet virheet kasaantuvat. Tutkijat osoittavat, että tasainen lisäponnistus jokaisessa kohdassa antaa nopeasti yhä vähemmän vastinetta. Paremman tuloksen saa, kun kone käyttää ylimääräistä vaivaa vain silloin, kun sen oma äänestäminen paljastaa, että päätös on oikeasti kiistanalainen.
Kyse on verkkoagenteista, ohjelmista jotka selaavat sivuja, napsauttavat linkkejä ja syöttävät tietoja puolestamme. Niiden arki on pitkää peräkkäisten valintojen ketjua: siitä, mitä linkkiä painaa, mihin kenttään kirjoittaa, millä hakusanoilla jatkaa. Yksi lipsahdus alussa voi pilata lopputuloksen. Siksi on houkuttelevaa lisätä varmuutta joka askeleella – mutta juuri tässä tutkimus näkee rajan tulevan nopeasti vastaan pitkillä tehtävillä.
Tutkijat kävivät läpi, mitä tapahtuu, kun agentille annetaan lisää yrityksiä jokaisessa päätöksessä ja valitaan voittaja äänestyksellä. He havaitsivat, että hyöty saturaatiosta: lisä-äänet eivät enää parantaneet suoritusta merkittävästi, vaikka laskentaa kului enemmän. He kokeilivat myös vahvempaa kokoajaa, erillistä kielimallia, joka toimii tuomarina ja valitsee eri ehdotuksista parhaan. Se päihitti yksinkertaisen äänestyksen joissakin tapauksissa – mutta teki myös erikoisen virheen: se saattoi sivuuttaa selkeän enemmistön, kun olisi kannattanut luottaa siihen.
Ratkaiseva havainto oli agentin oma epävarmuus. Kun malli tuotti useita ehdotuksia samasta askeleesta, niiden jakautumisesta pystyi päättelemään, kuinka vaikea päätös oli: jos lähes kaikki ehdotukset valitsivat saman vaihtoehdon, tilanne oli ilmeinen; jos äänet hajosivat, edessä oli hankala valinta. Yksinkertaiset tilastot – kuten se, kuinka tasaisesti äänet jakautuivat ja kuinka iso ero oli kahden suosituimman vaihtoehdon välillä – ennustivat hyvin, miten todennäköisesti agentti onnistuu seuraavissa vaiheissa.
Tämän pohjalta tutkijat esittelivät menetelmän, joka jakaa lisälaskentaa vain, kun päätös on aidosti epäselvä. He kutsuvat sitä nimellä CATTS. Ajatus on arkinen: jos kaikki ehdotukset osoittavat samaan suuntaan, mennään eteenpäin. Jos mielipiteet erovat, pysähdytään, kokeillaan lisää vaihtoehtoja ja käytetään tarvittaessa tuomaria arvioimaan paras suunta. Näin laskentateho keskitetään paikkoihin, joissa siitä on eniten hyötyä.
Otetaan konkreettinen esimerkki. Ostat lentolippua ja sivulla on kaksi lähes samanlaista nappia: ”Vahvista” ja ”Jatka”. Ihminen saattaa katsoa ympärillä olevaa tekstiä, peruuttaa hetkeksi ja varmistaa, ettei päädy ostoskoriin ennen aikojaan. Vastaavasti agentti voi tuottaa useita ehdotuksia siitä, kumpaa painaa. Jos kaikki ehdottavat ”Vahvista”, lisäanalyysiin ei ole syytä. Jos äänet jakautuvat tasan, agentti käyttää hetken lisää: etsii sivulta vihjeitä, muodostaa uusia ehdotuksia ja pyytää tarvittaessa erillistä tuomaria poimimaan parhaan perustelun. Lisäponnistus kohdistuu siis juuri siihen kohtaan, jossa riski virheeseen on suurin.
Menetelmä testattiin kahdessa ympäristössä, WebArena-Lite- ja GoBrowse-nimisissä tehtävissä, jotka mittaavat verkkotehtävien suorittamista. Raportin mukaan uusi tapa paransi suoritusta enimmillään 9,1 prosenttiyksikköä verrattuna erääseen vertailumenetelmään nimeltä ReAct. Samalla se käytti jopa 2,3 kertaa vähemmän tekstiyksiköitä – tekoälymallien perusmittaa, joka karkeasti vastaa käsiteltyjen sanojen ja merkkien määrää – kuin tapa, jossa lisälaskentaa jaettiin tasaisesti joka askeleelle. Tuloksena oli siis sekä tarkempi että säästeliäämpi agentti, ja lisäksi päätössääntö pysyy ymmärrettävänä: lisätyötä tehdään vain, kun oma epävarmuus sitä ehdottaa.
Kuten aina, rajoituksia riittää. Havainto perustuu tiettyihin verkkoympäristöihin, joissa askelia on paljon ja polut ovat pitkiä. On vielä avoinna, kuinka hyvin sääntö toimii todellisen, alati muuttuvan verkon yllätyksissä. Epävarmuuden mitta nojaa agentin omiin ”ääniin” – jos ne syystä tai toisesta vinoutuvat, myös päätös siitä, milloin ponnistella enemmän, voi vinoutua. Tuomarina toimiva kielimalli taas voi yhä joskus ohittaa selkeän enemmistön, mikä vaatii varovaisuutta sen käytössä. Ja vaikka ”tekstiyksiköt” ovat kätevä kustannusmitta tekoälylle, ne eivät suoraan kerro todellisesta ajasta tai energiasta, jota menetelmä kuluttaa eri laitteissa.
Silti periaate on houkutteleva: älä tee vaikeasta helppoa, vaan kohtele helppoa helppona ja vaikeaa vaikeana. Kun tekoälyagentit siirtyvät yhä useampiin arjen tehtäviin, verolomakkeista terveyslomakkeisiin, kuka päättää, milloin koneen tulisi painaa jarrua ja milloin mennä vaistonvaraisesti eteenpäin? Ja jos epävarmuuden merkit ohjaavat nyt klikkaavia agenteja, pitäisikö saman logiikan ohjata myös muita koneita – robotteja, käännösohjelmia, jopa puhelinpalvelujen vastauksia?
Paper: https://arxiv.org/abs/2602.12276v1
Register: https://www.AiFeta.com
tekoäly verkkopalvelut kielimallit tutkimus tehokkuus käyttökokemus