Tekoäly toimii kauniissa säässä – mutta horjahtaa, kun olosuhteet vaihtuvat

Share
Tekoäly toimii kauniissa säässä – mutta horjahtaa, kun olosuhteet vaihtuvat

Puhelimesi osaa tunnistaa koiran kuvasta, navigaattori lukee nopeusrajoitusmerkin ja verkkokauppa löytää samanlaisia tuotteita pelkän valokuvan perusteella. Kaikki sujuu – kunnes jokin menee toisin kuin tavallisesti: merkki on naarmuuntunut, valaistus on outo tai tuttu esine esiintyy oudoissa puitteissa. Silloin koneen itsevarma vastaus voi muuttua arvaamiseksi.

Moni tekoälyjärjestelmä on opetettu valtavilla kuva- ja tekstimassoilla oletuksella, että uudetkin tilanteet muistuttavat riittävästi vanhoja. Reaalimaailma ei kuitenkaan toimi näin. Sairaalassa potilas voi näyttää poikkeukselliselta, tiellä voi olla yllättävä varjo tai kulunut maaliviiva. Juuri näissä hetkissä koneen on osattava sanoa, mitä se tietää – ja mitä ei.

Tähän arkeen liittyy jännite: pitkään on ajateltu, että kunhan malli on suuri ja kyllästetty datalla, se yleistää kaikenlaisiin tilanteisiin. Uusi vertailutesti, OODBench, esittää toisenlaisen näkymän. Sen mukaan suuret kuva–tekstimallit heikentyvät selvästi, kun ne kohtaavat aineistoa, joka poikkeaa niiden totutusta kokemuksesta. Heikentyminen näkyy jopa silloin, kun kuvassa on sinänsä tuttu aihe, mutta jokin sen esittämistapa on odottamaton.

Taustalla on perusasia, joka on helppo unohtaa: mallit oppivat tilastoja, eivät maalaisjärkeä. Jos ne on ruokittu pääosin kirkkaissa sisävaloissa otetuilla kuvikuvilla, hämärän parkkihallin harmaus voi olla niille vieras kieli. Tekoälytutkimuksessa tällaisista tilanteista puhutaan usein ”jakauman ulkopuolisina” – hetkinä, jolloin aineisto ei enää vastaa opittua todellisuutta.

Miten tällaista osaamista mitataan? Tutkimuksen tekijät rakentivat OODBench-nimisen aineiston ja arviointitavan, jotka on tehty pitkälti automaattisesti ja vaativat vain vähän ihmisen tarkistusta. Aineistossa on 40 000 tapausta, ja sitä käytetään kahdella tavalla: ensin mallit altistetaan poikkeaville kuville ja yhdistelmille, sitten niiden ymmärrystä mitataan kysymyksillä, jotka etenevät helposta vaikeaan. Ajatus on yksinkertainen: jos kuva on outo, heikkeneekö vastaus jo peruskysymyksiin – vai vasta silloin, kun pyydetään tulkitsemaan suhteita, yksityiskohtia ja taustaa?

Yksi tapa hahmottaa tätä ilman kaavaa on arkipäiväinen ”mitä tässä kuvassa on?” -leikki. Aluksi kysymys on helppo: ”Mikä esine kuvassa näkyy?” Seuraavaksi vaikeutetaan: ”Missä se sijaitsee muihin esineisiin nähden?” Lopuksi mennään vielä pidemmälle: ”Miksi esine on tässä ympäristössä ja mitä siitä voi päätellä?” OODBench nojaa tällaiseen perus–jatko -ajatteluun. Tulosten mukaan nykyiset suuret kuva–tekstimallit horjuvat portaalta toiselle siirryttäessä, kun kuva tai esitystapa on niiden näkökulmasta odottamaton.

Miksi tämä on tärkeää? Siksi, että virheellä on konteksteja, joissa on väliä. Tutkijat muistuttavat esimerkeistä, joissa väärä tai epävarma tulkinta voi olla turvallisuusriski: itseohjautuva ajoneuvo tai lääkinnällinen sovellus. Jos järjestelmä on viritetty menestymään vain tutuissa olosuhteissa, se voi pettää juuri silloin, kun tiet ovat jäiset, merkki on kaatunut tai potilaalla on harvinainen piirre.

Uutta on myös tapa, jolla arviointi tehdään. Aineiston kokoaminen ja mallien mittaaminen on pitkälti automatisoitu, ja tutkijat korostavat kehittäneensä luotettavan mittarin, joka kysyy sekä perus- että edistyneitä kysymyksiä. Tämä auttaa näkemään, missä kohtaa ketjua vieraus iskee: tökkiikö pelkkä tunnistus vai vasta monimutkaisempi päättely? Lisäksi tutkijat raportoivat tiivistettyjä havaintoja, joiden on tarkoitus ohjata jatkotyötä paremman datan keräämiseen ja arviointiin.

Samalla on syytä fiksuun varovaisuuteen. Yksikään vertailutesti ei kata koko maailmaa, eikä automaattisesti koottu aineisto näe kaikkia vivahteita. Vaikka inhimillinen työ säästyy, vähäinen käsin tehty tarkistus voi jättää yksittäisiä virheitä huomaamatta. Eikä ole itsestään selvää, miten hyvin keinotekoisesti kootut poikkeustilanteet vastaavat todellisia yllätyksiä teillä tai sairaaloissa. Tutkimus näyttää suunnan ja tuo esiin ongelman laajuuden, mutta se ei vielä ratkaise, miten mallit pitäisi kouluttaa tunnistamaan ”en tiedä” yhtä luontevasti kuin ihminen.

Silti signaali on selkeä: mittaaminen on muuttumassa. Jos ennen riitti, että malli loisti tutuissa testeissä, jatkossa sen on pärjättävä myös rajatapauksissa – ja pystyttävä kertomaan epävarmuudestaan. Se on epämukavaa, mutta välttämätöntä, jos tekoälyä aiotaan käyttää paikoissa, joissa virhe ei ole vain nolo, vaan kallis tai vaarallinen.

Laajempi kysymys jää ilmaan. Kun järjestelmät kulkevat yhä syvemmälle arkeemme, pitäisikö niiden läpäistä standardoitu ”oudon maailman koe” ennen kuin ne pääsevät tien päälle tai potilaan viereen? Vai pitäisikö meidän hyväksyä, että täydellistä kattavuutta ei ole – ja rakentaa ympärille prosesseja, jotka tunnistavat ja vaimentavat virheet ajoissa?

Paper: https://arxiv.org/abs/2602.18094v1

Register: https://www.AiFeta.com

tekoäly kuvantunnistus turvallisuus tutkimus kielimallit

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen