Kysymys voi sokaista tekoälyn silmät

Share
Kysymys voi sokaista tekoälyn silmät

Kuvaa ja tekstiä yhdistelevät mallit erehtyvät usein, koska ne uskovat liikaa kysymyksen viitteisiin – ei siksi, että “näkö” olisi rikki.

Kuvittele arkipäiväinen tilanne: avaat puhelimen kameran, näytät tekoälylle valokuvan olohuoneesta ja kysyt ripeästi: “Miksi koira nukkuu sohvalla peiton alla?” Hetken päästä saat sujuvan selityksen – vaikka kuvassa ei ole koiraa, ehkä vain ruttuinen tyyny. Tekoäly kuulosti vakuuttavalta, mutta se kertoi tarinan, ei totuutta.

Tällaisia lipsahduksia kutsutaan hallusinaatioiksi: malli väittää näkevänsä jotain, mitä kuvassa ei ole. Pitkään yleinen selitys oli, että kuvapuoli on liian heikko – kameran “silmät” eivät ole yhtä terävät kuin kielen “aivot”. Uusi, arXivissa julkaistu tutkimus ehdottaa toisenlaista pääepäiltyä: usein vika ei ole silmissä vaan korvissa. Toisin sanoen malli ottaa kuulemma turhan kirjaimellisesti sen, mitä me ihmiset kysymme tai vihjaamme, ja antaa ohjetekstin ohittaa kuvan.

Tutkijat rakensivat HalluScope-nimisen testipaketin selvittääkseen, mistä hallusinaatiot oikeasti kumpuavat, kun mallit käsittelevät sekä kuvaa että kieltä. Heidän analyysinsä viittaa siihen, että suurin syy on “tekstuaalinen ennakko-oletus”: taustatieto ja ennen kaikkea se, miten kysymys on muotoiltu, painaa vaakakupissa enemmän kuin itse kuva. Jos ohjeessa tai kysymyksessä on oletus – esimerkiksi että kuvassa todella on koira tai että banaani on vihreä – malli alkaa täydentää maailmaa sen varaan.

Käytännössä tämä näkyy juuri arkisissa väärinymmärryksissä. Jos kysymys jo väittää, että kuvassa on jokin esine tai tapahtuma, malli usein jatkaa samalla olettamuksella sen sijaan, että pysähtyisi katsomaan kuvaa tarkemmin ja sanoisi: “En näe sitä, mistä puhut.” Esimerkiksi “Miksi liikennevalo on rikki?” voi johtaa vastaukseen, vaikka kuvassa ei edes olisi liikennevaloa. Tulos on kieliopillisesti moitteeton mutta tosiasiassa tuulesta temmattu.

Tähän asti ratkaisuksi on usein tarjottu parempaa “näkökykyä”: lisää datasta opittuja kuvapiirteitä, isompi malli, tarkempi liitospiste kuvan ja tekstin välillä. Uusi näyttö kuitenkin vihjaa, että huomio pitäisi kohdistaa myös siihen, miten malli ottaa ohjeita vastaan. Jos ohjeet ohjaavat liikaa, vahvistettu näkö ei pelasta – malli yhä täydentää kuvaa sen mukaan, mitä sille annetaan ymmärtää.

Tutkimus ei tyydy pelkkään diagnoosiin, vaan kokeilee myös lääkettä. Tekijät esittelevät HalluVL-DPO-nimisen menetelmän, joka hienosäätää valmiita malleja kohti kuvapohjaisempaa harkintaa. Ajatus on yksinkertainen, vaikka toteutus on tekninen: mallille näytetään parivertailuja vastauksista samaan kuvaan ja kysymykseen, ja sitä opetetaan suosimaan sellaista vastausta, joka pysyy uskollisena kuvalle eikä niele kysymyksen vihjettä. Tavoitteena on, että malli oppii sanomaan useammin “sitä ei näy kuvassa” silloin kun niin on laita.

Tekijöiden mukaan hienosäädetty malli vähensi nimenomaan ohjetekstistä juontuvia hallusinaatioita, eikä se kärsinyt muilla testeillä – paikoin tulokset jopa paranivat. Lisäksi ryhmä lupaa julkaista testipaketin, koulutusaineiston ja koodin, jotta muut voivat toistaa havainnot ja jatkaa kehitystä.

On hyvä huomata rajat. Ensinnäkin testipaketti simuloi tietyntyyppisiä tilanteita: se paljastaa, miten malli käyttäytyy, kun kysymys johdattelee. Mutta oikeassa elämässä kysymysten tyyli, kieli ja kuvat vaihtelevat paljon. Onko parannus pysyvä myös vapaassa, monikielisessä käytössä? Toiseksi menetelmä nojaa huolellisesti koottuun vertailuaineistoon. Jos aineisto on kapea, mallista voi tulla lähinnä taitava välttelemään juuri senkaltaisia ansoja – ja toisaalla se kompastuu uusiin. Kolmanneksi kaikki hallusinaatiot eivät synny ohjetekstistä. Jos kuva on suttuinen tai rajattu oudosti, tai jos mallilla on vahva taustaoletus arkitilanteista, virheitä tulee silti.

Riskejä on myös käytännössä. Jos mallia koulitaan torjumaan johdattelevia kysymyksiä, siitä voi tulla liian varovainen: se kieltäytyy vastaamasta silloinkin, kun kuvassa todella on se, mitä kysymys ehdottaa. Tasapaino suoraselkäisen “en näe sitä” -asenteen ja riittävän päättelyn välillä on herkkä.

Silti tutkimuksen viesti on terveellinen. Se kääntää katseen pois pelkästä raudasta ja kohti käyttöliittymää ja ihmisen tapaa ohjata konetta. Jos sanat voivat sokaista tekoälyn silmät, ratkaisu ei ole pelkästään terävämpi katse vaan myös paremmat kysymykset – ja malli, joka uskaltaa epäillä niitä. Tämä koskee sovelluksia, joissa panokset ovat suuret: lääketieteelliset kuvat, teollisuuden laadunvalvonta, uutiskuvien tarkistus. Niissä kielikukkanen ei ole harmiton, vaan virhe, joka voi johtaa vääriin johtopäätöksiin.

Ehkä tärkein käytännön oppi meille kaikille on yksinkertainen. Kun kysymme kuvia ymmärtävältä tekoälyltä, kannattaa välttää oletuksia sisältäviä johdattelua: “Mitä tässä näkyy?” on turvallisempi kuin “Miksi tässä on…?”. Ja malleille pitäisi opettaa ammattilaisen hyve: kun todisteet eivät riitä, sanotaan se ääneen.

Yksi iso kysymys jää ilmaan. Jos tulevaisuuden tekoäly osaa sekä katsoa että keskustella, miten rakennamme siitä kumppanin, joka ei miellyttääkseen keksi vastauksia vaan kysyy meiltä takaisin: “Oletko varma, että se todella on kuvassa?”

Paper: https://arxiv.org/abs/2604.21911v1

Register: https://www.AiFeta.com

tekoäly kuvantunnistus kielimallit tutkimus luotettavuus hallusinaatiot

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen