Tekoäly oppii katsomaan kuvia myös vietnamiksi, kun data ja mittarit päivitetään

Share
Tekoäly oppii katsomaan kuvia myös vietnamiksi, kun data ja mittarit päivitetään

Matkalla otettu kuva torilta: muovipussissa vilahtaa keltainen hedelmä, ja joku kysyy puhelimelta vietnamin kielellä, mitä nainen pitää kädessään. Usein vastausta ei tule. Monelle kielelle tekoäly on oppinut puhumaan, mutta näkeminen ja vastaaminen yhtä aikaa on ollut pitkälti englannin varassa.

Jo pitkään on ajateltu, että kunhan kielimalli on riittävän vahva, se päättelee oikean vastauksen kuvasta esitettyyn kysymykseen. Käytännössä monet varhaiset järjestelmät arvailivat. Ne nojasivat kielen tilastoihin – esimerkiksi siihen, että punainen on kuvissa yleinen väri – eivätkä välttämättä katsoneet kuvaa kunnolla. Tähän taustaan iskeytyy uusi vietnamilainen avaus: automaattisesti koottu, laajamittainen aineisto, jonka tarkoitus on opettaa koneelle, miten kuvaan ja kysymykseen vastataan nimenomaan vietnamin kielellä. Samalla tekijät pistävät suurennuslasin alle sen, miten tällaisia järjestelmiä pitäisi arvioida.

Näkymä on osa laajempaa murrosta. Tietokoneet, jotka yhdistävät tekstin ja kuvan ymmärtämisen, ovat edenneet harppauksin suurten, valmiiksi koulutettujen kieli- ja kuvamallien ansiosta. Vietnamin kielelle kehitetty PhoBERT auttaa sanojen ja lauserakenteiden ymmärtämisessä, kun taas Vision Transformer -mallit oppivat, mihin kohtaan kuvaa kannattaa kiinnittää huomio. Kun nämä kohtaavat, syntyy kyky vastata kuvista esitettyihin kysymyksiin. Silti yksi pullonkaula on ollut sitkeä: data. Englanniksi aineistoja on kilometritolkulla; vietnamiksi vain joitakin kokoelmia, kuten ViVQA, OpenViVQA ja ViTextVQA, jotka ovat avanneet tien mutta eivät yksin riitä nostamaan laatua sinne, minne se voisi yltää.

Tuore työ tarttuu tähän suoraan. Siinä kootaan automaattisesti suuri opetus- ja testiaineisto vietnamilaiselle kuvakyselylle – siis tehtävälle, jossa koneen pitää sekä katsoa että vastata. Ajatus on yksinkertainen: jos kieltä on vähemmän, dataa pitää tehdä enemmän ja fiksummalla tavalla. Automaattinen kokoaminen on keino kasvattaa mittakaavaa ilman, että jokainen kuva ja vastaus merkittäisiin käsin.

Yhtä tärkeä on kuitenkin kysymys: miten mitataan edistystä? Perinteisesti on käytetty käännöksistä ja kuvateksteistä tuttuja mittareita, kuten BLEU:tä, METEORia ja CIDEr-arvoja, tai yksinkertaisia tarkkuus- ja osumatarkasteluja. Ne ovat nopeita ja halpoja, mutta ne eivät aina kerro, vastaako kone ihmisen mielestä oikein. Pieni sanajärjestyksen ero voi pudottaa pistettä, vaikka ajatus on sama; toisaalta näennäisesti sopiva sana voi mennä täysin metsään, jos kuva jäi katsomatta. Tutkimus vertaa näitä automaattisia mittareita monikielisessä asetelmassa ja tarkastelee, kuinka hyvin ne todella heijastavat ihmisten arvioita. Lisäksi se nojaa viimeaikaiseen havaintoon: suuret kielimallit – ne samat, joita käytetään tekoälyavustajissa – voivat toimia myös tuomareina ja tuottaa arvioita, jotka ovat lähempänä ihmisen käsitystä oikeasta vastauksesta.

Arjen esimerkki tekee ongelman näkyväksi. Kuvassa on kadunvarsikoju. Kysymys: ”Mitä hedelmää myyjä pitelee?” Helppo, jos näet kädessä banaanin. Vaikea, jos arvaat pelkän kielen perusteella, että ”omena” on yleinen vastaus. Koneen on ensin paikannettava oikea kohta kuvasta, tunnistettava esine ja sidottava se vietnamin sanaan. Vasta sitten se voi vastata lyhyesti ja oikein. Juuri tällaisissa tilanteissa automaattisesti koottu, laaja aineisto auttaa: se tarjoaa tuhansia ja taas tuhansia variaatioita, jotka pakottavat mallin katsomaan kuvaa eikä vain kieltä.

Taustalla on ajatus tasapuolisuudesta. Kun kieliä on paljon ja data epätasaisesti jakautunutta, arviointitavan on oltava reilu. Jos mittarit suosivat tiettyä sanamuotoa tai rangaisevat harmittomista eroista, kehittäjät optimoivat vääriä asioita. Vietnamin tapauksessa konteksti on erityisen kiinnostava: kieli on maailman puhutuimpia, mutta tekoälykehitys on silti ollut siitä pitkään jäljessä. Uusi aineisto tarjoaa yhteismitan, jota vasten voi testata sekä kieli- että kuvamallien yhdistelmiä ja asettaa tulokset rinnakkain.

On silti syytä pitää pää kylmänä. Automaattisesti kootut aineistot voivat sisältää virheitä ja vinoumia, jos lähdemateriaali on epätasaista tai jos generointi tulkitaan liian sinisilmäisesti. Käännöspohjaiset mittarit saattavat aliarvioida vastauksen oikeellisuutta, jos synonyymit tai paikalliset ilmaisut eivät osu yksiin. Ja vaikka suuret kielimallit tuomareina lupaavat parempaa yhdenmukaisuutta ihmisten kanssa, nekin ovat malleja – omine rajoituksineen ja mahdollisine harhoineen. Tutkimus tarkastelee näitä kysymyksiä järjestelmällisesti, mutta täydellistä mittaria ei vielä ole.

Toinen epävarmuus liittyy siirrettävyyteen. Vietnamin kielessä toimiva ratkaisu ei automaattisesti takaa samaa menestystä muissa kielissä, joissa rakenne, sanasto ja kirjoitusjärjestelmä poikkeavat. Toisaalta periaate – kasvatetaan dataa älykkäästi ja mitataan tavalla, joka palkitsee todellisen ymmärryksen – on yleispätevä. Se tarjoaa mallin, jota voi soveltaa myös muihin niin sanotusti vähäresurssisiin kieliin.

Entä sitten se torikuva? Jos kone oppii katsomaan ensin ja vastaamaan vasta sitten, kysymys ”Mitä myyjä pitelee?” saa luotettavan vastauksen myös silloin, kun se esitetään vietnamiksi. Se on pieni muutos yksittäisessä hetkessä, mutta iso periaate: tekoälyn pitäisi toimia yhtä hyvin kielestä riippumatta. Seuraava askel onkin poliittinen ja taloudellinen: kuka rahoittaa ja ylläpitää laadukasta aineistoa ja reiluja mittareita niille kielille, jotka eivät ole globaalin datavirran keskellä?

Paper: https://arxiv.org/abs/2603.09689v1

Register: https://www.AiFeta.com

tekoäly kieliteknologia tietokonenäkö tutkimus Vietnam arviointi

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen