Tekoäly oppii katsomaan kuvia myös vietnamiksi, kun data ja mittarit päivitetään
Matkalla otettu kuva torilta: muovipussissa vilahtaa keltainen hedelmä, ja joku kysyy puhelimelta vietnamin kielellä, mitä nainen pitää kädessään. Usein vastausta ei tule. Monelle kielelle tekoäly on oppinut puhumaan, mutta näkeminen ja vastaaminen yhtä aikaa on ollut pitkälti englannin varassa.
Jo pitkään on ajateltu, että kunhan kielimalli on riittävän vahva, se päättelee oikean vastauksen kuvasta esitettyyn kysymykseen. Käytännössä monet varhaiset järjestelmät arvailivat. Ne nojasivat kielen tilastoihin – esimerkiksi siihen, että punainen on kuvissa yleinen väri – eivätkä välttämättä katsoneet kuvaa kunnolla. Tähän taustaan iskeytyy uusi vietnamilainen avaus: automaattisesti koottu, laajamittainen aineisto, jonka tarkoitus on opettaa koneelle, miten kuvaan ja kysymykseen vastataan nimenomaan vietnamin kielellä. Samalla tekijät pistävät suurennuslasin alle sen, miten tällaisia järjestelmiä pitäisi arvioida.
Näkymä on osa laajempaa murrosta. Tietokoneet, jotka yhdistävät tekstin ja kuvan ymmärtämisen, ovat edenneet harppauksin suurten, valmiiksi koulutettujen kieli- ja kuvamallien ansiosta. Vietnamin kielelle kehitetty PhoBERT auttaa sanojen ja lauserakenteiden ymmärtämisessä, kun taas Vision Transformer -mallit oppivat, mihin kohtaan kuvaa kannattaa kiinnittää huomio. Kun nämä kohtaavat, syntyy kyky vastata kuvista esitettyihin kysymyksiin. Silti yksi pullonkaula on ollut sitkeä: data. Englanniksi aineistoja on kilometritolkulla; vietnamiksi vain joitakin kokoelmia, kuten ViVQA, OpenViVQA ja ViTextVQA, jotka ovat avanneet tien mutta eivät yksin riitä nostamaan laatua sinne, minne se voisi yltää.
Tuore työ tarttuu tähän suoraan. Siinä kootaan automaattisesti suuri opetus- ja testiaineisto vietnamilaiselle kuvakyselylle – siis tehtävälle, jossa koneen pitää sekä katsoa että vastata. Ajatus on yksinkertainen: jos kieltä on vähemmän, dataa pitää tehdä enemmän ja fiksummalla tavalla. Automaattinen kokoaminen on keino kasvattaa mittakaavaa ilman, että jokainen kuva ja vastaus merkittäisiin käsin.
Yhtä tärkeä on kuitenkin kysymys: miten mitataan edistystä? Perinteisesti on käytetty käännöksistä ja kuvateksteistä tuttuja mittareita, kuten BLEU:tä, METEORia ja CIDEr-arvoja, tai yksinkertaisia tarkkuus- ja osumatarkasteluja. Ne ovat nopeita ja halpoja, mutta ne eivät aina kerro, vastaako kone ihmisen mielestä oikein. Pieni sanajärjestyksen ero voi pudottaa pistettä, vaikka ajatus on sama; toisaalta näennäisesti sopiva sana voi mennä täysin metsään, jos kuva jäi katsomatta. Tutkimus vertaa näitä automaattisia mittareita monikielisessä asetelmassa ja tarkastelee, kuinka hyvin ne todella heijastavat ihmisten arvioita. Lisäksi se nojaa viimeaikaiseen havaintoon: suuret kielimallit – ne samat, joita käytetään tekoälyavustajissa – voivat toimia myös tuomareina ja tuottaa arvioita, jotka ovat lähempänä ihmisen käsitystä oikeasta vastauksesta.
Arjen esimerkki tekee ongelman näkyväksi. Kuvassa on kadunvarsikoju. Kysymys: ”Mitä hedelmää myyjä pitelee?” Helppo, jos näet kädessä banaanin. Vaikea, jos arvaat pelkän kielen perusteella, että ”omena” on yleinen vastaus. Koneen on ensin paikannettava oikea kohta kuvasta, tunnistettava esine ja sidottava se vietnamin sanaan. Vasta sitten se voi vastata lyhyesti ja oikein. Juuri tällaisissa tilanteissa automaattisesti koottu, laaja aineisto auttaa: se tarjoaa tuhansia ja taas tuhansia variaatioita, jotka pakottavat mallin katsomaan kuvaa eikä vain kieltä.
Taustalla on ajatus tasapuolisuudesta. Kun kieliä on paljon ja data epätasaisesti jakautunutta, arviointitavan on oltava reilu. Jos mittarit suosivat tiettyä sanamuotoa tai rangaisevat harmittomista eroista, kehittäjät optimoivat vääriä asioita. Vietnamin tapauksessa konteksti on erityisen kiinnostava: kieli on maailman puhutuimpia, mutta tekoälykehitys on silti ollut siitä pitkään jäljessä. Uusi aineisto tarjoaa yhteismitan, jota vasten voi testata sekä kieli- että kuvamallien yhdistelmiä ja asettaa tulokset rinnakkain.
On silti syytä pitää pää kylmänä. Automaattisesti kootut aineistot voivat sisältää virheitä ja vinoumia, jos lähdemateriaali on epätasaista tai jos generointi tulkitaan liian sinisilmäisesti. Käännöspohjaiset mittarit saattavat aliarvioida vastauksen oikeellisuutta, jos synonyymit tai paikalliset ilmaisut eivät osu yksiin. Ja vaikka suuret kielimallit tuomareina lupaavat parempaa yhdenmukaisuutta ihmisten kanssa, nekin ovat malleja – omine rajoituksineen ja mahdollisine harhoineen. Tutkimus tarkastelee näitä kysymyksiä järjestelmällisesti, mutta täydellistä mittaria ei vielä ole.
Toinen epävarmuus liittyy siirrettävyyteen. Vietnamin kielessä toimiva ratkaisu ei automaattisesti takaa samaa menestystä muissa kielissä, joissa rakenne, sanasto ja kirjoitusjärjestelmä poikkeavat. Toisaalta periaate – kasvatetaan dataa älykkäästi ja mitataan tavalla, joka palkitsee todellisen ymmärryksen – on yleispätevä. Se tarjoaa mallin, jota voi soveltaa myös muihin niin sanotusti vähäresurssisiin kieliin.
Entä sitten se torikuva? Jos kone oppii katsomaan ensin ja vastaamaan vasta sitten, kysymys ”Mitä myyjä pitelee?” saa luotettavan vastauksen myös silloin, kun se esitetään vietnamiksi. Se on pieni muutos yksittäisessä hetkessä, mutta iso periaate: tekoälyn pitäisi toimia yhtä hyvin kielestä riippumatta. Seuraava askel onkin poliittinen ja taloudellinen: kuka rahoittaa ja ylläpitää laadukasta aineistoa ja reiluja mittareita niille kielille, jotka eivät ole globaalin datavirran keskellä?
Paper: https://arxiv.org/abs/2603.09689v1
Register: https://www.AiFeta.com
tekoäly kieliteknologia tietokonenäkö tutkimus Vietnam arviointi