Englanti ei olekaan kielimallien varmin kieli
Uusi analyysi viittaa siihen, että useat romaaniset kielet ohittavat englannin tekoälyn luetunymmärtämisessä – tärkeä tieto, kun yhä useampi kysyy koneelta neuvoa omalla kielellään.
Kuka ei olisi joskus vaihtanut chattibotin kanssa englanniksi, koska se kuulostaa “varmalta valinnalta”? On syntynyt hiljainen käytäntö: jos haluat parhaan vastauksen, kysy englanniksi. Mutta entä jos tämä peukalosääntö onkin väärä?
Tuore arXivissa julkaistu tutkimus tarkasteli kolmea suosittua, monikielistä kielimallia ja niiden kykyä ymmärtää tekstiä 12 eri kielellä. Kielet edustivat laajasti maailmaa: indoeurooppalaisia, seemiläisiä, turkkilaisia, sinotiibetiläisiä ja japanilaista kielikuntaa. Tulokset uhmaavat totuttua ajattelua. Mallit suoriutuivat yllättävän täsmällisesti monilla kielillä, mutta jäivät kaikissa ihmisten tasosta – ja englanti ei ollut kärjessä. Useat romaaniset kielet päihittivät sen, osa vieläpä sellaiset, joita pidetään tekoälyn koulutusaineistossa “pieninä”.
Tätä kannattaa pysähtyä ajattelemaan. Suurten kielten sanotaan dominoivan internetiä ja tekoälyn harjoitteludataa. Siksi on oletettu, että niiden päälle rakentuvat mallit osaavat parhaiten juuri englannin, ja toissijaisesti muita suuria kieliä. Tutkimus kuitenkin vihjaa, että kielen asema verkossa ei yksin määrää, miten hyvin malli sen ymmärtää.
Mitä “ymmärtäminen” tässä tarkoittaa? Yksinkertaisesti sitä, että malli lukee tekstin ja vastaa siihen perustuvaan kysymykseen oikein. Arjessa tällainen tilanne on helppo hahmottaa. Kuvittele lyhyt uutiskappale, jossa kerrotaan, että pormestari perui tapahtuman myrskyn vuoksi ja siirsi sen ensi kuulle. Kysymys voisi olla: kuka teki päätöksen ja miksi? Tutkimuksessa käytettiin tämänkaltaisia luetunymmärtämisen tehtäviä eri kielillä ja verrattiin mallien suoritusta ihmisten vastaustasoon.
Kuva, joka tuloksista piirtyy, on kaksijakoinen. Toisaalta mallit ovat jo varsin taitavia monilla, hyvinkin erilaisilla kielillä. Toisaalta ne eivät vielä yllä ihmisten tasolle yhdessäkään testatussa kielessä, ja ero ihmisiin vaihtelee kielittäin. Tämä tekee kielivalinnasta käytännön kysymyksen: jos haet koneelta varmaa koostetta artikkelista tai pyydät sen poimimaan olennaiset asiat raportista, paras kieli ei välttämättä ole se, jota olet aina käyttänyt.
Miksi englanti sitten jäi kakkoseksi tai kauemmas? Tutkimus ei anna yksiselitteistä syytä, mutta nostaa esiin tekijöitä, jotka näyttävät liittyvän suoritukseen.
- Sanottujen paloittelu. Kielimallit pilkkovat tekstiä pieniksi yksiköiksi ennen käsittelyä. Jos kieli pilkkoutuu epätarkoituksenmukaisesti, mallin on vaikeampi “nähdä” sanoja ja niiden suhteita. Joissakin kielissä tämä paloittelu toimii luontevammin kuin toisissa.
- Kielten sukulaisuus. Mallien suoritusta näytti selittävän se, kuinka lähellä kieli on mallien vahvoja kieliä, erityisesti espanjaa ja englantia. Läheinen sukulaisuus voi auttaa mallia yleistämään opittua taustatietoa.
- Datan määrä ja alkuperä. On väliä, kuinka paljon kieltä on ollut tarjolla harjoittelussa – ja mistä data on peräisin. Aineistojen vinoumat saattavat suosia kieliä, joista löytyy siistiä, muotoutunutta tekstiä. Niin sanotut WEIRD-yhteisöt (länsimaiset, koulutetut, teolliset, varakkaat ja demokraattiset) ovat usein yliedustettuja, mikä voi heikentää mallien kosketusta muunlaiseen kielenkäyttöön.
On tärkeää huomata, mitä tutkimus ei väitä. Se ei sano, että pienet kielet olisivat kauttaaltaan parempia kuin suuret – tai että englanti olisi huono. Se ei myöskään väitä, että romaanisten kielten ylivoima näkyisi kaikissa tehtävissä. Arvio kohdistui nimenomaan tekstin ymmärtämiseen, ei esimerkiksi koodin kirjoittamiseen, luovaan ilmaisuun tai faktojen hakuun. Lisäksi mukana oli 12 kieltä, ei koko maailman kirjo. Mallit olivat “suosittuja”, mutta eivät kaikki olemassa olevat.
Silti seuraukset arjelle ja yhteiskunnalle ovat todellisia. Jos esimerkiksi julkishallinto, media tai terveydenhuolto alkaa nojaamaan kielimalleihin tekstien tiivistämisessä ja kysymyksiin vastaamisessa, valittu kieli voi vaikuttaa tarkkuuteen. Sama koskee yksittäistä käyttäjää. Jos kirjoitat suomeksi ja kotikoneen malli ymmärtää suomen heikommin kuin erään romaanisen kielen, voi olla järkevää käyttää välikielenä kieltä, jota malli “tajuaa” paremmin – mutta tämä tuo heti mukanaan käännösvaiheen riskit.
Tutkimus asettaa peilin myös tekoälykehitykselle. Vertailutestit on perinteisesti tehty vahvoilla, “läntisillä” kielillä. Kun testivalikoimaa laajennetaan, tulokset yllättävät. Tämä ei välttämättä tarkoita, että mallit olisivat olleet “väärin mitattuja” aiemmin, mutta se tarkoittaa, että mitattiin vain osa-aluetta. Jos haluamme kielitekoälyn palvelevan ihmisiä maailmanlaajuisesti, mittareiden ja harjoitteludatan on heijastettava myös muunlaista kielenkäyttöä – murteita, arkisia lauseita, erilaisia kirjoitustyylejä ja tiedonaloja.
Epävarmuuksia riittää. Mallien koulutusaineistoista ei useinkaan ole täydellistä läpinäkyvyyttä, mikä vaikeuttaa syy–seuraus -johtopäätöksiä. Tulos “englanti ei ole paras” voi olla herkkä käytetylle tehtävätyypille, käännösten laadulle tai mallien päivityksille. Ja vaikka mallit kehittyvät nopeasti, ihmisten vertailutaso on toistaiseksi niilläkin horisontissa.
Silti viesti on selkeä: oletukset ansaitsevat tarkistuksen. Ehkä on aika opetella uusi nyrkkisääntö: kysy koneelta sillä kielellä, jolla se ymmärtää tekstin parhaiten – ei vain sillä, jolla sinä olet tottunut kirjoittamaan. Mutta kuka päättää, mikä kieli missäkin tilanteessa on paras, ja miten varmistamme, ettei digitaalinen kielimaisema kapene entisestään muutaman “mallikielen” ympärille?
Paper: https://arxiv.org/abs/2602.20065v1
Register: https://www.AiFeta.com
tekoäly kielet monikielisyys tutkimus LLM WEIRD