Tekoäly kääntyy yllättävän usein Japanin puoleen, kun kysymys on kulttuurista

Share
Tekoäly kääntyy yllättävän usein Japanin puoleen, kun kysymys on kulttuurista

Pyydä yleiskäyttöistä tekoälyä kertomaan Aasian nykykulttuurista ilman tarkempaa rajausta, ja saat todennäköisesti vastauksen, jossa Japani nousee etualalle. Manga, J‑pop, teeseremoniat, zen‑puutarhat – lista on tuttu. Joskus tuntuu, että maailman kulttuurien mosaiikki on kutistunut yhdeksi saareksi Tyynellämerellä.

Moni on pitänyt suurten kielimallien – siis ChatGPT:n kaltaisten tekstigeneraattorien – heikkoutena anglosentrisyyttä: oletus on, että ne korostavat Yhdysvaltoja ja Britanniaa. Tuore arXivissa julkaistu analyysi esittää jännitteen tälle käsitykselle. Kun malleja pyydetään vastaamaan avoimiin, kulttuuriin liittyviin kysymyksiin, ne osoittavat selvän taipumuksen suosia maita kuten Japania.

Tutkijat rakensivat sitä varten uuden aineiston, joka kokoaa yhteen niin sanottuja kulttuuriin liittyviä avoimia kysymyksiä. Ajatus on yksinkertainen: sen sijaan, että mallilta kysyttäisiin faktaa (kuten "mikä on Japanin pääkaupunki"), siltä pyydetään rikkaampia vastauksia (kuten "mitä kaupunkeja kannattaa tutkia, jos haluaa ymmärtää Aasian nykytaidetta"). Tällaisissa tilanteissa tekoälyn on valittava, mitä se nostaa esiin ja mitä jättää mainitsematta. Juuri näissä valinnoissa tutkimus havaitsee toistuvan painotuksen Japanin suuntaan.

Yksi esimerkki auttaa hahmottamaan ilmiötä ilman kaavoja tai tilastoja. Kuvitellaan kysymys: "Nimeä Aasian maita, joiden arkiruoka kannattaa tuntea." Vastauksia voisi olla monia – Intia, Vietnam, Kiina, Indonesia. Silti tutkimuksen mukaan tämänkaltaisissa avoimissa pyynnöissä mallit kallistuvat usein mainitsemaan Japanin ensimmäisten joukossa ja joskus useammin kuin muita. Yksittäinen maininta ei vielä kerro vinoumasta, mutta kun samanlainen kuvio toistuu sadoissa eri kysymyksissä, suunta alkaa piirtyä.

Hämmennystä lisää havainto kielen vaikutuksesta. Kun samaan aihepiiriin liittyviä pyyntöjä esitetään englanniksi tai muilla niin sanotuilla korkean resurssin kielillä – kielillä, joista on runsaasti harjoitusmateriaalia – mallit antavat keskimäärin monipuolisempia vastauksia. Ne myös näyttävät välttelevän ylikorostamasta maita, joiden virallinen kieli on sama kuin kysymyksen kieli. Toisin sanoen englanniksi kysyminen ei automaattisesti johda anglosentrisempään lopputulokseen, pikemminkin päinvastoin: kirjavuus lisääntyy.

Missä kohtaa tällainen kulttuurinen painotus syntyy? Tekoälymallien koulutus tapahtuu vaiheissa. Ensin niitä esikoulutetaan valtavilla tekstimassoilla ilman selkeitä ohjeita: malli oppii, millaista kieltä maailma tuottaa. Sen jälkeen seuraa viimeistely, jossa mallia opetetaan noudattamaan pyyntöjä ja antamaan "hyviä" vastauksia esimerkkien ja ihmisten palautteen avulla. Tutkimuksen mukaan ensimmäiset selkeät merkit kulttuurisista vinoumista ilmestyvät nimenomaan vasta tässä viimeistelyvaiheessa, eivät esikoulutuksen aikana. Se on tärkeä vihje: painotus ei välttämättä ole pelkkä peili koulutusdatasta, vaan voi liittyä siihen, millaisia vastauksia ihmiset ovat opastaneet mallien pitävän hyvinä.

Miksi tällä on väliä? Koska kielimalleista on tulossa arjen tietopankkeja. Ne ehdottavat matkoja, ruokareseptejä, kirjallisuus- ja musiikkilistauksia, ja ne tekevät sen vakuuttavalla äänellä. Jos tällainen työkalu ohjaa katseemme toistuvasti samaan suuntaan, opimme maailmasta kapeamman version kuin se on. Taipumus ei välttämättä ole pahantahtoinen tai edes virhe – Japanin kulttuurivaikutus on kiistatta suuri – mutta se on silti vinouma, joka ansaitsee tulla näkyväksi.

On samalla syytä olla reilu ja varovainen tulkinnoissa. Tutkimuksen tulokset eivät tarkoita, että mallit olisivat kautta linjan "Japanin asialla" tai että ne sivuuttaisivat järjestelmällisesti muun maailman. Ne osoittavat suunnan, eivät tuomiota. Lisäksi kyse on avoimista kysymyksistä, joissa on tilaa tulkinnalle. Mitä monipuolisuus tai painotus täsmälleen tarkoittaa, riippuu paljon kysymyksen sanamuodosta ja arviointitavasta. Myös mallit ja niiden versiot muuttuvat nopeasti; tämän päivän havainto voi lieventyä tai voimistua seuraavassa päivityksessä.

  • Kysymysten avoimuus tekee arvioinnista vaikeaa: milloin perusteltu korostus muuttuu vinoumaksi?
  • Kielivaikutus on keskimääräinen ilmiö, ei sääntö jokaiseen kysymykseen.
  • Viimeistelyvaiheeseen paikannettu vinouma kertoo ajankohdasta, ei vielä syystä. Emme tiedä, millaiset esimerkkivastaukset tai palautekäytännöt sitä ruokkivat.

Silti kokonaiskuva on selvä: kulttuurinen kattavuus ei synny itsestään, ei edes hyvin koulutetussa tekoälyssä. Jos haluamme malleja, jotka esittelevät maailman moninaisuuden tasapuolisemmin, se on suunnitteluratkaisu – alkaen siitä, millä kielillä niitä testataan ja millaisia esimerkkivastauksia niille syötetään viimeistelyssä.

Lopulta kysymys kuuluu: kun ulkoistamme uteliaisuuttamme koneille, millaisen kartan annamme niiden piirtää – ja kenen ääni kuuluu, kun ne päättävät, mitä maailmasta kannattaa nähdä ensin?

Paper: https://arxiv.org/abs/2604.21751v1

Register: https://www.AiFeta.com

tekoäly kielimallit kulttuuri vinouma tutkimus media

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen