tekoäly

Avoimesta kielimallista paljastuu, mistä vastaukset oikeasti tulevat

Kari Jaaskelainen

24 Feb 2026 — 3 min read

Kysyt tekoälyltä, kuka kirjoitti Anna Kareninan. Vastaus tulee empimättä: Leo Tolstoi. Kysyt seuraavaksi harvinaisemman faktan, ja vastaus onkin epävarma tai väärä. Jos vielä annat koneelle pitkän taustatekstin, se ei välttämättä auta – joskus runsas mutta asiaan kuulumaton tieto jopa sotkee. Moni on huomannut tämän arjessa, mutta syy on ollut hämärän peitossa, koska kielimallien opetusmateriaalit ovat yleensä suljettuja.

Uusi, pienille mutta läpinäkyville kielimalleille tehty kokeellinen aineisto ehdottaa selitystä: mallit ovat hyviä siinä, mitä ne ovat nähneet usein, ja ulkopuolelta annettu tuki auttaa – muttei poista etulyöntiasemaa, joka syntyy siitä, että vastaus on ollut mallin ”mielessä” jo valmiiksi. Lisäksi epäolennainen tieto näyttää olevan myrkkyä: mitä enemmän ja mitä aiemmin turhaa tekstiä koneelle syötetään, sitä suurempi riski, että oikea vastaus jää varjoon.

Vuosia keskustelu on pyörinyt sen ympärillä, mitä kielimallit todella ”tietävät”. Ongelma on ollut käytännöllinen: opetusdata on ollut musta laatikko. Ei ole tiedetty, mitä malli on lukenut ja mitä ei, joten on ollut vaikea erottaa, tuleeko vastaus mallin sisäisestä muistista vai sen hetkellä lukemasta lähteestä. Nyt julkaistu NanoKnow-niminen aineisto käyttää hyväkseen poikkeusta: nanochatiksi kutsuttuja pieniä kielimalleja, joiden opetusmateriaali on avoin. Kun aineisto on avointa, voidaan tarkistaa, onko tietty vastaus ollut mallin opittavana ja kuinka usein se siellä esiintyy.

NanoKnow jakaa kysymykset kahteen pinoon: niihin, joiden vastaukset esiintyvät varmasti nanochat-mallien opetusmateriaalissa, ja niihin, joissa vastaus ei esiinny. Kysymykset on poimittu kahdesta tunnetusta yleissivistävästä kysymyskokoelmasta. Tutkijat testasivat useita nanochat-mallien versioita kahdessa tilanteessa: ilman mitään ulkopuolista apua ja tilanteessa, jossa mallille annetaan myös taustatekstiä, ikään kuin hakutulos, josta vastaus löytyy.

Tulokset piirtävät yksinkertaisen mutta painavan kuvan.

Kun malli vastaa ilman ulkopuolista aineistoa, osumatarkkuus seuraa suoraan sitä, miten usein vastaus esiintyi sen opetuksessa. Usein nähtyihin vastauksiin se osuu, harvinaisiin ei.
Kun mallille annetaan ulkoista näyttöä – esimerkiksi kappale tekstistä, jossa vastaus on – riippuvuus opitusta harvinaisuudesta pienenee. Malli pystyy tukeutumaan siihen, mitä se näkee nyt.
Silti etumatka säilyy: jos vastaus oli mallille entuudestaan tuttu, se on ulkoisen näytön kanssa vielä parempi. Mallin sisäinen muisti ja ulkoinen tieto toimivat siis käsi kädessä.
Asiaan kuulumaton teksti on haitallista. Mitä enemmän epäolennaista aineistoa mallille annetaan – ja mitä aikaisemmin se tulee vastaan – sitä todennäköisemmin vastaus menee pieleen.

Arjessa tämä näkyy vaikkapa näin. Kuvitellaan, että malli on lukenut useita kirjoituksia Tolstoista, mutta vain muutaman maininnan vähemmän tunnetusta kirjailijasta. Jos kysytään suoraan, kumpi kirjoitti tietyn teoksen, ilman lisämateriaalia malli arvaa todennäköisemmin oikein Tolstoin kohdalla. Jos taas kysymyksen mukana annetaan selkeä tekstikatkelma, jossa vastaus kerrotaan, malli parantaa suoritustaan myös harvinaisen kirjailijan kohdalla. Mutta jos samaan katkelmaan sekoitetaan sivupolkuja ja aiheen vierestä kertovia kappaleita, oikea kohta voi hukkua. Malli on kuin kiireinen lukija: se huomaa sen, minkä se on jo nähnyt monta kertaa, ja väsyy turhaan tarinaan.

Tämän pitäisi kiinnostaa kaikkia, jotka luottavat kielimalleihin tiedonhaussa, asiakaspalvelussa tai raportoinnissa. Jos malli pärjää erityisen hyvin tietyissä aiheissa vain siksi, että vastaukset ovat vilisseet sen opetuksessa, mittaammeko sen kykyä ymmärtää vai sen muistin painaumia? Ja jos avustamme mallia ulkoisilla lähteillä, pitäisikö panostaa ennen kaikkea lähteiden kohdentamiseen ja melun vähentämiseen, ei vain määrään?

NanoKnow ei ratkaise kaikkea. Se on rakennettu pienten, avoimien nanochat-mallien varaan. On perusteltua kysyä, pätevätkö havainnot myös valtaviin, suljettuihin järjestelmiin, joiden opetustietoa ei pääse tarkastamaan. Aineisto keskittyy lisäksi kysymys–vastaus-tyyppisiin tehtäviin. Luova kirjoittaminen, koodaus tai monimutkaiset päättelyketjut voivat käyttäytyä eri tavoin. Myös jaottelu sen mukaan, ”näkyikö vastaus opetuksessa”, on aina yksinkertaistus: pelkkä esiintyminen kertoo jotain, mutta ei kaikkea siitä, miten malli on yhdistellyt tietoa eri lähteistä.

Silti työn ansio on selvä: kun opetusmateriaali on avointa, päästään vihdoin purkamaan, mistä mallin vastaukset kumpuavat. Se tekee harjoituksesta testattavaa tiedettä eikä pelkkää kokeilua. Näkemys siitä, että sisäinen muisti ja ulkoinen näyttö täydentävät toisiaan, on myös käytännöllinen. Se rohkaisee suunnittelemaan järjestelmiä, jotka ohjaavat mallia luotettaviin lähteisiin, mutta hyödyntävät samalla sen valmiiksi oppimaa tietoa – ja varovat syöttämästä mukaan turhaa hälyä.

Jos tekoälystä on tulossa yleiskäyttöinen työkalu, läpinäkyvyydestä tulee kilpailuetu mutta myös vastuukysymys. Kuinka usein tulevaisuudessa vaadimme, että tärkeissä sovelluksissa mallin opetusdata on avoin tai vähintään auditoitavissa? Ja jos vaadimme, muuttuuko tapa, jolla arvioimme älykkyyttä – muistista ymmärrykseen, kohinasta selkeyteen?

Paper: https://arxiv.org/abs/2602.20122v1

Register: https://www.AiFeta.com

tekoäly kielimallit tutkimus tiede data läpinäkyvyys

Avoimesta kielimallista paljastuu, mistä vastaukset oikeasti tulevat

Kari Jaaskelainen

Read more

Kielimalli huomaa, kun sitä yritetään ohjailla – mutta ei kerro siitä

Robotti voi nyt suunnitella pitkät työt ja paikata virheet omin avuin

Tekoälyä ei voi aidata: riskit pitää oppia valvomaan kuten sääilmiöitä

Simuloidut potilaat paljastavat: tekoälyterapia voi tehdä haittaa