Kielen yllätyksellisyys ei ole vakio
Uusi teoria selittää, miksi teksti on suurelta osin toistoa – ja miksi tietomäärä per kirjain kasvaa, kun aiheet monimutkaistuvat.
Kun kirjoitat puhelimella viestiä, näytölle ilmestyy ehdotuksia seuraavasta sanasta. Usein arvaus osuu. Arki kertoo, että kieli on täynnä kaavoja: jo alusta voi päätellä, mihin suuntaan lause on menossa. Silti välillä ennustus pettää, kun aihe kääntyy yllättäen toiseen suuntaan.
Vuosikymmeniä on ajateltu, että englannin kaltaisilla kielillä on suunnilleen vakio “tietotiheys”: vanhojen arvioiden mukaan painetun englannin sisältämä uusi informaatio on noin yksi bitti merkkiä kohden. Mittakaava on karkea, mutta kertoo oleellisen – suurin osa tekstistä on toistoa. Satunnaisessa aakkostekstissä joka merkki olisi yhtä yllätyksellinen; luonnollisessa kielessä neljä viidestä bitistä on ennakoitavaa.
Tuore malli haastaa tämän hiljaisen oletuksen vakioisuudesta. Se ehdottaa, että kielen yllätyksellisyys ei ole yksi luku, vaan riippuu siitä, kuinka monimutkaisista asioista teksti puhuu. Mitä rikkaampi ja monihaaraisempi aihepiiri, sitä enemmän kutakin merkkiä kohti sisältyy uutta tietoa – ja sitä useammin puhelimesi arvaus menee pieleen.
Ajatus perustuu arkiseen havaintoon tekstin rakenteesta. Juttu alkaa yhdestä aiheesta, jakautuu osiin ja alakohtiin, ja lopulta lauseisiin ja sanoihin. Sama jatkuu yhä pienemmissä mitoissa: palasten sisällä toistuvat samat nimet, verbit ja ilmaisut. Uusi malli kirjoittaa tämän auki periaatteesta lähtien. Se pilkkoo tekstin itseään muistuttaviin, merkityksen kannalta yhtenäisiin palasiin – kuin sarjaan sisäkkäisiä kappaleita, joista jokainen tuo oman pienen yllätyksensä mutta myös uuden kontekstin seuraaville sanoille.
Yksi konkreettinen esimerkki: resepti alkaa ainesosista ja etenee vaihe vaiheelta. Kun kappale on “Vatkaa munat ja sokeri”, seuraavat sanat ovat melko helppoja arvata: “vaahdoksi”, “lisää”, “jauhot”. Yllätyksiä tulee lähinnä vaihtaessa kokonaan uuteen vaiheeseen tai poikkeukselliseen raaka-aineeseen. Vertaa tätä laajaan analyysijuttuun, jossa käsitellään ensin taustaa, sitten vastaväitteitä ja lopuksi tulevaisuuden skenaarioita. Jokainen osio avaa uusia polkuja, uusia nimiä ja käsitteitä. Uutuus tihenee.
Malli yrittää kuvata tätä monimittaista rakennetta matemaattisesti, mutta sen perusajatus on yksinkertainen: teksti voidaan jäsentää hierarkkisesti aiheisiin ja ala-aiheisiin aina yksittäiseen sanaan asti. Kun hierarkia tunnetaan, koko tekstin yllätyksellisyyttä – paljonko uutta tulee merkkiä kohden – voi arvioida. Teorian ainoa vapaa nappula on se, kuinka monimutkaisiksi aiheet käytännössä käyvät eli kuinka nopeasti ja rikkaasti merkitys “haaroittuu” syvemmälle mentäessä. Kun tämä monimutkaisuus kasvaa, kasvaa myös tietomäärä per kirjain.
Kirjoittajat testaavat ajatustaan kahdella tavalla. He vertaavat mallin ennusteita avoimiin tekstiaineistoihin ja käyttävät nykyisiä kielimalleja – samoja teknologioita, joiden varassa puhelimesi tekee arvauksia – arvioimaan, kuinka hyvin malli osuu eri tasoille, laajasta aiheesta yksittäisiin sanoihin. Tulos on kaksijakoinen mutta lupaava. Ensinnäkin mallin ennustama keskimääräinen tietomäärä vastaa klassista arviota: painettu englanti näyttää todella kuljettavan noin yhden bitin verran uutta tietoa merkkiä kohti. Toiseksi malli näyttää kuvaavan määrällisesti, miten teksti jäsentyy aihekokonaisuuksiin useilla eri tasoilla.
Tärkein seuraus on kuitenkin käsitteellinen: jos malli on oikeilla jäljillä, “yksi bitti per kirjain” ei ole luonnonvakio vaan numeerinen keskiarvo tietyille aineistoille. Kun tekstit käsittelevät monimutkaisempia ja laajemmin haarautuvia aiheita, yllätyksellisyys kasvaa; kun ne pysyttelevät kapeissa ja toistuvissa kuvioissa, se laskee. Sama periaate näkyy arjessa: mitä enemmän uutisjuttu poukkoilee uusille kentille, sitä heikommin algoritmi sen arvaa – ja sitä enemmän lukija saa uutta.
Kriittinen lukija huomaa heti rajoitukset. “Merkitykseltään yhtenäinen pala” on käsite, jota ei ole helppo mitata. Vaikka kielimallit tarjoavat käytännöllisen tavan arvioida rakennetta, ne ovat itsessään koulutettuja valtavilla aineistoilla ja voivat tuoda mukanaan omia ennakko-oletuksiaan. Lisäksi malli on yksinkertaistus: kieli on muutakin kuin aiheiden hierarkiaa. Siinä on sävyjä, viittauksia, huumoria ja rytmiä, joita on vaikea puristaa yhdeksi parametriarvoksi.
On myös syytä muistaa, mistä luvut kertovat. Vertailukohtana on painettu englanti, ei puhekieli eikä verkon sekakielinen kommunikaatio. Eri kielet ja genret voivat käyttäytyä eri tavoin, ja “monimutkaisuuden” mittaaminen vaatii käytännössä sopimista siitä, millaisia aineistoja verrataan. Vaikka malli osuu yksiin vanhan yhden bitin arvion kanssa, se ei todista arvoa lopulliseksi; se tarjoaa tavan selittää, miksi luku on ollut yllättävän pieni – ja miksi se voi eri tekstilajeissa poiketa siitä järjestelmällisesti.
Silti näkökulma on virkistävä. Se siirtää huomion pois yksittäisistä sanoista kohti tapaa, jolla merkitykset kasautuvat ja purkautuvat teksteissä. Ajatuksella on käytännön seurauksia: jos yllätyksellisyys todella kasvaa aiheen monimutkaistuessa, tiedon tiivistämisen, opetuksen ja journalistisen kirjoittamisen keinot voivat hyötyä siitä, että teksti jäsennetään näkyvästi toimiviksi “paloiksi”.
Jos kieli on näin kerroksinen, mikä on oikea määrä yllätyksiä? Kuinka monimutkaista on liikaa lukijan ymmärrykselle – ja liian vähän algoritmeille, joiden pitäisi auttaa meitä ymmärtämään? Vastaus ei ehkä ole vakio, vaan riippuu siitä, mitä olemme valmiita oppimaan yhdellä merkillä kerrallaan.
Paper: https://arxiv.org/abs/2602.13194v1
Register: https://www.AiFeta.com
kieli informaatio entropia tekoäly tekstinpakkaus tiede