Kielen yllätyksellisyys ei ole vakio

Kielen yllätyksellisyys ei ole vakio

Uusi teoria selittää, miksi teksti on suurelta osin toistoa – ja miksi tietomäärä per kirjain kasvaa, kun aiheet monimutkaistuvat.

Kun kirjoitat puhelimella viestiä, näytölle ilmestyy ehdotuksia seuraavasta sanasta. Usein arvaus osuu. Arki kertoo, että kieli on täynnä kaavoja: jo alusta voi päätellä, mihin suuntaan lause on menossa. Silti välillä ennustus pettää, kun aihe kääntyy yllättäen toiseen suuntaan.

Vuosikymmeniä on ajateltu, että englannin kaltaisilla kielillä on suunnilleen vakio “tietotiheys”: vanhojen arvioiden mukaan painetun englannin sisältämä uusi informaatio on noin yksi bitti merkkiä kohden. Mittakaava on karkea, mutta kertoo oleellisen – suurin osa tekstistä on toistoa. Satunnaisessa aakkostekstissä joka merkki olisi yhtä yllätyksellinen; luonnollisessa kielessä neljä viidestä bitistä on ennakoitavaa.

Tuore malli haastaa tämän hiljaisen oletuksen vakioisuudesta. Se ehdottaa, että kielen yllätyksellisyys ei ole yksi luku, vaan riippuu siitä, kuinka monimutkaisista asioista teksti puhuu. Mitä rikkaampi ja monihaaraisempi aihepiiri, sitä enemmän kutakin merkkiä kohti sisältyy uutta tietoa – ja sitä useammin puhelimesi arvaus menee pieleen.

Ajatus perustuu arkiseen havaintoon tekstin rakenteesta. Juttu alkaa yhdestä aiheesta, jakautuu osiin ja alakohtiin, ja lopulta lauseisiin ja sanoihin. Sama jatkuu yhä pienemmissä mitoissa: palasten sisällä toistuvat samat nimet, verbit ja ilmaisut. Uusi malli kirjoittaa tämän auki periaatteesta lähtien. Se pilkkoo tekstin itseään muistuttaviin, merkityksen kannalta yhtenäisiin palasiin – kuin sarjaan sisäkkäisiä kappaleita, joista jokainen tuo oman pienen yllätyksensä mutta myös uuden kontekstin seuraaville sanoille.

Yksi konkreettinen esimerkki: resepti alkaa ainesosista ja etenee vaihe vaiheelta. Kun kappale on “Vatkaa munat ja sokeri”, seuraavat sanat ovat melko helppoja arvata: “vaahdoksi”, “lisää”, “jauhot”. Yllätyksiä tulee lähinnä vaihtaessa kokonaan uuteen vaiheeseen tai poikkeukselliseen raaka-aineeseen. Vertaa tätä laajaan analyysijuttuun, jossa käsitellään ensin taustaa, sitten vastaväitteitä ja lopuksi tulevaisuuden skenaarioita. Jokainen osio avaa uusia polkuja, uusia nimiä ja käsitteitä. Uutuus tihenee.

Malli yrittää kuvata tätä monimittaista rakennetta matemaattisesti, mutta sen perusajatus on yksinkertainen: teksti voidaan jäsentää hierarkkisesti aiheisiin ja ala-aiheisiin aina yksittäiseen sanaan asti. Kun hierarkia tunnetaan, koko tekstin yllätyksellisyyttä – paljonko uutta tulee merkkiä kohden – voi arvioida. Teorian ainoa vapaa nappula on se, kuinka monimutkaisiksi aiheet käytännössä käyvät eli kuinka nopeasti ja rikkaasti merkitys “haaroittuu” syvemmälle mentäessä. Kun tämä monimutkaisuus kasvaa, kasvaa myös tietomäärä per kirjain.

Kirjoittajat testaavat ajatustaan kahdella tavalla. He vertaavat mallin ennusteita avoimiin tekstiaineistoihin ja käyttävät nykyisiä kielimalleja – samoja teknologioita, joiden varassa puhelimesi tekee arvauksia – arvioimaan, kuinka hyvin malli osuu eri tasoille, laajasta aiheesta yksittäisiin sanoihin. Tulos on kaksijakoinen mutta lupaava. Ensinnäkin mallin ennustama keskimääräinen tietomäärä vastaa klassista arviota: painettu englanti näyttää todella kuljettavan noin yhden bitin verran uutta tietoa merkkiä kohti. Toiseksi malli näyttää kuvaavan määrällisesti, miten teksti jäsentyy aihekokonaisuuksiin useilla eri tasoilla.

Tärkein seuraus on kuitenkin käsitteellinen: jos malli on oikeilla jäljillä, “yksi bitti per kirjain” ei ole luonnonvakio vaan numeerinen keskiarvo tietyille aineistoille. Kun tekstit käsittelevät monimutkaisempia ja laajemmin haarautuvia aiheita, yllätyksellisyys kasvaa; kun ne pysyttelevät kapeissa ja toistuvissa kuvioissa, se laskee. Sama periaate näkyy arjessa: mitä enemmän uutisjuttu poukkoilee uusille kentille, sitä heikommin algoritmi sen arvaa – ja sitä enemmän lukija saa uutta.

Kriittinen lukija huomaa heti rajoitukset. “Merkitykseltään yhtenäinen pala” on käsite, jota ei ole helppo mitata. Vaikka kielimallit tarjoavat käytännöllisen tavan arvioida rakennetta, ne ovat itsessään koulutettuja valtavilla aineistoilla ja voivat tuoda mukanaan omia ennakko-oletuksiaan. Lisäksi malli on yksinkertaistus: kieli on muutakin kuin aiheiden hierarkiaa. Siinä on sävyjä, viittauksia, huumoria ja rytmiä, joita on vaikea puristaa yhdeksi parametriarvoksi.

On myös syytä muistaa, mistä luvut kertovat. Vertailukohtana on painettu englanti, ei puhekieli eikä verkon sekakielinen kommunikaatio. Eri kielet ja genret voivat käyttäytyä eri tavoin, ja “monimutkaisuuden” mittaaminen vaatii käytännössä sopimista siitä, millaisia aineistoja verrataan. Vaikka malli osuu yksiin vanhan yhden bitin arvion kanssa, se ei todista arvoa lopulliseksi; se tarjoaa tavan selittää, miksi luku on ollut yllättävän pieni – ja miksi se voi eri tekstilajeissa poiketa siitä järjestelmällisesti.

Silti näkökulma on virkistävä. Se siirtää huomion pois yksittäisistä sanoista kohti tapaa, jolla merkitykset kasautuvat ja purkautuvat teksteissä. Ajatuksella on käytännön seurauksia: jos yllätyksellisyys todella kasvaa aiheen monimutkaistuessa, tiedon tiivistämisen, opetuksen ja journalistisen kirjoittamisen keinot voivat hyötyä siitä, että teksti jäsennetään näkyvästi toimiviksi “paloiksi”.

Jos kieli on näin kerroksinen, mikä on oikea määrä yllätyksiä? Kuinka monimutkaista on liikaa lukijan ymmärrykselle – ja liian vähän algoritmeille, joiden pitäisi auttaa meitä ymmärtämään? Vastaus ei ehkä ole vakio, vaan riippuu siitä, mitä olemme valmiita oppimaan yhdellä merkillä kerrallaan.

Paper: https://arxiv.org/abs/2602.13194v1

Register: https://www.AiFeta.com

kieli informaatio entropia tekoäly tekstinpakkaus tiede

Read more

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Koneiden käyttäytymistä ei tarvitse enää kirjoittaa kaavoiksi käsin

Kun hissi lähtee liikkeelle, ilmastointi säätää puhallusta tai robotti asettaa ruuvin paikalleen, taustalla on malli siitä, miten kone käyttäytyy. Niitä on perinteisesti rakennettu niin kuin hyviä reseptejä: asiantuntija kerää kokemusta, mittaa, kirjoittaa yhtälöitä ja virittää pitkään. Se vie aikaa – ja jokainen muutos laitteessa tai ympäristössä tarkoittaa uutta työtä. Viime vuosina

By Kari Jaaskelainen
Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Oppimalla ohjattu vedenalainen robotti löysi telakan – myös oikeassa vedessä

Kun robotti-imuri hivuttautuu kotona lataustelakkaansa, kukaan ei pidä hetkeä ihmeenä. Veden alla sama temppu on kaikkea muuta kuin arkipäivää – näkyvyys on huono, virtaukset nykivät, eikä satelliittipaikannus auta. Silti juuri tähän suuntaan on otettu askel, joka voi venyttää vedenalaisten robottien toimintamatkaa ja -aikaa. Vuosia on ajateltu, että vedenalaisen telakoitumisen kaltaiset tehtävät

By Kari Jaaskelainen
Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Oppivat liikennevalot voivat lyhentää jonotusaikaa kymmenesosan

Kaikki tietävät hetken, kun seisot punaisissa valoissa keskellä yötä, eikä mihinkään suuntaan näy autoja. Tai aamun, jolloin tavallinen risteys puuroutuu yllättäen, koska osa kuljettajista päättääkin kääntyä eri suuntaan kuin yleensä. Liikennevalot ovat sääntöjen koneita, mutta liikenne elää kuin säätila. Pitkään ratkaisuksi on ehdotettu ”älykkäitä” valoja, jotka oppivat liikenteestä ja säätävät

By Kari Jaaskelainen