Tekoälyn harhat eivät välttämättä johdu datasta vaan numeriikasta
Uusi arXiv-työ väittää, että koneiden päättely kaipaa täsmällisiä murtolukuja – valtaosa nykyraudasta laskee liian suurpiirteisesti.
Moni on törmännyt outoon pikku-ilmiöön: kun tietokoneella laskee 0,1 + 0,2, tulos ei aina näy täsmälleen 0,3:na. Syynä on, että kone ei esitä kaikkia lukuja tarkasti, vaan pyöristää ne lähimpään mahdolliseen muotoon. Yleensä tällä ei ole väliä. Mutta entä jos sama arkipäiväinen epätarkkuus horjuttaa myös tekoälyn luotettavuutta?
Nykyisessä ajattelussa tekoälyn viat, kuten "harhat" ja ristiriitaiset vastaukset, korjaantuvat skaalaamalla: lisää dataa, isommat mallit, enemmän laskentaa. ArXivissa julkaistu esitystyö ehdottaa toisenlaista selitystä. Sen ydinväite on, että ongelman juurisyy voi olla matematiikassa, ei vain mallien koossa.
Työssä esitetään Exactness-hypoteesi: kun tavoitellaan yleistä, monivaiheista päättelyä, laskennan pitäisi kyetä täsmälliseen aritmetiikkaan, ei likimääräiseen. Käytännössä tämä tarkoittaa siirtymistä tietokoneiden yleisestä "liukulukulaskennasta" sellaiseen tapaan, jossa luvut esitetään murtolukuina – tarkkoina suhteina – ja tarkkuutta voidaan kasvattaa rajatta. Tekijä väittää, että nykykoneiden käyttämät standardit (kuten IEEE 754 ja sen matalan tarkkuuden muodot) kasaavat pieniä pyöristysvirheitä kerros kerrokselta, kun malli tekee pitkiä ajatusketjuja. Lopputulos näkyy ulospäin epäjohdonmukaisuutena.
Jos termit tuntuvat vierailta, ajatus on yksinkertainen. Tekoälymalli koostuu valtavasta määrästä pienen pieniä laskuja, jotka syöttävät tuloksensa seuraaville laskuille. Jos jokaisessa askeleessa lipsahtaa hiuksenhieno pyöristys, tuhansien tai miljoonien askelten jälkeen summaa ei enää tunnista. Se on kuin valokopion kopioimista yhä uudelleen: jokainen kopio on hieman suttuisempi kuin edellinen, kunnes yksityiskohdat katoavat.
Artikkeli ei tyydy kritisoimaan nykytilaa, vaan ehdottaa ratkaisun. Siinä kuvataan "Halo-arkkitehtuuri", jossa päättely tehtäisiin murtolukuja käyttäen sekä "Exact Inference Unit" – uusi laskentayksikkö, joka tukee täsmällistä aritmetiikkaa. Tekijä raportoi prototyypistä (nimeltä Huginn-0125), joka vertailussa selvisi "kaoottisiksi" kutsutuista tehtävistä poikkeuksellisen vakaasti: kun vertailutason, 600 miljardin parametrin kokoluokkaa oleva malli matalan tarkkuuden liukuluvuilla ajautui ajan myötä sekaannukseen, murtolukuihin tukeutuva versio piti "numeerisen erkauman" nollassa toistaiseksi ilman rajoitusta.
"Kaoottinen" tarkoittaa tässä ilmiöitä, joissa pienikin muutos lähtötilassa paisuu nopeasti suureksi eroksi lopputuloksessa. Sääennuste on tyypillinen esimerkki: jos alkutila kuvataan vähänkin väärin, ennuste lähtee vähitellen väärille raiteille. Sama pätee laskentaan. Kun liukulukujen pyöristys lisää pienen virheen jokaisessa askeleessa, kaoottisissa järjestelmissä virhe kasvaa kuin korkoa korolle. Tutkimuksessa väitetään, että täsmällinen murtolukulaskenta katkaisee tämän ketjun: virhe ei ehdi syntyä, joten lopputulos pysyy vakaana.
Väitteen painoarvo on iso, jos se kestää koetuksen. Se kääntäisi vallalla olevan ajattelun päälaelleen: älyn rakentaminen ei olisikaan vain tilastollisten korrelaatioiden skaalaamista, vaan perustuisi matemaattiseen tarkkuuteen. Tekijä ehdottaa jopa, että ilman täsmällistä aritmetiikkaa tietynlainen harkitseva päättely – se, jota ihmisessä kutsutaan usein "systeemiseksi ajatteluksi" – ei voi toteutua koneessa luotettavasti.
Mitä todisteet kertovat – ja mitä eivät
On syytä lukea lupaavia tuloksia varauksella. Kyse on esitystyöstä arXivissa, ei vertaisarvioidusta artikkelista. Abstraktin perusteella empiirinen näyttö perustuu prototyyppiin ja tietynlaisiin kaoottisiin testeihin. Sillä, että malli pysyy numeerisesti vakaana näissä asetelmissa, on selkeä arvo. Samalla jää avoimeksi, miten hyvin havainto yleistyy muihin tehtäviin – esimerkiksi kielen ymmärtämiseen, päättelyketjujen rakentamiseen tai päätöksentekoon, joista tekoälyn "harhat" tavallisesti puhutaan.
Lisäksi työn pääväite on hypoteesi: pyöristysvirheet selittäisivät merkittävän osan nykyisten mallien epäjohdonmukaisuudesta. Se on testattava väite. Abstrakti ei kerro, miten paljon muut tekijät – kuten koulutusdata, arkkitehtuurivalinnat tai opetusmenetelmät – on rajattu pois. Myöskään suorituskyvystä, energiatehokkuudesta tai yhteensopivuudesta nykyisten koneiden kanssa ei anneta yksityiskohtia tässä tiivistelmässä, vaikka juuri ne usein ratkaisevat, leviääkö teknologia käytäntöön.
- Mitä tarkalleen ottaen mitattiin? Abstrakti mainitsee kaoottiset järjestelmät ja numeerisen erkauman, mutta ei erittelyä tehtävistä tai siitä, miten vertailu 600 miljardin parametrin malliin toteutettiin.
- Missä laajuudessa idea toimii? On eri asia säilyttää numeerinen vakaus kuin tuottaa hyviä vastauksia kielen, logiikan tai maailman tietojen tasolla.
- Mitä se maksaa? Täsmällinen aritmetiikka on periaatteessa raskaampaa laskettavaa kuin likimääräinen. Abstraktista ei käy ilmi, kuinka paljon laskentaa tai muistia uusi yksikkö tarvitsee.
Samalla ehdotus osuu hermoon. Tietotekniikan historia on ollut kompromissia nopeuden ja tarkkuuden välillä. Liukulukustandardi valittiin aikanaan siksi, että se on riittävän hyvä lähes kaikkeen – vaikkakaan ei täydellinen. Jos tekoälyn luotettavuus todella nojaa täsmällisempiin numeroihin, edessä voi olla tekninen ja taloudellinen valinta: pitäytyä likimääräisyydessä ja yrittää korjata sen haitat ohjelmallisesti, vai muuttaa laskennan perustaa ja hyväksyä siitä seuraavat kustannukset.
Onko edessä uusi käänne, jossa älyn parantaminen ei tarkoita enää isompia malleja, vaan tarkempaa matematiikkaa niiden sisällä? Vai riittävätkö nykyiset keinot – parempi opetus, arkkitehtuurien säätö ja älykkäät korjausmekanismit – pitämään pyöristysvirheet kurissa? Vastaus ratkaisee, mihin suuntaan tekoälyn laskenta-alustat kehittyvät seuraavina vuosina.
Paper: https://arxiv.org/abs/2601.18702v1
Register: https://www.AiFeta.com
tekoäly numeriikka murtoluvut tutkimus arXiv