Tekoälyn harhat eivät välttämättä johdu datasta vaan numeriikasta

Tekoälyn harhat eivät välttämättä johdu datasta vaan numeriikasta

Uusi arXiv-työ väittää, että koneiden päättely kaipaa täsmällisiä murtolukuja – valtaosa nykyraudasta laskee liian suurpiirteisesti.

Moni on törmännyt outoon pikku-ilmiöön: kun tietokoneella laskee 0,1 + 0,2, tulos ei aina näy täsmälleen 0,3:na. Syynä on, että kone ei esitä kaikkia lukuja tarkasti, vaan pyöristää ne lähimpään mahdolliseen muotoon. Yleensä tällä ei ole väliä. Mutta entä jos sama arkipäiväinen epätarkkuus horjuttaa myös tekoälyn luotettavuutta?

Nykyisessä ajattelussa tekoälyn viat, kuten "harhat" ja ristiriitaiset vastaukset, korjaantuvat skaalaamalla: lisää dataa, isommat mallit, enemmän laskentaa. ArXivissa julkaistu esitystyö ehdottaa toisenlaista selitystä. Sen ydinväite on, että ongelman juurisyy voi olla matematiikassa, ei vain mallien koossa.

Työssä esitetään Exactness-hypoteesi: kun tavoitellaan yleistä, monivaiheista päättelyä, laskennan pitäisi kyetä täsmälliseen aritmetiikkaan, ei likimääräiseen. Käytännössä tämä tarkoittaa siirtymistä tietokoneiden yleisestä "liukulukulaskennasta" sellaiseen tapaan, jossa luvut esitetään murtolukuina – tarkkoina suhteina – ja tarkkuutta voidaan kasvattaa rajatta. Tekijä väittää, että nykykoneiden käyttämät standardit (kuten IEEE 754 ja sen matalan tarkkuuden muodot) kasaavat pieniä pyöristysvirheitä kerros kerrokselta, kun malli tekee pitkiä ajatusketjuja. Lopputulos näkyy ulospäin epäjohdonmukaisuutena.

Jos termit tuntuvat vierailta, ajatus on yksinkertainen. Tekoälymalli koostuu valtavasta määrästä pienen pieniä laskuja, jotka syöttävät tuloksensa seuraaville laskuille. Jos jokaisessa askeleessa lipsahtaa hiuksenhieno pyöristys, tuhansien tai miljoonien askelten jälkeen summaa ei enää tunnista. Se on kuin valokopion kopioimista yhä uudelleen: jokainen kopio on hieman suttuisempi kuin edellinen, kunnes yksityiskohdat katoavat.

Artikkeli ei tyydy kritisoimaan nykytilaa, vaan ehdottaa ratkaisun. Siinä kuvataan "Halo-arkkitehtuuri", jossa päättely tehtäisiin murtolukuja käyttäen sekä "Exact Inference Unit" – uusi laskentayksikkö, joka tukee täsmällistä aritmetiikkaa. Tekijä raportoi prototyypistä (nimeltä Huginn-0125), joka vertailussa selvisi "kaoottisiksi" kutsutuista tehtävistä poikkeuksellisen vakaasti: kun vertailutason, 600 miljardin parametrin kokoluokkaa oleva malli matalan tarkkuuden liukuluvuilla ajautui ajan myötä sekaannukseen, murtolukuihin tukeutuva versio piti "numeerisen erkauman" nollassa toistaiseksi ilman rajoitusta.

"Kaoottinen" tarkoittaa tässä ilmiöitä, joissa pienikin muutos lähtötilassa paisuu nopeasti suureksi eroksi lopputuloksessa. Sääennuste on tyypillinen esimerkki: jos alkutila kuvataan vähänkin väärin, ennuste lähtee vähitellen väärille raiteille. Sama pätee laskentaan. Kun liukulukujen pyöristys lisää pienen virheen jokaisessa askeleessa, kaoottisissa järjestelmissä virhe kasvaa kuin korkoa korolle. Tutkimuksessa väitetään, että täsmällinen murtolukulaskenta katkaisee tämän ketjun: virhe ei ehdi syntyä, joten lopputulos pysyy vakaana.

Väitteen painoarvo on iso, jos se kestää koetuksen. Se kääntäisi vallalla olevan ajattelun päälaelleen: älyn rakentaminen ei olisikaan vain tilastollisten korrelaatioiden skaalaamista, vaan perustuisi matemaattiseen tarkkuuteen. Tekijä ehdottaa jopa, että ilman täsmällistä aritmetiikkaa tietynlainen harkitseva päättely – se, jota ihmisessä kutsutaan usein "systeemiseksi ajatteluksi" – ei voi toteutua koneessa luotettavasti.

Mitä todisteet kertovat – ja mitä eivät

On syytä lukea lupaavia tuloksia varauksella. Kyse on esitystyöstä arXivissa, ei vertaisarvioidusta artikkelista. Abstraktin perusteella empiirinen näyttö perustuu prototyyppiin ja tietynlaisiin kaoottisiin testeihin. Sillä, että malli pysyy numeerisesti vakaana näissä asetelmissa, on selkeä arvo. Samalla jää avoimeksi, miten hyvin havainto yleistyy muihin tehtäviin – esimerkiksi kielen ymmärtämiseen, päättelyketjujen rakentamiseen tai päätöksentekoon, joista tekoälyn "harhat" tavallisesti puhutaan.

Lisäksi työn pääväite on hypoteesi: pyöristysvirheet selittäisivät merkittävän osan nykyisten mallien epäjohdonmukaisuudesta. Se on testattava väite. Abstrakti ei kerro, miten paljon muut tekijät – kuten koulutusdata, arkkitehtuurivalinnat tai opetusmenetelmät – on rajattu pois. Myöskään suorituskyvystä, energiatehokkuudesta tai yhteensopivuudesta nykyisten koneiden kanssa ei anneta yksityiskohtia tässä tiivistelmässä, vaikka juuri ne usein ratkaisevat, leviääkö teknologia käytäntöön.

  • Mitä tarkalleen ottaen mitattiin? Abstrakti mainitsee kaoottiset järjestelmät ja numeerisen erkauman, mutta ei erittelyä tehtävistä tai siitä, miten vertailu 600 miljardin parametrin malliin toteutettiin.
  • Missä laajuudessa idea toimii? On eri asia säilyttää numeerinen vakaus kuin tuottaa hyviä vastauksia kielen, logiikan tai maailman tietojen tasolla.
  • Mitä se maksaa? Täsmällinen aritmetiikka on periaatteessa raskaampaa laskettavaa kuin likimääräinen. Abstraktista ei käy ilmi, kuinka paljon laskentaa tai muistia uusi yksikkö tarvitsee.

Samalla ehdotus osuu hermoon. Tietotekniikan historia on ollut kompromissia nopeuden ja tarkkuuden välillä. Liukulukustandardi valittiin aikanaan siksi, että se on riittävän hyvä lähes kaikkeen – vaikkakaan ei täydellinen. Jos tekoälyn luotettavuus todella nojaa täsmällisempiin numeroihin, edessä voi olla tekninen ja taloudellinen valinta: pitäytyä likimääräisyydessä ja yrittää korjata sen haitat ohjelmallisesti, vai muuttaa laskennan perustaa ja hyväksyä siitä seuraavat kustannukset.

Onko edessä uusi käänne, jossa älyn parantaminen ei tarkoita enää isompia malleja, vaan tarkempaa matematiikkaa niiden sisällä? Vai riittävätkö nykyiset keinot – parempi opetus, arkkitehtuurien säätö ja älykkäät korjausmekanismit – pitämään pyöristysvirheet kurissa? Vastaus ratkaisee, mihin suuntaan tekoälyn laskenta-alustat kehittyvät seuraavina vuosina.

Paper: https://arxiv.org/abs/2601.18702v1

Register: https://www.AiFeta.com

tekoäly numeriikka murtoluvut tutkimus arXiv

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen