Samaa kysymystä ei kannata lukea moneen kertaan – pieni muutos voi nopeuttaa kielimallien opetusta isosti

Samaa kysymystä ei kannata lukea moneen kertaan – pieni muutos voi nopeuttaa kielimallien opetusta isosti

Kuvittele opettajaa, joka pyytää luokkaa kirjoittamaan kaksi eri versiota samasta esseestä ja sitten arvioi, kummassa on parempi alku. Olisi hullua, jos opettaja joka kerta lukisi otsikon ja ensimmäisen kappaleen alusta asti erikseen – vaikka ne ovat samat. Silti näin tekoälyä opetetaan usein: sama kysymys syötetään mallille uudestaan ja uudestaan, jotta se oppii, mikä vastaus on parempi.

Vuosia on ajateltu, että tehokkuutta saadaan lähinnä suurilla rautahankinnoilla ja kikkailulla siinä, kuinka monenlaista dataa samaan harjoituserään voidaan mahduttaa. Nyt ehdotetaan hiljaista mutta terävää oikopolkua: jos useat vastaukset lähtevät samasta kysymyksestä, miksi malli käsittelisi kysymyksen kerta toisensa jälkeen?

Tuore arXiv-julkaisu esittää ratkaisun nimeltä preference packing, suomeksi vaikkapa ”mieltymyspakkaus”. Idea on arkijärkinen. Kun mallia opetetaan menetelmillä, joissa samasta syötteestä (esimerkiksi samasta kysymyksestä tai samasta kuvasta) on tarjolla useita vastauksia ja niiden paremmuusjärjestys, syötteen yhteiset osat voidaan käsitellä vain kerran. Silloin mallin ei tarvitse tehdä samaa lukutyötä uudelleen jokaiselle vaihtoehdolle, eikä sen väliaikainen muisti – niin sanottu KV-välimuisti, johon malli tallettaa käsittelyn aikana tarvitsemiaan välituloksia – turpoa jokaisen toiston takia.

Miksi tällä on väliä? Suuret kielimallit ovat nälkäisiä. Niiden opettaminen – ja erityisesti opettaminen ihmismieltymyksiä heijastelevilla aineistoilla, joissa samaan syötteeseen liittyy useita ehdokasvastauksia – on laskennallisesti kallista. Tätä tehdään esimerkiksi kahdella tavalla: rakennetaan erillinen ”palkintomalli”, joka oppii, mikä vastaus ihmisistä tuntuu paremmalta, tai opetetaan itse kielimalli valitsemaan parempi vaihtoehto suoraan. Molemmissa lähestymistavoissa toistuu sama rakenne: yksi syöte, monta vastausta.

”Mieltymyspakkaus” pureutuu juuri tähän toistoon. Kirjoittaja raportoi, että tekniikka vähentää päällekkäistä työtä kahdella tavalla: se karsii saman syötteen uudelleenluvusta aiheutuvia operaatioita ja pienentää mallin väliaikaisen muistin tarvetta. Tulokset kokeista sekä tekstiä sisältävillä että kuvia sisältävillä aineistoilla ovat konkreettiset: koulutusaika lyheni vähintään 37 prosenttia. Lisäksi menetelmä sopii yhteen aiempien tehostuskeinojen, kuten harjoituserien järjestelyjen (”batch sorting”), kanssa. Yhdistämällä nämä saavutettiin raportin mukaan jopa 3,22-kertainen nopeutus.

Yksi esimerkki avaa idean. Kuvitellaan, että mallille annetaan sama pyyntö: ”Kirjoita kohtelias sähköposti esimiehelle, että tarvitsen vapaapäivän.” Samasta pyynnöstä on kaksi versiota vastauksesta, joista toinen on ihmisten mielestä parempi. Perinteisesti malli lukee ensin pyynnön ja sitten ensimmäisen vastauksen, ja sen jälkeen se lukee saman pyynnön uudelleen ja toisen vastauksen. Uudessa tavassa pyyntö käsitellään kerran, ja siitä eteenpäin malli haarautuu käsittelemään vain vastauksissa eroavat osat. Lopputulos – tieto siitä, kumpi vastaus on parempi – syntyy, mutta turha tuplatyö jää pois.

On houkuttelevaa ajatella, että tällainen oivallus olisi ollut käytössä jo pitkään. Harjoituserien ”pakkaaminen” on tuttua kikkaa silloin, kun halutaan niputtaa eripituisia tekstejä tehokkaasti yhteen. Mutta mieltymyksiin perustuvassa opetuksessa niputettava yhteinen osa ei ole pituus vaan sisältö: sama kysymys tai kuva toistuu. Tähän väliin uusi tekniikka asettuu.

On kuitenkin syytä korostaa, mitä raportti kertoo – ja mitä se ei kerro. Tuloksissa mitataan aikaa ja muistin käyttöä: nopeutusta tulee reilusti, ja väliaikaisen muistin tarve pienenee. Työn kohteena ovat nimenomaan aineistot, joissa sama syöte esiintyy usean vastauksen parina. Siellä hyöty on ilmeinen. Jos jokainen harjoitusesimerkki on täysin erilainen eikä yhteistä runkoa ole, pakattavaa ei synny, eikä etuakaan.

Laadun eli mallin lopullisen kyvykkyyden osalta tiivistelmä ei esitä tuloksia. On mahdollista, että tehokkuus syntyy täysin ilman vaikutusta siihen, mitä malli oppii – se olisi tietenkin toivottavaa – mutta varmaa se ei ole ilman mittauksia. Samoin 3,22-kertainen nopeutus syntyy nimenomaan yhdistämällä uusi tekniikka olemassa olevaan harjoituserien järjestelyyn; muualla nopeutus voi olla pienempi tai suurempi riippuen datasta ja laitteistosta. Yksityiskohtia toteutuksesta, kuten kuinka helppoa pakkaus on liittää erilaisiin koulutusputkiin, tiivistelmä ei avaa.

Kuvat mainitaan aineistona, mikä vihjaa, että menetelmä yltää myös tekstin ja kuvien yhdistelmiin: sama kuva, useita kuvatekstejä tai vastauksia. Se on kiinnostavaa, koska moniaineksiset mallit yleistyvät. Silti on hyvä muistaa lähtöehto: etu tulee vasta, kun yhteistä runkoa on useissa esimerkeissä.

Suuri kuva on selvä. Kun mallit kasvavat, pieniltä kuulostavat turhien kierrosten karsinnat muuttuvat merkittäviksi säästöiksi ajassa ja muistissa. ”Mieltymyspakkaus” ei lupaa uutta ajattelutapaa tai ihmeellistä algoritmia, vaan kurinalaisen tavan olla tekemättä samaa työtä kahdesti. Tällaisista käytännöllisistä nikseistä voi muodostua se ero, joka ratkaisee, kuka pystyy kouluttamaan malleja nopeasti ja kuka ei.

Jäljelle jää kysymys: jos yhdestä toistosta päästiin eroon näin yksinkertaisella ajatuksella, kuinka monta muuta vastaavaa päällekkäisyyttä tekoälyn arjessa vielä odottaa löytämistään – ja kuinka pitkälle pelkkä siistimpi työnjako voi kantaa ennen kuin tarvitaan jotakin aivan uutta?

Paper: https://arxiv.org/abs/2602.24082v1

Register: https://www.AiFeta.com

tekoäly kielimallit koulutus laskentatehokkuus tutkimus

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen