Paras tekstien pikaluokittelija ei olekaan suurin kielimalli
Kuvittele uutiskirje, joka järjestää lukemattomat lukijapalautteet heti oikeisiin pinoihin: kiitokset, kantelut, juttuvinkit. Yhtään esimerkkiviestiä ei ole näytetty etukäteen, vain luokkien nimet ja lyhyet kuvaukset. Silti järjestelmä osuu suurimman osan ajasta oikeaan. Vielä hiljattain moni olisi veikannut, että tähän tarvitaan jättimäinen yleiskäyttöinen kielimalli. Uusi vertailu haastaa oletuksen.
Yhä useampi tehtävä halutaan ratkaista ilman erillistä opetusvaihetta. Sen sijaan koneelle kerrotaan sanallisesti, mitä luokkia on olemassa – esimerkiksi ”positiivinen” tai ”negatiivinen” palaute – ja koneen tehtävä on päättää, mihin laatikkoon teksti kuuluu. Ajatus on houkutteleva: säästytään vaivalloiselta esimerkkien merkitsemiseltä.
Vakiintunut käsitys oli, että parhaita tähän ovat mallit, jotka on opetettu päättelemään, sopiiko väite yhteen toisen tekstin kanssa. Niitä on kehitetty vuosia, ja ne ovat menestyneet erilaisissa kokeissa. Mutta kun sama tehtävä asetetaan avoimeen kisaan useiden erilaisten lähestymistapojen kesken, voittaja näyttääkin toisenlaiselta.
ArXiviin julkaistu BTZSC-vertailu kokoaa 22 avointa aineistoa, jotka kattavat neljä arkista tehtävää: mielipiteen, aiheen, aikomuksen ja tunteen tunnistamisen. Aineistot vaihtelevat luokkien määrässä ja tekstien pituudessa. Näiden avulla arvioidaan neljää malliperhettä: väite–todiste-tyyppisiin päätelmiin erikoistuneita malleja, tekstit “samaan koordinaatistoon” pakkaavia upotusmalleja, vaihtoehtoja pisteyttäviä erikoismalleja sekä ohjeita noudattamaan viritettyjä suuria kielimalleja. Yhteensä vertailussa on 38 julkista tai räätälöityä malliversiota.
Tulos on selkeä. Nykyiset pisteyttäjät – mallit, jotka saavat eteensä listan mahdollisia luokkia ja arvioivat kullekin tekstille, mikä niistä sopii parhaiten – yltävät parhaaseen tarkkuuteen. Esimerkiksi Qwen3‑Reranker‑8B saavuttaa uuden ennätystason, kun mittarina on keskimääräinen tarkkuus kaikissa luokissa (makro-F1 = 0,72). Tämä luku yhdistää oikein osuneet ja väärin menneet tapaukset yhdeksi mittariksi, jotta mikään yksittäinen luokka ei dominoi tulosta.
Samalla upotusmallit, kuten GTE‑large‑en‑v1.5, ovat kuroneet kiinni eroa ja tarjoavat parhaan yhdistelmän laatua ja viivettä: ne ovat usein selvästi nopeampia kuin suuret mallit, mutta eivät paljoa heikompia tarkkuudessa. Ohjeistusta tottelevat suuret kielimallit – kooltaan 4–12 miljardia parametria – yltävät hekin kilpailukykyisiin tuloksiin (makro-F1 enintään 0,67), erityisesti aiheluokittelussa. Silti ne jäävät pisteyttäjien taakse tasaisessa suorituksessa. Ja se aiemmin suosittu väite–todiste-linja? Sen kehitys näyttää tässä asetelmassa pysähtyneen, vaikka taustalla olevan mallin kokoa kasvatetaan.
Miksi tällä on väliä? Koska valinta ei ole vain akateeminen. Asiakaspalvelu, moderaatio ja arkistointi ovat pitkälti juuri tätä: tekstin ja muutaman ehdokasluokan yhteensovittamista. Jos tavoitteena on paras mahdollinen osumatarkkuus ilman opettamista, pisteyttäjät näyttävät nyt viitoittavan tietä. Jos tärkeämpää on reagointinopeus ja kustannus, upotusmallit tarjoavat houkuttelevan kompromissin.
Yksi esimerkki auttaa hahmottamaan eron. Kuvitellaan, että verkkokauppa haluaa lajitella tuoreita asiakaspalautteita neljään pinoon: ”palvelu”, ”toimitus”, ”tuotteen laatu” ja ”maksu”.
- Pisteyttäjä käy läpi jokaisen luokan erikseen ja kysyy: ”Kuinka hyvin tämä teksti vastaa juuri tätä luokkaa?” Se valitsee korkeimman pisteen saaneen.
- Upotusmalli puristaa sekä palautteen että luokkien nimikkeet numeroiksi samaan avaruuteen ja etsii lähimmän parin – vähän kuin etsisi lähintä osoitetta kartalla.
- Suuri kielimalli lukee ohjeen ja yrittää suoraan päätellä luokan vapaamuotoisen ymmärryksen perusteella.
- Väite–todiste-malli muotoilee tehtävän kysymykseksi: ”Väite: tämä palaute koskee toimitusta. Onko se totta vai ei?” ja arvioi jokaisen luokan näin.
Vertailun perusteella ensimmäinen tapa tuottaa nyt parhaan kokonaistuloksen. Kolmas – suuri kielimalli – on jo yllättävän hyvä, mutta ei aivan kärjessä. Toinen – upotus – pääsee hyvin lähelle, ja tekee sen usein tehokkaammin.
Onko peli siis pelattu? Ei aivan. Vertailu tuo esiin myös rajoituksia ja avoimia kysymyksiä. Tulokset koskevat nimenomaan asetelmaa, jossa mallille ei anneta yhtäkään esimerkkiä tehtävästä. Jos yrityksellä on mahdollisuus näyttää kymmeniä tai satoja oikeita tapauksia, voimasuhteet voivat muuttua. Lisäksi vertailu kattaa 22 aineistoa, mutta maailma on laajempi: luokkien nimet voivat olla epäselviä, kirjoittajat sekoittavat aiheita, tai tekstit ovat hyvin pitkiä – kaikki tämä muuttaa asetelmaa.
On myös teknisiä huomioita, joista osa näkyy arjessa. Vertailun mukaan mallin koon kasvattaminen hyödyttää eniten pisteyttäjiä ja suuria kielimalleja, kun taas upotusmallit eivät vastaavasti parane vain paisuttamalla niitä. Toisaalta suuret mallit ovat raskaampia käyttää: ne vievät enemmän muistia ja aikaa, mikä näkyy kustannuksissa ja vasteajoissa. Upotusmallien etuna on tässä suhteessa keveys.
BTZSC-vertailun tekijät julkaisevat aineistot ja arviointikoodin avoimesti, mikä on hyvä uutinen. Se tekee tuloksista toistettavia ja antaa muille mahdollisuuden koetella samaa asetelmaa uusilla malleilla. Silti yksi käytännön haaste pysyy: todellisissa järjestelmissä luokkien sanalliset kuvaukset ovat usein huolimattomia. Jos luokkien nimet ovat epämääräisiä, myös luokittelija erehtyy. Vertailu ei poista tätä ihmistyön vaihetta, vaikka helpottaakin sitä.
Jos suunta pitää, lähivuosina yhä useampi sähköposti, tukipyyntö ja sommekommentti löytää oikean osoitteensa ilman, että kukaan on opettanut konetta juuri siihen tehtävään. Kysymys kuuluu: kun tavat ovat nyt selkiytyneet, valitsemmeko jatkossa parhaan tarkkuuden, parhaan nopeuden vai jotakin siltä väliltä – ja kuka tekee sen valinnan meidän puolestamme?
Paper: https://arxiv.org/abs/2603.11991v1
Register: https://www.AiFeta.com
tekoäly kielimallit luokittelu tutkimus data arxiv