Tekoäly osaa viinistä faktat, mutta kompastelee makuun
Ravintolassa ratkaiseva hetki ei synny viinilistan riveistä vaan siitä, mitä lasissa tapahtuu nenälle ja suulle. Maku ja tuoksu ohjaavat valintaa tavalla, johon mikään taulukko ei täysin yllä. Mutta mitä tapahtuu, kun päätöstä pyytää koneelta, joka on lukenut miljoonia sivuja viineistä, muttei ole koskaan maistanut pisaraakaan?
Viime vuosina on totuttu siihen, että suuret kielimallit osaavat keskustella sulavasti ja vastailla kulttuurikysymyksiin monella kielellä. Useimmat niille tehdyt kokeet mittaavat kuitenkin nimenomaan sellaista tietoa, jonka voi tallettaa tekstiin. Nyt esiin on noussut toisenlainen ajatus: jos kone oppii viineistä vain kuvauksia lukemalla, miten pitkälle se pääsee tehtävissä, joissa ratkaisee aisteihin nojaava arviointikyky?
Tuore monikielinen testi nimeltä SommBench tarjoaa tähän ensimmäisiä systemaattisia vastauksia. Se ei kysy vain viininvalmistuksen vuosilukuja tai alueiden nimiä, vaan koettelee kolmea käytännönläheistä taitoa: teoriakysymyksiin vastaamista, viinin piirteiden täydentämistä kuvausten perusteella sekä ruoan ja viinin yhteensopivuuden arviointia. Testi on koottu ammattilaissommelierin ja eri kielten syntyperäisten puhujien kanssa. Aineisto on laaja: 1 024 teoriakysymystä, 1 000 esimerkkiä viinin piirteiden täydentämisestä ja 1 000 ruokaviiniparia.
Tehtävät ovat selkokielisiä, vaikka ne koskevatkin aistimaailmaa. Teoriassa saatetaan kysyä, mikä väite pitää paikkansa viininvalmistuksen perusasioista. Piirteiden täydennyksessä annetaan viinin kuvaus ja pyydetään täydentämään siitä puuttuva ominaisuus tekstin vihjeiden perusteella. Parituksessa on ratkaistava, sopiiko annettu viini tietyn ruoan kanssa vai ei. Matematiikkaa ei tarvita, mutta sanojen taakse kätkeytyy aina aistikokemus, jota kone ei ole kokenut.
SommBench on julkaistu kahdeksalla kielellä: englanniksi, slovakiksi, ruotsiksi, suomeksi, saksaksi, tanskaksi, italiaksi ja espanjaksi. Monikielisyys on tarkoituksellinen: sen avulla voidaan erottaa se, miten hyvin malli hallitsee viinin, siitä, miten hyvin se hallitsee kielen. Jos mallin suoritus heikkenee kielen vaihtuessa, vika voi olla kielitaidossa, ei viinitiedossa.
Testiin on ajettu useita suosittuja kielimalleja, sekä suljettuja (kuten Gemini 2.5) että avoimia (kuten GPT-OSS ja Qwen 3). Tulokset piirtävät selkeän kahtiajaon. Parhaat mallit vastaavat viiniteorian kysymyksiin lähes virheettömästi: parhaimmillaan oikein meni 97 prosenttia kysymyksistä. Kun siirrytään aistimusten varaan nojaaviin tehtäviin, ote herpaantuu. Viinin piirteiden täydentämisessä parhaatkin suoritukset jäivät 65 prosenttiin. Ruoan ja viinin parituksessa menestystä mitattiin korrelaatiomittarilla, joka jäi lähelle nollaa (välille 0–0,39). Se merkitsee, että yhteys oikeisiin vastauksiin oli korkeintaan vaatimaton.
Tämä asetelma on tärkeä, koska se kertoo jotain olennaista kielimallien rajoista. Tekstin varaan talletettava, sääntömielinen tieto on niille helppoa. Mutta kun pitäisi päätellä, mitä maku- ja tuoksukuvaukset merkitsevät käytännössä, ja miten ruoka ja juoma vaikuttavat toisiinsa, pelkkä luettu tieto ei vielä kanna. Testi näyttää, että kone voi puhua viinistä sujuvasti ja osata nimet ja alueet, mutta haparoi, kun pitää jäljitellä sommelierin aistikokemusta.
On kuitenkin syytä olla täsmällinen siinä, mitä tulokset kertovat – ja mitä eivät. SommBench mittaa nimenomaan tekstin varaan rakentuvaa päättelyä aistialueella. Se ei väitä, että yhden oikean vastauksen löytäminen ruoka–viini-parituksessa olisi aina yksiselitteistä. Moniakin perusteltuja vastauksia voi olla, ja mieltymykset vaihtelevat. Siksi testissä on käytetty asiantuntijan määrittämiä ratkaisuja ja selkeitä tehtävämuotoja. Myös testin laatu riippuu sen rakennuspalikoista: siitä, millaisia kuvauksia ja vaihtoehtoja valitaan. Aineisto on tehty huolellisesti, mutta mikään testi ei ole koko todellisuus.
Toinen avoin kysymys liittyy mallien luonteeseen. Suljetuista järjestelmistä, kuten Gemini 2.5:stä, ei tiedetä tarkasti, millaisella aineistolla ne on opetettu. Se voi vaikuttaa siihen, miksi ne pärjäävät teoriassa paremmin kuin aistitehtävissä – tai miksi suoritukset vaihtelevat kielestä toiseen. SommBench ei ratkaise näitä arvoituksia, mutta se tekee näkyväksi eron puhutun tiedon ja koetun maailman välillä.
Silti testin viesti on käytännöllinen. Kun mietitään, mihin kielimalleja kannattaa käyttää, on hyvä kysyä: onko tehtävä sellaista, jossa oikea vastaus löytyy kirjoista ja sanastoista, vai sellaista, jossa ratkaisee ihmisen keho ja kokemus? Viini on vain yksi esimerkki. Sama jännite toistuu parfyymeissä, kahvissa ja monissa muissa aistialoissa – ja osin myös lääketieteessä, jossa oireiden kuvaus ei aina kerro koko tarinaa.
SommBench on julkisesti saatavilla, ja sen myötä keskustelu kielimallien “aistikyvystä” voi siirtyä väitteistä mitattaviin tuloksiin. Silloinkin kysymys jää ilmaan: jos kielestä oppinut kone ei vielä maista, pitäisikö sen oppia uusista lähteistä – vai pitäisikö meidän tarkentaa, missä tehtävissä ihmiselle ominainen aistijärki on korvaamaton?
Paper: https://arxiv.org/abs/2603.12117v1
Register: https://www.AiFeta.com
tekoäly kielimallit viini aistit monikielisyys tutkimus