Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta
Uusi vertailu näyttää, että tekoälyn tapa muotoilla järjestelmävaatimuksia luonnollisen kielen kysymyksiksi vaihtelee mallin ja aiheen mukaan. Siksi tärkeintä ei ole valita ”parasta” mallia, vaan tilanteeseen sopiva.
Kuvitellaan tuttu kokous: pöydän ääressä yritetään päättää, mitä uuden tietojärjestelmän pitää pystyä tekemään. Syntyy lista kysymyksiä, joihin järjestelmän on osattava vastata. Esimerkiksi: ”Mitkä lääkkeet eivät sovi alle 12-vuotiaille?” tai ”Mitkä kirjat meiltä puuttuvat, vaikka ne kuuluvat lukulistalle?”
Tällaisia kysymyksiä on tietotekniikassa käytetty jo pitkään rajana: jos järjestelmä osaa vastata niihin, sen tietomalli on oikeilla jäljillä. Tietomalli – usein kutsuttu myös ontologiaksi – on yksinkertaisesti sanasto ja sääntökirja siitä, mitä asioita järjestelmässä on ja miten ne liittyvät toisiinsa.
Perinteisesti kysymykset on laadittu käsin: suunnittelijat ja aihealueen asiantuntijat ovat viilanneet sanamuotoja ja sisältöä yhdessä. Nyt suuret kielimallit lupaavat toisenlaisen lähestymistavan. Ne voivat tuottaa kymmeniä tai satoja kysymyksiä hetkessä vaikka pelkän taustatekstin perusteella. Nopeus on houkuttelevaa – mutta mitä näiden koneen laatimien kysymysten laadusta pitää ajatella?
Tuore arXiv-julkaisu tarttuu juuri tähän. Sen tekijät eivät keskity siihen, miten kielimalli saadaan tuottamaan mahdollisimman paljon kysymyksiä, vaan siihen, miten näitä kysymyksiä voi arvioida järjestelmällisesti. He ehdottavat mittoja, joilla kysymyksiä voi verrata useasta näkökulmasta: ovatko ne luettavia, ovatko ne käsillä olevaan aiheeseen nähden osuvia ja kuinka monimutkaisia niiden rakenteet ovat.
Luettavuus tarkoittaa arkisesti sitä, miten helposti ihminen ymmärtää kysymyksen: onko lause suora vai kiertelevä, onko mukana erikoistermejä. Osuvuus kysyy, liittyykö kysymys todella siihen tekstiin tai kuvaukseen, josta se on johdettu. Rakenne taas viittaa siihen, kuinka monta ehtoa, rajaa tai viittausta kysymykseen on pakattu.
Yksi konkreettinen esimerkki auttaa. Jos tavoitteena on rakentaa museon kokoelmatietoja kuvaava järjestelmä, kysymys voisi olla yksinkertainen: ”Mitkä teokset Edelfeltiltä ovat lainassa juuri nyt?” Se on suoraviivainen ja kohdistuu selvästi yhteen käsitteeseen (taiteilija) ja yhteen suhteeseen (lainassa). Monimutkaisempi versio voisi kuulua: ”Mitkä 1800-luvulla tehdyt öljymaalaukset, joiden tekijä on opiskellut Pariisissa, ovat lainassa eikä niistä ole julkaistu digikuvia?” Jälkimmäinen on rakenteeltaan raskaampi: siinä on useita ehtoja, jotka kaikki täytyy ymmärtää ja joita vastaan järjestelmä testaa itseään. Juuri tällaisia eroja tutkijat pyrkivät mittaamaan ilman, että tarvitsee upota matematiikkaan.
Vertailua varten kysymyksiä teetettiin useilla kielimalleilla ja useissa selkeästi määritellyissä käyttötapauksissa. Mukana oli sekä avoimia malleja (KimiK2-1T, Llama 3.1–8B, Llama 3.2–3B) että suljettuja, suurten yhtiöiden ylläpitämiä malleja (Gemini 2.5 Pro, GPT‑4.1). Tarkoitus ei ollut julistaa voittajaa, vaan kartoittaa, millaisia ”tuottamisprofiileja” mallit näyttävät eri tilanteissa muodostavan.
Tulos on arkijärjen mukainen mutta tärkeä: mallit tuottavat erilaisia, käyttötapauksen muovaamia profiileja. Toisin sanoen sama malli ei välttämättä loista joka paikassa, eikä samanlainen kysymysjoukko sovi jokaiseen ongelmaan. Käytännössä tämä tarkoittaa, että mallin valinnassa kannattaa katsoa muutakin kuin yleisiä pistetaulukoita. Jos tarve on saada ytimekkäitä, helposti luettavia kysymyksiä, painotukset voivat olla toiset kuin silloin, kun etsitään rikkaasti rajattuja, hienojakoisia kysymyksiä, jotka paljastavat tietomallin katvealueita.
Miksi tämä on tärkeää? Koska tapa, jolla vaatimukset kirjoitetaan, ohjaa sitä, millainen järjestelmä lopulta rakennetaan. Jos tekoäly tuottaa pitkiä ja koukeroisia kysymyksiä, ne voivat uuvuttaa lukijan ja peittää olennaisen. Jos kysymykset ovat irrallaan taustatekstistä, ne eivät testaa sitä, mitä piti testata. Ja jos kysymysten rakenne on liian kevyt, järjestelmä voi näyttää pätevöityvän, vaikka se ei todellisuudessa kata tarpeellisia tapauksia.
Tutkimus tarjoaa siis välineitä – mittareita ja vertailun runkoa – jolla tätä laatua voi kurinalaisesti tarkastella. Samalla se avaa oven laajemmalle osallistumiselle. Kun kysymysten muodostaminen ei ole enää yksin harvojen asiantuntijoiden käsityötä, yhä useampi voi ehdottaa, mitä järjestelmältä pitäisi kysyä. Tämä on hyvä uutinen esimerkiksi kunnissa, terveydenhuollossa ja museoissa, joissa käyttäjien tarpeet ovat moninaisia.
On kuitenkin syytä nähdä rajat. Nyt esitellyt mittarit arvioivat havaittavia ominaisuuksia: luettavuutta, osuvuutta ja rakenteellista monimutkaisuutta. Ne eivät vielä kerro, ovatko kysymykset ”oikeita” juuri tiettyä organisaatiota varten tai paljastavatko ne olennaisimmat aukkokohdat tietomallissa. Lisäksi tulokset perustuvat joukkoon rajattuja käyttötapauksia ja tiettyihin malleihin. Yleistettävyys toisiin aihealueisiin, kieliin tai työskentelytapoihin vaatii lisää työtä.
On myös hyvä muistaa, että tekoälyn tuottamat kysymykset ovat väline, eivät päämäärä. Ne auttavat ihmisiä keskustelemaan ja testaamaan ajatuksiaan, mutta lopulta ihmiset vastaavat siitä, mitä pidetään tärkeänä ja millaisia kompromisseja tehdään.
Jos kielimallit todella avaavat vaatimusten laatimisen yhä useammalle, seuraava suuri kysymys kuuluu: kun koneet kirjoittavat kysymykset, kuka päättää, mitä kannattaa kysyä – ja miten varmistamme, että juuri ne kysymykset ohjaavat meitä kohti parempia järjestelmiä, eivät vain helpompia listoja?
Paper: https://arxiv.org/abs/2604.16258v1
Register: https://www.AiFeta.com
tekoäly kielimallit vaatimukset tietomallit ontologiat tutkimus