Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Share
Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Uusi vertailu näyttää, että tekoälyn tapa muotoilla järjestelmävaatimuksia luonnollisen kielen kysymyksiksi vaihtelee mallin ja aiheen mukaan. Siksi tärkeintä ei ole valita ”parasta” mallia, vaan tilanteeseen sopiva.

Kuvitellaan tuttu kokous: pöydän ääressä yritetään päättää, mitä uuden tietojärjestelmän pitää pystyä tekemään. Syntyy lista kysymyksiä, joihin järjestelmän on osattava vastata. Esimerkiksi: ”Mitkä lääkkeet eivät sovi alle 12-vuotiaille?” tai ”Mitkä kirjat meiltä puuttuvat, vaikka ne kuuluvat lukulistalle?”

Tällaisia kysymyksiä on tietotekniikassa käytetty jo pitkään rajana: jos järjestelmä osaa vastata niihin, sen tietomalli on oikeilla jäljillä. Tietomalli – usein kutsuttu myös ontologiaksi – on yksinkertaisesti sanasto ja sääntökirja siitä, mitä asioita järjestelmässä on ja miten ne liittyvät toisiinsa.

Perinteisesti kysymykset on laadittu käsin: suunnittelijat ja aihealueen asiantuntijat ovat viilanneet sanamuotoja ja sisältöä yhdessä. Nyt suuret kielimallit lupaavat toisenlaisen lähestymistavan. Ne voivat tuottaa kymmeniä tai satoja kysymyksiä hetkessä vaikka pelkän taustatekstin perusteella. Nopeus on houkuttelevaa – mutta mitä näiden koneen laatimien kysymysten laadusta pitää ajatella?

Tuore arXiv-julkaisu tarttuu juuri tähän. Sen tekijät eivät keskity siihen, miten kielimalli saadaan tuottamaan mahdollisimman paljon kysymyksiä, vaan siihen, miten näitä kysymyksiä voi arvioida järjestelmällisesti. He ehdottavat mittoja, joilla kysymyksiä voi verrata useasta näkökulmasta: ovatko ne luettavia, ovatko ne käsillä olevaan aiheeseen nähden osuvia ja kuinka monimutkaisia niiden rakenteet ovat.

Luettavuus tarkoittaa arkisesti sitä, miten helposti ihminen ymmärtää kysymyksen: onko lause suora vai kiertelevä, onko mukana erikoistermejä. Osuvuus kysyy, liittyykö kysymys todella siihen tekstiin tai kuvaukseen, josta se on johdettu. Rakenne taas viittaa siihen, kuinka monta ehtoa, rajaa tai viittausta kysymykseen on pakattu.

Yksi konkreettinen esimerkki auttaa. Jos tavoitteena on rakentaa museon kokoelmatietoja kuvaava järjestelmä, kysymys voisi olla yksinkertainen: ”Mitkä teokset Edelfeltiltä ovat lainassa juuri nyt?” Se on suoraviivainen ja kohdistuu selvästi yhteen käsitteeseen (taiteilija) ja yhteen suhteeseen (lainassa). Monimutkaisempi versio voisi kuulua: ”Mitkä 1800-luvulla tehdyt öljymaalaukset, joiden tekijä on opiskellut Pariisissa, ovat lainassa eikä niistä ole julkaistu digikuvia?” Jälkimmäinen on rakenteeltaan raskaampi: siinä on useita ehtoja, jotka kaikki täytyy ymmärtää ja joita vastaan järjestelmä testaa itseään. Juuri tällaisia eroja tutkijat pyrkivät mittaamaan ilman, että tarvitsee upota matematiikkaan.

Vertailua varten kysymyksiä teetettiin useilla kielimalleilla ja useissa selkeästi määritellyissä käyttötapauksissa. Mukana oli sekä avoimia malleja (KimiK2-1T, Llama 3.1–8B, Llama 3.2–3B) että suljettuja, suurten yhtiöiden ylläpitämiä malleja (Gemini 2.5 Pro, GPT‑4.1). Tarkoitus ei ollut julistaa voittajaa, vaan kartoittaa, millaisia ”tuottamisprofiileja” mallit näyttävät eri tilanteissa muodostavan.

Tulos on arkijärjen mukainen mutta tärkeä: mallit tuottavat erilaisia, käyttötapauksen muovaamia profiileja. Toisin sanoen sama malli ei välttämättä loista joka paikassa, eikä samanlainen kysymysjoukko sovi jokaiseen ongelmaan. Käytännössä tämä tarkoittaa, että mallin valinnassa kannattaa katsoa muutakin kuin yleisiä pistetaulukoita. Jos tarve on saada ytimekkäitä, helposti luettavia kysymyksiä, painotukset voivat olla toiset kuin silloin, kun etsitään rikkaasti rajattuja, hienojakoisia kysymyksiä, jotka paljastavat tietomallin katvealueita.

Miksi tämä on tärkeää? Koska tapa, jolla vaatimukset kirjoitetaan, ohjaa sitä, millainen järjestelmä lopulta rakennetaan. Jos tekoäly tuottaa pitkiä ja koukeroisia kysymyksiä, ne voivat uuvuttaa lukijan ja peittää olennaisen. Jos kysymykset ovat irrallaan taustatekstistä, ne eivät testaa sitä, mitä piti testata. Ja jos kysymysten rakenne on liian kevyt, järjestelmä voi näyttää pätevöityvän, vaikka se ei todellisuudessa kata tarpeellisia tapauksia.

Tutkimus tarjoaa siis välineitä – mittareita ja vertailun runkoa – jolla tätä laatua voi kurinalaisesti tarkastella. Samalla se avaa oven laajemmalle osallistumiselle. Kun kysymysten muodostaminen ei ole enää yksin harvojen asiantuntijoiden käsityötä, yhä useampi voi ehdottaa, mitä järjestelmältä pitäisi kysyä. Tämä on hyvä uutinen esimerkiksi kunnissa, terveydenhuollossa ja museoissa, joissa käyttäjien tarpeet ovat moninaisia.

On kuitenkin syytä nähdä rajat. Nyt esitellyt mittarit arvioivat havaittavia ominaisuuksia: luettavuutta, osuvuutta ja rakenteellista monimutkaisuutta. Ne eivät vielä kerro, ovatko kysymykset ”oikeita” juuri tiettyä organisaatiota varten tai paljastavatko ne olennaisimmat aukkokohdat tietomallissa. Lisäksi tulokset perustuvat joukkoon rajattuja käyttötapauksia ja tiettyihin malleihin. Yleistettävyys toisiin aihealueisiin, kieliin tai työskentelytapoihin vaatii lisää työtä.

On myös hyvä muistaa, että tekoälyn tuottamat kysymykset ovat väline, eivät päämäärä. Ne auttavat ihmisiä keskustelemaan ja testaamaan ajatuksiaan, mutta lopulta ihmiset vastaavat siitä, mitä pidetään tärkeänä ja millaisia kompromisseja tehdään.

Jos kielimallit todella avaavat vaatimusten laatimisen yhä useammalle, seuraava suuri kysymys kuuluu: kun koneet kirjoittavat kysymykset, kuka päättää, mitä kannattaa kysyä – ja miten varmistamme, että juuri ne kysymykset ohjaavat meitä kohti parempia järjestelmiä, eivät vain helpompia listoja?

Paper: https://arxiv.org/abs/2604.16258v1

Register: https://www.AiFeta.com

tekoäly kielimallit vaatimukset tietomallit ontologiat tutkimus

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä, mutta

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen