Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Uusi vertailu näyttää, että tekoälyn tapa muotoilla järjestelmävaatimuksia luonnollisen kielen kysymyksiksi vaihtelee mallin ja aiheen mukaan. Siksi tärkeintä ei ole valita ”parasta” mallia, vaan tilanteeseen sopiva.

Kuvitellaan tuttu kokous: pöydän ääressä yritetään päättää, mitä uuden tietojärjestelmän pitää pystyä tekemään. Syntyy lista kysymyksiä, joihin järjestelmän on osattava vastata. Esimerkiksi: ”Mitkä lääkkeet eivät sovi alle 12-vuotiaille?” tai ”Mitkä kirjat meiltä puuttuvat, vaikka ne kuuluvat lukulistalle?”

Tällaisia kysymyksiä on tietotekniikassa käytetty jo pitkään rajana: jos järjestelmä osaa vastata niihin, sen tietomalli on oikeilla jäljillä. Tietomalli – usein kutsuttu myös ontologiaksi – on yksinkertaisesti sanasto ja sääntökirja siitä, mitä asioita järjestelmässä on ja miten ne liittyvät toisiinsa.

Perinteisesti kysymykset on laadittu käsin: suunnittelijat ja aihealueen asiantuntijat ovat viilanneet sanamuotoja ja sisältöä yhdessä. Nyt suuret kielimallit lupaavat toisenlaisen lähestymistavan. Ne voivat tuottaa kymmeniä tai satoja kysymyksiä hetkessä vaikka pelkän taustatekstin perusteella. Nopeus on houkuttelevaa – mutta mitä näiden koneen laatimien kysymysten laadusta pitää ajatella?

Tuore arXiv-julkaisu tarttuu juuri tähän. Sen tekijät eivät keskity siihen, miten kielimalli saadaan tuottamaan mahdollisimman paljon kysymyksiä, vaan siihen, miten näitä kysymyksiä voi arvioida järjestelmällisesti. He ehdottavat mittoja, joilla kysymyksiä voi verrata useasta näkökulmasta: ovatko ne luettavia, ovatko ne käsillä olevaan aiheeseen nähden osuvia ja kuinka monimutkaisia niiden rakenteet ovat.

Luettavuus tarkoittaa arkisesti sitä, miten helposti ihminen ymmärtää kysymyksen: onko lause suora vai kiertelevä, onko mukana erikoistermejä. Osuvuus kysyy, liittyykö kysymys todella siihen tekstiin tai kuvaukseen, josta se on johdettu. Rakenne taas viittaa siihen, kuinka monta ehtoa, rajaa tai viittausta kysymykseen on pakattu.

Yksi konkreettinen esimerkki auttaa. Jos tavoitteena on rakentaa museon kokoelmatietoja kuvaava järjestelmä, kysymys voisi olla yksinkertainen: ”Mitkä teokset Edelfeltiltä ovat lainassa juuri nyt?” Se on suoraviivainen ja kohdistuu selvästi yhteen käsitteeseen (taiteilija) ja yhteen suhteeseen (lainassa). Monimutkaisempi versio voisi kuulua: ”Mitkä 1800-luvulla tehdyt öljymaalaukset, joiden tekijä on opiskellut Pariisissa, ovat lainassa eikä niistä ole julkaistu digikuvia?” Jälkimmäinen on rakenteeltaan raskaampi: siinä on useita ehtoja, jotka kaikki täytyy ymmärtää ja joita vastaan järjestelmä testaa itseään. Juuri tällaisia eroja tutkijat pyrkivät mittaamaan ilman, että tarvitsee upota matematiikkaan.

Vertailua varten kysymyksiä teetettiin useilla kielimalleilla ja useissa selkeästi määritellyissä käyttötapauksissa. Mukana oli sekä avoimia malleja (KimiK2-1T, Llama 3.1–8B, Llama 3.2–3B) että suljettuja, suurten yhtiöiden ylläpitämiä malleja (Gemini 2.5 Pro, GPT‑4.1). Tarkoitus ei ollut julistaa voittajaa, vaan kartoittaa, millaisia ”tuottamisprofiileja” mallit näyttävät eri tilanteissa muodostavan.

Tulos on arkijärjen mukainen mutta tärkeä: mallit tuottavat erilaisia, käyttötapauksen muovaamia profiileja. Toisin sanoen sama malli ei välttämättä loista joka paikassa, eikä samanlainen kysymysjoukko sovi jokaiseen ongelmaan. Käytännössä tämä tarkoittaa, että mallin valinnassa kannattaa katsoa muutakin kuin yleisiä pistetaulukoita. Jos tarve on saada ytimekkäitä, helposti luettavia kysymyksiä, painotukset voivat olla toiset kuin silloin, kun etsitään rikkaasti rajattuja, hienojakoisia kysymyksiä, jotka paljastavat tietomallin katvealueita.

Miksi tämä on tärkeää? Koska tapa, jolla vaatimukset kirjoitetaan, ohjaa sitä, millainen järjestelmä lopulta rakennetaan. Jos tekoäly tuottaa pitkiä ja koukeroisia kysymyksiä, ne voivat uuvuttaa lukijan ja peittää olennaisen. Jos kysymykset ovat irrallaan taustatekstistä, ne eivät testaa sitä, mitä piti testata. Ja jos kysymysten rakenne on liian kevyt, järjestelmä voi näyttää pätevöityvän, vaikka se ei todellisuudessa kata tarpeellisia tapauksia.

Tutkimus tarjoaa siis välineitä – mittareita ja vertailun runkoa – jolla tätä laatua voi kurinalaisesti tarkastella. Samalla se avaa oven laajemmalle osallistumiselle. Kun kysymysten muodostaminen ei ole enää yksin harvojen asiantuntijoiden käsityötä, yhä useampi voi ehdottaa, mitä järjestelmältä pitäisi kysyä. Tämä on hyvä uutinen esimerkiksi kunnissa, terveydenhuollossa ja museoissa, joissa käyttäjien tarpeet ovat moninaisia.

On kuitenkin syytä nähdä rajat. Nyt esitellyt mittarit arvioivat havaittavia ominaisuuksia: luettavuutta, osuvuutta ja rakenteellista monimutkaisuutta. Ne eivät vielä kerro, ovatko kysymykset ”oikeita” juuri tiettyä organisaatiota varten tai paljastavatko ne olennaisimmat aukkokohdat tietomallissa. Lisäksi tulokset perustuvat joukkoon rajattuja käyttötapauksia ja tiettyihin malleihin. Yleistettävyys toisiin aihealueisiin, kieliin tai työskentelytapoihin vaatii lisää työtä.

On myös hyvä muistaa, että tekoälyn tuottamat kysymykset ovat väline, eivät päämäärä. Ne auttavat ihmisiä keskustelemaan ja testaamaan ajatuksiaan, mutta lopulta ihmiset vastaavat siitä, mitä pidetään tärkeänä ja millaisia kompromisseja tehdään.

Jos kielimallit todella avaavat vaatimusten laatimisen yhä useammalle, seuraava suuri kysymys kuuluu: kun koneet kirjoittavat kysymykset, kuka päättää, mitä kannattaa kysyä – ja miten varmistamme, että juuri ne kysymykset ohjaavat meitä kohti parempia järjestelmiä, eivät vain helpompia listoja?

Paper: https://arxiv.org/abs/2604.16258v1

Register: https://www.AiFeta.com

tekoäly kielimallit vaatimukset tietomallit ontologiat tutkimus

Read more

Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Kun tutkija jättää työpöytänsä, hänen äänensä ei välttämättä vaikene. Pelkistä julkaisuista voidaan jo rakentaa tekoäly, joka ohjaa väitöskirjaa, arvioi artikkeleita ja väittelee paneelissa – uskottavasti. Useimmat meistä ajattelevat tutkimusartikkeleita kirjastoiksi: hyllyriveiksi ajatuksia, joihin muut voivat palata. Uusi arXivissa julkaistu esityspaperi ehdottaa toisenlaista kuvaa. Julkaisut ovatkin rakennuspiirustuksia, joista voidaan koota tekijänsä ajattelutapa

By Kari Jaaskelainen
Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Moni tietää tunteen seminaarin päätteeksi: ohjelma oli kiinnostava, mutta kuka päätti, mistä puhuttiin ja mistä ei? Usein vastaus on pieni ohjelmakomitea, joka tekee valinnat ennakkoon. Yleisö kuuntelee, harva vaikuttaa. Eräässä tekoälyn yhteiskunnallisia vaikutuksia käsittelevässä kansainvälisessä konferenssissa kokeiltiin toisenlaista tapaa. Osallistujat eivät vain tulleet paikalle – he auttoivat muokkaamaan itse tilaisuuden suuntaa.

By Kari Jaaskelainen
Tekoäly nostaa kärjekkyyden pintaan – silloinkin, kun sitä pyydetään neutraaliksi

Tekoäly nostaa kärjekkyyden pintaan – silloinkin, kun sitä pyydetään neutraaliksi

Se alkaa pienestä: puhelimesi näyttää kymmenen “parasta” julkaisua juuri nyt. Ehkä some-palvelu lupaa suositukset tekoälyn avulla – fiksusti, puolueettomasti. Hetken selaamisen jälkeen huomaat kuitenkin, että esiin nousevat enimmäkseen napakat piikit, vastakkainasettelut ja negatiiviset sävyt. Vika ei välttämättä ole sinussa. Se voi olla tavoissa, joilla uudet kielimallit – tekoälyt, jotka lukevat ja kirjoittavat

By Kari Jaaskelainen