Rakenne tekee tekoälypyynnöstä terävämmän
Moni on kokeillut tätä: kirjoitat tekoälylle “kirjoita minulle sähköposti” ja saat vastauksen, joka on ihan kelpo – mutta silti väärä. Sävy lipsuu, pituus on pielessä tai vastaanottaja unohtuu. Kun taas erittelet pyynnön huolellisesti – kenelle, miksi, millä äänensävyllä ja mihin mennessä – vastaus osuu paremmin maaliin.
Olemme tottuneet ajatukseen, että hyvästä vastauksesta kiittää “prompt-taikuus” tai mallien älykkyys. Tuore näyttö vihjaa toisin: se, miten pyydämme, ratkaisee yllättävän paljon, ja selkeä rakenne voi sekä parantaa vastausten osuvuutta että paljastaa eroja, jotka muutoin jäisivät piiloon.
ArXivissa julkaistu tutkimus tarkasteli niin kutsuttua 5W3H-kaavaa – toimittajille tuttua kysymysrunkoa “kuka, mitä, milloin, missä, miksi” ja eri “miten”-muotoja – tapana kuvata pyyntö järjestelmällisesti. Kehystä kutsutaan PPS:ksi, mutta olennaista on ajatus: ennen kuin malli vastaa, se saa selkeän rungon siitä, mitä tarkalleen halutaan.
Tutkijat laajensivat aiempaa, vain kiinankielistä näyttöä kolmella tavalla. He testasivat kaavaa myös englanniksi ja japaniksi, lisäsivät uuden käyttötilanteen, jossa käyttäjän lyhyt, yhden lauseen pyyntö laajennetaan automaattisesti täydeksi 5W3H-kuvaukseksi tekoälyn avustamassa käyttöliittymässä, ja kysyivät, miten rakenne vaikuttaa eri mallien vastausten yhdenmukaisuuteen. Aineisto oli laaja: 2 160 vastausta, jotka syntyivät kolmen kielen, neljän pyyntöasetelman, kolmen suuren kielimallin ja 60 tehtävän yhdistelmänä.
Tulokset olivat kaksiavioisia. Ensinnäkin, automaattisesti laajennetut 5W3H-pyynnöt pääsivät maaliin yhtä hyvin kuin käsin laaditut rakennepyynnöt kaikilla kolmella kielellä. Eroa tehtävänmukaisuudessa ei ollut tilastollisesti merkitsevästi – mutta käyttäjän vaiva oli pienempi: yksi lähtölause riitti, loppu kuvattiin puolestasi.
Toiseksi, rakenne tasoitti tai uudelleenmuotoili usein eroja, joita eri mallit tuottivat samaan tehtävään. Vaikutus ei ollut kauttaaltaan samanlainen kaikilla kielillä ja mittareilla, mutta vahvin todiste tuli yllättävästä paikasta: vapaamuotoiset, rönsyilevät pyynnöt näyttivät mittareissa epäilyttävän hyville. Ne paisuttivat yhdistelmäpisteitä ja saivat eri mallit näyttämään keinotekoisen samanlaisilta. Toisin sanoen, kun pyyntö on epämääräinen, myös arviointi hämärtyy.
Mitä tämä tarkoittaa arjessa? Ajatellaan sähköpostia. Vapaa pyyntö “Kirjoita muistutuspalaverista” voi tuottaa asiallisen tekstin, mutta se ei tiedä, kenelle viesti menee, miksi juuri hänelle, millä tyylillä tai millä aikataululla. Rakennepyyntö taas saattaisi sisältää selkokielisesti esimerkiksi: kenelle (tiimin vetäjälle), mitä (muistutus huomisesta 9.00 palaverista), missä (Teams), miksi (päivittää projektin tilanne), miten (napakka ja kohtelias), kuinka pitkä (5 virkettä), millä lisärajoilla (ei jargonia). Tekoälyn avustama käyttöliittymä voi laajentaa lähtötoiveesi tällaiseksi rungoksi ilman, että itse täytät jokaisen kohdan. Tutkimuksen perusteella lopputulos osuu tällöin yhtä hyvin kuin jos olisit nähnyt vaivan itse.
Rakenne vaikuttaa myös siihen, miltä eri mallit “paperilla” näyttävät. Kun pyynnöt ovat epämääräisiä, automaattiset arvioinnit antavat helposti korkeita kokonaispisteitä – ja mallit näyttävät samanvahvoilta. Silti todellisuudessa yksi malli voi ohittaa olennaisen vaatimuksen, kuten vastaanottajan huomioimisen, ja toinen taas osuu siihen täsmälleen. Kun pyyntö on pilkottu selkeisiin osiin, erot tulevat näkyviin: mikä malli noudattaa sävyä, mikä muistaa aikarajan, mikä pysyy pituudessa. Tämä on olennaista sekä käyttäjälle että organisaatioille, jotka vertailevat työkaluja päätöksiä varten.
Kriittiset varaukset kuuluvat kuvaan. Vaikka rakenne usein vähensi mallien vastausten hajontaa, näin ei käynyt kaikilla kielillä tai kaikissa mittauksissa. Kolme kieltä on paljon, mutta ei kaikki; 60 tehtävää on monipuolinen otos, mutta se ei kata erikoistilanteita. Myös “tehtävänmukaisuuden” mittaaminen on vaikeaa. Yhdistelmäpisteet pyrkivät tiivistämään monta asiaa yhteen numeroon, ja tutkimus muistuttaa, että ilman selkeitä tavoitteita tuo numero voi kaunistua – tai tasoittaa todellisia eroja. Lisäksi kyse on esijulkaisusta: havaintoja on syytä toistaa ja laajentaa.
Silti viesti on arkijärkeä tukeva ja käytännöllinen. Kun pyyntöjen tarkoitus kuvataan selkeästi, mallit tekevät useammin sen, mitä halutaan. Kun laajentaminen voidaan jättää tekoälyn tehtäväksi, kynnys madaltuu niillekin, jotka eivät halua tai ehdi opetella pyyntöjen tekniikoita. Ja kun rakenne paljastaa erot mallien välillä, valinnat voivat perustua siihen, mikä ratkaisee juuri sinun työssäsi.
Ehkä kiinnostavin kysymys on, kuinka pitkälle tämä ajatus viedään. Alammeko käyttää työkaluja, jotka muotoilevat joka pyynnön huomaamattomasti 5W3H-rungoksi taustalla – ja pitäisikö niin tehdä? Jos tekoäly oppii kyselemään oikeat tarkennukset puolestamme, mitä jää käyttäjän vastuulle: tavoitteiden asettaminen, vai myös rajoitteiden muotoilu? Vastaus määrittää, millaiseksi ihmisen ja tekoälyn yhteispeli arjessa kehittyy.
Paper: https://arxiv.org/abs/2603.25379v1
Register: https://www.AiFeta.com
tekoäly kielet tutkimus käyttöliittymät työnkulut