Lakikone voi olla oikeassa vääristä syistä
Vuokrasopimus kiristää, muutto houkuttaa. Kuka jaksaa etsiä lakikirjasta pykäliä, kun puhelimen ruudulla päivystää ystävällinen tekoäly, joka lupaa vastauksen sekunneissa: voinko irtisanoa sopimuksen etuajassa? Vastaus tulee sujuvasti – ja kuulostaa uskottavalta. Mutta onko se oikea, ja vielä tärkeämpää: perustuuko se päteviin perusteisiin?
Viime vuosina olemme tottuneet arvioimaan tekoälyä suoraviivaisella mittarilla: montako vastausta se saa oikein. Tuore katsaus tekoälyn käyttöön oikeudellisissa tehtävissä ehdottaa, että tämä ajattelutapa on liian kapea. Oikeus ei ole tietovisa. Oikeassa oleminen vääristä syistä voi olla lähes yhtä huonoa kuin väärässä oleminen.
Katsauksen mukaan suuria kielimalleja – niitä samoja, jotka tuottavat sulavaa tekstiä ja keskustelevat ihmisiltä kuulostavasti – viedään jo laajasti oikeuden maailmaan. Niitä testataan tuomioistuimien päätöksenteon tukena, lakimiesten apulaisina ja kansalaisten neuvontapalveluissa. Kiinnostus on ymmärrettävää: mallit osaavat hakea tietoa, tiivistää tekstejä ja hahmottaa kysymyksiä. Silti todellisissa oikeustilanteissa pelkkä oikea lopputulos ei riitä, jos sen taustalla oleva päättely ei kestä valoa tai jos järjestelmä toimii epäoikeudenmukaisesti.
Katsaus tiivistää kolme haastetta, joita oikeudellisten tekoälyjärjestelmien arvioinnissa ei voi kiertää: lopputuloksen oikeellisuus, päättelyn luotettavuus ja järjestelmän luotettavuus laajassa mielessä – mukaan lukien tasapuolisuus ja ennakoitavuus. Näiden varaan rakentuvat myös tavat, joilla järjestelmiä tänä päivänä mitataan.
Ajatellaan konkreettista esimerkkiä. Tekoäly vastaa vuokralaisen kysymykseen: ”Et voi irtisanoa sopimusta ennen määräaikaa.” Se saattaa osua oikeaan kyseisessä kaupungissa ja tilanteessa. Mutta jos perusteluna on väärä laki tai naapurialueen käytäntö, vastaus ei ole käyttökelpoinen oikeassa elämässä. Kun asiakas kysyy lisää tai tilanne muuttuu, väärä perusta alkaa vuotaa. Oikeudessa syyt ja lähteet ovat koko asian ydin: ne mahdollistavat ratkaisun kestämisen ja valvonnan.
Toinen esimerkki liittyy tasapuolisuuteen. Kaksi ihmistä kysyy samaa asiaa hieman eri sanoin. Jos tekoäly antaa toiselle perusteellisen ja toiselle niukan vastauksen, järjestelmä ei ole johdonmukainen. Oikeudessa tällainen vaihtelu ei ole vähäpätöinen seikka; yhdenvertaisuus on perusarvo.
Katsaus käy läpi ja jäsentää nykyisiä arviointitapoja sen mukaan, millaisia tehtäviä niissä annetaan, millaisiin aineistoihin ne nojaavat ja millä mittareilla suoriutumista mitataan. Kirjoittajien johtopäätös on rauhallisen kriittinen: olemassa olevat kokeet kertovat jotain, mutta eivät kaikkea. Moni koe on hyvä mittaamaan, löytääkö järjestelmä oikean pykälän tai osuvaan vastauksen. Sen sijaan se, eteneekö ajattelu oikeudellisesti järkevää reittiä ja kohteleeko järjestelmä käyttäjiään tasapuolisesti, jää liian usein hämäräksi.
Panokset ovat suuremmat kuin pelkän nippelitiedon kohdalla. Jos tekoäly ehdottaa lakimiehelle muistion rungon tai kokoaa tuomarille esikatselun oikeustapauksista, ratkaisuun vaikuttaa se, miten järjestelmä on arvioitu ja mihin sen vahvuuksien ja heikkouksien ajatellaan rajoittuvan. Katsauksen kirjoittajat korostavat, että vastuullinen käyttöönotto edellyttää systemaattista, todellista oikeuskäytäntöä heijastavaa arviointia – ei vain pintapuolista tarkastelua.
Mitä tämä käytännössä tarkoittaa? Ensinnäkin arvioinnin tulisi huomioida prosessi, ei vain vastaus. Jos järjestelmä väittää, että päätös perustuu tiettyyn oikeustapaukseen, sen pitäisi kyetä osoittamaan se ja pysyä samassa linjassa samanlaisissa tilanteissa. Toiseksi mittaamisen pitäisi ulottua luotettavuuteen: annetaanko käyttäjälle johdonmukaisia neuvoja, vaihteleeko laatu yllättävällä tavalla ja tunnistaako järjestelmä epävarmuuden.
Katsaus ei väitä, että täydellinen mittari olisi jo olemassa. Päinvastoin: nykyisillä lähestymistavoilla on rajoituksensa. Monet kokeet eivät tavoita todellisten oikeustehtävien monimutkaisuutta, eivätkä ne aina kerro, miten järjestelmä toimisi tilanteessa, jossa pienet sanamuodot tai paikalliset käytännöt ratkaisevat lopputuloksen. Myös ”tasapuolisuuden” ja ”luotettavuuden” kaltaiset sanat vaativat huolellista määrittelyä, jotta niistä tulee mitattavia tavoitteita, eivätkä ne jää kauniiksi periaatteiksi.
Silti suunta on selvä. Katsaus hahmottelee tulevia askelia kohti realistisempia, luotettavampia ja oikeuskäytäntöön nojaavia arviointikehyksiä. Yksinkertaistaen: tehtävien tulee muistuttaa aitoja töitä, aineistojen heijastaa oikeaa elämää, ja mittareiden kertoa muutakin kuin pistemäärä. Vasta silloin päätöksentekijät voivat luottaa siihen, että järjestelmä ei ainoastaan osu oikeaan, vaan myös päätyy siihen tavalla, jonka voi perustella.
Kuka tämän kaiken sitten määrittelee? Tuomioistuimet ja asianajajakunnat, jotka kantavat vastuun oikeudesta? Vai teknologiayritykset, jotka rakentavat työkaluja, tai viranomaiset, jotka valvovat niiden käyttöä? Tekoälyn rooli oikeuselämässä kasvaa, halusimme tai emme. Kysymys kuuluu: millä pelisäännöillä mittaamme koneen kykyä tulkita sääntöjä – ja kenen säännöillä?
Paper: https://arxiv.org/abs/2601.15267v1
Register: https://www.AiFeta.com
tekoäly oikeus arviointi luottamus kielimallit tutkimus