Valitustuomioiden ydin tiivistyy muutamaan kysymykseen – tekoäly kokoaa ne näkyviin ja ennustaa lopputuloksen
Oikeustalon käytävillä odotetaan kuukausia ja vuosia. Kun valitus lopulta tulee ratkaistuksi, moni huomaa, että mutkikas asiakirjavuori kiteytyi muutamaan ratkaisevaan kysymykseen: mikä oikeudellinen ongelma oli pöydällä, kuka sai siitä viime kädessä päättää ja miksi perustelut kallistuivat suuntaan tai toiseen.
Pitkään tietokoneilta on kysytty vain yhtä asiaa: voittaako vai häviääkö. Ennustemallit antoivat prosenttilukuja, mutta harvoin ymmärrettäviä syitä niiden taakse. Tuore arXivissa julkaistu tutkimus Intiasta ehdottaa toisenlaista lähtökohtaa. Sen mukaan valitustuomioista kannattaa ensin erottaa selkeät päätöspisteet – yksittäiset oikeudelliset ratkaisut – ja vasta sitten ennustaa, mihin ne todennäköisesti johtavat. Näin kone ei ainoastaan arvaa lopputulosta, vaan myös näyttää tien, jota pitkin se sinne päätyi.
Tutkimuksessa esitelty kehys, nimeltään Vichara, on räätälöity Intian oikeusjärjestelmään ja käsittelee englanninkielisiä valitusten asiakirjoja. Se pilkkoo aineiston päätöspisteiksi, joista jokainen kokoaa yhteen tapauksen kannalta keskeisen määrityksen:
- mikä on käsillä oleva oikeudellinen kysymys
- mikä taho on toimivaltainen päättämään siitä
- mikä on lopputulos
- mihin perustelut nojaavat
- missä ajallisessa kehyksessä asiaa tarkastellaan
Tämän rakenteen avulla järjestelmä tuottaa ennusteita ja myös selityksiä standardoidussa muodossa, joka mukailee juristeille tuttua IRAC-kehystä (Issue–Rule–Application–Conclusion): ensin määritellään kysymys, sitten muistutetaan sovellettavasta säännöstä, sen jälkeen sovelletaan sääntöä tapauksen tosiseikkoihin ja lopuksi tehdään johtopäätös. Arkisesti: mikä ongelma, mikä sääntö, miten sääntö puree juuri tähän tilanteeseen, ja mitä siitä seuraa.
Miltä tämä näyttää käytännössä? Yksi päätöspiste voi olla aivan alussa: voiko valitusta ylipäänsä käsitellä, vai kaatuuko se muotoseikkaan. Toinen voi koskea itse ydinasiaa: vahvistetaanko vai kumotaanko alemman oikeusasteen ratkaisu. Kummassakin tapauksessa järjestelmä kirjaa näkyviin, mikä kysymys ratkaistiin, kuka sen ratkaisi, miten päädyttiin siihen ja mihin aikaan tai tapahtumakulkuun perustelut kiinnittyvät. Näin asiakirjapinon sekavuus tiivistyy muutamaan ymmärrettävään välipäätökseen.
Kirjoittajat arvioivat Vicharaa kahdella aineistolla: PredExillä ja asiantuntijoiden annotoimalla osajoukolla Indian Legal Documents Corpus -korpuksesta (ILDC_expert). He käyttivät neljää suurta kielimallia, muun muassa GPT-4o miniä ja Llama-3.1-8B:tä. Tulosten mukaan Vichara ylitti aiemmat vertailumittarit molemmissa aineistoissa. Parhaiten suoriutui GPT-4o mini, joka saavutti F1-pisteet 81,5 PredExissä ja 80,3 ILDC_expertissä. F1 on mittari, joka yhdistää oikeiden osumien osuuden ja niiden kattavuuden: mitä korkeampi luku, sitä todennäköisemmin malli osuu oikeaan tasapainottaen varman ja kattavan tunnistuksen.
Pelkkä pistemäärä ei kuitenkaan tee työstä hyödyllistä juristeille. Siksi tekijät teettivät myös ihmisten arvion tuottamistaan selityksistä. Niitä pisteytettiin selkeyden, linkittymisen (kuinka hyvin selitys kytkeytyy käsiteltyyn päätöspisteeseen) ja hyödyllisyyden perusteella. Arvioiden mukaan GPT-4o mini ylsi näissä tulkittavuuden mittareissa parhaaksi. Tulos tukee ajatusta, että päätöspisteisiin pilkkominen ei vain paranna ennustusta, vaan myös tekee perusteluista luettavia ja työn kannalta relevantteja.
Miksi tämä on tärkeää? Maissa, joissa tuomioistuimet kamppailevat valtavan jutturuuhkan kanssa – Intia on tästä esimerkki – avuksi kaivataan välineitä, jotka nostavat nopeasti esiin asian ytimen. Jos järjestelmä osaa näyttää, mitkä kysymykset todennäköisesti ratkaisevat valituksen ja millä perustein, se voi auttaa asianajajia ja asianosaisia keskittymään olennaiseen. Tutkimuksen tekijöiden tavoite ei ole korvata tuomioistuimia, vaan tarjota rakenteinen näkymä siihen, miten ratkaisu usein rakentuu – ja antaa perusteltu arvio siitä, mihin suuntaan se todennäköisesti kallistuu.
On silti syytä katsoa myös rajat. Vichara käsittelee tutkimuksen mukaan englanninkielisiä valitusasiakirjoja ja on mukautettu Intian oikeudellisen päättelyn tapoihin. Siksi ei ole selvää, miten se toimisi muissa kielissä tai erilaisten oikeusperinteiden maissa. Arviointi tehtiin kahdella aineistolla, ei elävissä oikeustapauksissa. Myös suorituskyky riippui käytetystä kielimallista: parhaat luvut tulivat GPT-4o minillä, kun taas muut mallit jäivät sen taakse. Ja vaikka F1-luvut ovat korkeita, ne eivät tarkoita erehtymättömyyttä – väärinymmärryksiä ja virheitä syntyy väistämättä, etenkin kun asiakirjojen muoto ja sisältö vaihtelevat.
On lisäksi hyvä muistaa, että ”selitys” on tässä standardoitu tapa jäsentää argumentti, ei tae siitä, että todellinen tuomioistuin perustelee ratkaisunsa täsmälleen samoin. Se, että ihmisarvioijat pitivät selityksiä selkeinä ja hyödyllisinä, kertoo käytettävyydestä, muttei vielä siitä, miten työkalua kannattaisi ottaa osaksi oikeudenkäyntien arkea.
Silti tutkimus piirtää kiinnostavan suunnan. Kun tekoälyltä ei kysytä vain tuomiota, vaan pyydetään sitä ensin jäsentämään tie tuomioon, myös luottamus voi kasvaa: päätöksentekoa ei peitetä tilastollisen mustan laatikon sisään. Kysymys kuuluu, mihin kaikkeen sama periaate – ensin rakenne, sitten ennuste ja perustelu – voitaisiin vielä ulottaa. Jos valitusten solmut avautuvat päätöspisteiksi, voisiko samanlaista kurinalaista jäsentämistä kaivata myös muissa yhteiskunnan raskasliikkeisissä prosesseissa?
Paper: https://arxiv.org/abs/2602.18346v1
Register: https://www.AiFeta.com
tekoäly oikeus Intia tutkimus