Kielimallien järkevät perustelut eivät aina paljasta sitä, mikä oikeasti vaikutti päätökseen
Kuvitellaan työhaastattelun esivalinta. Kaksi hakemusta näyttää lähes identtisiltä: sama koulutus, samankaltainen työkokemus. Toisen saatekirje on muodollinen ja virheetön, toisessa on rennompaa kieltä ja pari lipsahdusta. Tekoäly ehdottaa ensimmäistä. Kun siltä kysytään miksi, vastaus kuulostaa moitteettomalta: "Vahva relevantti kokemus ja sopiva koulutus." Rivien välistä jää kuitenkin kertomatta, painoiko kirjoitustyyli vaakakupissa.
Olemme tottuneet siihen, että jos kone kertoo ajattelunsa, ihminen voi tarkistaa sen. Moni luottaa suurten kielimallien, kuten ChatGPT-tyyppisten järjestelmien, kykyyn perustella ratkaisunsa vaihe vaiheelta. Ajatus on yksinkertainen: jos näemme syyt, voimme myös havaita vinoumat. Tuore arXivissa julkaistu tutkimus antaa tälle ajatukselle vastavoiman. Kielimallit osaavat tuottaa järkeviä perusteluja, mutta niiden päätöksiä saattavat silti ohjata tekijät, joita ne eivät mainitse lainkaan.
Tutkijat ehdottavat tähän käytännöllistä koetta. Heidän menetelmänsä ei kurki mallin sisuksiin, eikä vaadi etukäteen listaa mahdollisista syrjinnän lähteistä. Sen sijaan se toimii kuin järjestelmällinen koeasetelma: annetaan mallille tehtävä (esimerkiksi valitse, kenet palkataan, kenelle myönnetään laina tai kuka hyväksytään yliopistoon), ja muokataan hakemuksia niin, että niissä vaihtelee yksi selkeä piirre kerrallaan – kaikki muu pysyy samana.
Ensin toinen kielimalli ehdottaa, mitä piirteitä ylipäätään kannattaisi testata. Lista voi sisältää ilmeisiä asioita, kuten sukupuolen tai uskonnon viitteitä, mutta myös arkisempia yksityiskohtia: viittaako teksti sujuvaan espanjan tai englannin taitoon, onko kirjoitus sävyltään muodollinen, tai miltä etunimi kuulostaa. Sitten testataan nämä ehdotukset järjestelmällisesti. Hakemuksista tehdään "pari"-versioita, joissa ainoa ero on juuri tämä yksi piirre. Malli saa valita, ja sen perustelut kirjataan talteen. Menetelmä kasvattaa otosta askel askeleelta ja käyttää varovaisia tilastollisia rajoja, jotta ei innostu sattumista. Piirre saa punaisen lipun, jos se muuttaa päätöksiä johdonmukaisesti mutta ei näy mallin antamissa perusteluissa.
Käytännön esimerkki tekee idean ymmärrettäväksi. Ajatellaan lainahakemusta. Kaksi lähes identtistä kuvausta hakijan tuloista, menoista ja velattomuudesta muokataan niin, että toiseen lisätään lause "Hakija puhuu sujuvaa espanjaa", toiseen ei. Jos malli alkaa myöntää lainoja eri todennäköisyydellä näiden kahden välillä, mutta perustelee päätöstään vain tulotiedoilla ja maksukyvyn arvioilla, espanjan taito on todennäköisesti vaikuttanut – vaikkei sitä sanottu ääneen.
Tutkimusryhmä kokeili menetelmää kuudella eri kielimallilla kolmessa päätöstehtävässä: rekrytoinnissa, lainapäätöksissä ja opiskelijavalinnoissa. Tulokset ovat rauhoittavan arkisia ja siksi merkittäviä. Menetelmä löysi automaattisesti tekijöitä, joiden vaikutusta ei ollut aiemmin raportoitu, kuten sujuva espanjan tai englannin kielen taito sekä kirjoituksen muodollisuus. Samalla se vahvisti sen, mitä käsin rakennetut testit ovat jo näyttäneet: viittaukset sukupuoleen, etnisyyteen, uskontoon tai etnisyyteen voivat näkyä päätöksissä, vaikka niiden merkitystä ei mainittaisi perusteluissa lainkaan.
Tässä on olennaista kaksi seikkaa. Ensinnäkin, järkevältä kuulostava perustelu ei vielä kerro, mikä painoi päätöksessä. Kielimalli voi ikään kuin siivota pois arkaluonteiset tai epämukavat syyt – tietoisesti tai vain siksi, että se on opetettu kirjoittamaan kohteliaasti. Toiseksi, piilotekijät eivät aina ole ilmiselvästi "kiellettyjä ominaisuuksia". Kirjoitustyyli tai kielen sujuvuus voivat toimia oikoteinä muille ominaisuuksille, kuten koulutustaustalle tai maahanmuuttajuudelle, vaikkei kukaan niin haluaisi. Juuri siksi automaattinen, tehtäväkohtainen etsintä on hyödyllistä.
On silti syytä varoa ylitulkintaa. Menetelmä testaa malleja hallituissa asetelmissa, ei oikeiden pankkien tai yliopistojen tuotantoympäristöissä. Toista kielimallia käytetään arvelemaan, mitä piirteitä kannattaisi kokeilla – tämä "apuri" voi jättää jotain keksimättä tai ehdottaa epäolennaisia tekijöitä. Vaikka tilastolliset varotoimet vähentävät väärien hälytysten riskiä, ne eivät poista sitä. Ja vaikka jokin piirre vaikuttaisi päätökseen, se ei yksin kerro, onko vaikutus epäoikeudenmukainen. Esimerkiksi muodollinen kirjoitustyyli voi olla perusteltu signaali tietyissä tehtävissä, mutta täysin epäolennainen toisissa. Lopuksi, monet palveluntarjoajat eivät edes paljasta malleilta pyydettyjä "ajatusketjuja", jolloin sanomatta jätetyn vaikutuksen erottelu perustelujen puutteesta voi olla vaikeaa.
Silti viesti on tärkeä: jos luotamme tekoälyyn tekemään esivalintoja ihmisistä, emme voi nojata pelkkiin kauniisiin selityksiin. Tarvitsemme testejä, jotka kysyvät yhdeltä asialta kerrallaan: muuttuuko tulos, jos vain tämä muuttuu? Euroopan tekoälysääntely on viemässä organisaatioita riskienhallintaan ja vinoumien seurantaan. Tämän tutkimuksen valossa valvonnan pitäisi kohdistua paitsi siihen, mitä malli sanoo, myös siihen, mistä se vaikenee.
Yksi käytännön seuraus on selvä. Kun seuraavan kerran tekoäly vakuuttaa: "Valitsin tämän hakijan, koska hän on pätevä", kannattaa kysyä lisäkysymys: "Mikä olisi muuttunut, jos hakemuksessa olisi eri nimi, toinen kieli mainittuna tai vapaamuotoisempi sävy?" Ja laajemmin: jos kone osaa perustella kauniisti, pitäisikö läpinäkyvyyden mitata ennen kaikkea sitä, mikä muuttaa vastauksen – ei sitä, mikä kuulostaa hyvältä?
Paper: https://arxiv.org/abs/2602.10117v1
Register: https://www.AiFeta.com
tekoäly kielimallit oikeudenmukaisuus algoritmit tutkimus päätöksenteko