Algoritmi arvaa iän ja tulot, vaikka ne on poistettu aineistosta
Olet ehkä nähnyt verkkopalvelun lupauksen: emme käytä ikää tai tuloja päätöksenteossa. Ajatus rauhoittaa – jos arkaluontoisia tietoja ei syötetä järjestelmään, ne eivät voi vaikuttaa lopputulokseen. Mutta mitä jos järjestelmä päättelee ne itse joka tapauksessa?
Moni on uskonut, että kun herkät tiedot, kuten ikä tai tulot, jätetään koulutusaineistosta pois, järjestelmä on niiden suhteen neutraali. Nyt tuore tutkimus ravistelee tätä oletusta. Se näyttää, että jopa niin sanotut ohjaamattomat menetelmät – työkalut, jotka vain tiivistävät ja jäsentävät dataa ilman valmiita vastauksia – voivat kuin itsestään järjestää ihmiset riviin iän tai tulojen mukaan.
Tutkimus ei lähde liikkeelle valmiista luokituksesta, vaan kartasta. Käytössä on menetelmä nimeltä SOMtime, joka perustuu itsejärjestyviin karttoihin: kuvitteellinen ruudukko, jolle ihmiset ”asettuvat” niin, että samankaltaiset päätyvät vierekkäin. Tämän pitäisi kuulostaa harmittomalta esikäsittelyltä – eräänlaiselta datan siistimiseltä ennen varsinaisia päätöksiä.
Silti kartalle piirtyi jotain yllättävää. Kun aineistosta oli nimenomaan jätetty pois ikä tai tulot, nämä ominaisuudet nousivat kartalla silti pääsuunniksi: mitä pidemmälle yhdellä akselilla liikuttiin, sitä vanhemmiksi ihmiset keskimäärin osoittautuivat, tai sitä korkeammiksi tulot kasvoivat. Kyse ei ollut sattumasta. Tutkijoiden mittareissa yhteys oli monesti hyvin vahva – huomattavasti vahvempi kuin muilla yleisillä tiivistysmenetelmillä, kuten pääkomponenttianalyysillä tai UMAPilla, jotka ylsivät tavallisesti vain heikkoihin yhteyksiin. SOMtime taas löysi yhteyden paikoin niin selvästi, että puhetta voi arkikielellä kutsua ”käytännössä järjestykseksi”.
Tätä ei testattu vain leikkidatalla. Aineistot olivat suuria ja aitoja: Maailman arvojen tutkimuksen vastauksia viidestä maasta sekä yhdysvaltalainen Census-Income-aineisto. Molemmissa tapauksissa sama ilmiö toistui. Lisäksi kun kartta jaettiin osiin – kuin kaupunginosiin – osista tuli demografisesti vinoja: tietyt lohkot täyttyivät nuoremmista, toiset vanhemmista; osassa painottuivat matalat tulot, toisissa korkeat. Kaikki tämä ilman, että ikää tai tuloja olisi koskaan syötetty mallille.
Mitä aiemmin ajateltiin – ja miksi se horjuu
Vakiintunut ajatus on ollut ”oikeudenmukaisuus tietämättömyyden kautta”: jos järjestelmä ei näe arkaluontoista tietoa, se ei voi syrjiä sen perusteella. Nyt osoitetaan, että jo pelkkä datan tiivistäminen voi palauttaa esiin sen, mitä luultiin piilotetun. Syy on arkipäiväinen: elämässämme monet asiat kulkevat käsi kädessä. Jos esimerkiksi kulutustottumukset, koulutusvuodet ja asumismuoto ovat mukana, niistä voi hahmottua ikä, vaikkei sitä olisi erikseen kerrottu.
Arvio ei ole täydellinen henkilökortti, mutta se riittää tekemään ryhmäjaosta vinon. Ja kun tällaisia esikäsiteltyjä ”karttoja” käytetään myöhemmin minkä tahansa päätöksen pohjana – mainosten kohdentamisesta lainatarjouksiin – vinouma voi valua koko ketjun läpi, vaikka yksikään kehittäjä ei olisi koskaan syöttänyt järjestelmään iän tai tulojen saraketta.
Yksi esimerkki, ilman yhtään kaavaa
Kuvitellaan uutiskirjepalvelu, joka lupaa olla käyttämättä ikää segmentoinnissa. Se tiivistää asiakkaiden lukutottumukset SOM-tyyppiselle kartalle ja jakaa kartan neljään ryhmään räätälöityjä kirjeitä varten. Ikä ei ole mukana datassa. Silti kartta järjestää ihmiset niin, että yhteen ryhmään kasaantuvat lukijat, jotka seuraavat ammattiuraa, asuntolainoja ja pörssiä – ja jotka sattuvat olemaan useammin keski-ikäisiä. Toiseen ryhmään kertyy opiskelijatarinoita, edullisia reseptejä ja pienituloisten arkea – ja sinne painottuvat nuoremmat. Palvelu ei rikkonut omaa lupaustaan, mutta päätyi silti käytännössä ikäryhmittelyyn. Seurauksena nuoremmat saavat eri viestejä kuin vanhemmat, ja jokin ryhmä jää kenties systemaattisesti vähemmälle huomiolle.
Tutkimus todisteena, ei pääasiana
ArXivissa julkaistu artikkeli ”SOMtime the World Ain’t Fair” tarjoaa tästä empiirisen näytön. SOMtime-menetelmä tuotti joissain testeissä erittäin vahvan yhteyden kartan suunnan ja todellisen iän tai tulotason välille. Vertailussa muut suositut tiivistysmenetelmät jäivät selvästi vaisummiksi. Lisäksi pelkkä kartan alueisiin jakaminen synnytti demografisesti vinoutuneita ryhmiä ilman yhtäkään ”opettavaa” esimerkkiä.
Johtopäätös on konkreettinen: ”tietämättömyys” ei takaa oikeudenmukaisuutta edes ennen varsinaista päätöksentekoa. Reiluuden arviointi on vietävä myös näihin varhaisiin, usein huomaamattomiin työvaiheisiin.
Rajoitukset ja avoimet kysymykset
On syytä olla tarkkana siinä, mitä tulokset kertovat – ja mitä eivät. Havainnot tehtiin kahdella laajalla, mutta silti rajatulla aineistolla. Ilmiö korostui tietyssä menetelmässä, joka näyttää nimenomaan järjestävän ihmisiä yksiulotteisen ”järjestyksen” mukaan. Lisäksi esiin nostetut herkät tiedot olivat järjestysluonteisia, kuten ikä ja tulot: ne on helppo asettaa janalle, toisin kuin vaikkapa etninen tausta. Tämä ei vähennä havainnon painoarvoa, mutta rajaa sen tulkintaa.
Silti viesti on selvä. Jos ohjaamattomat työkalut voivat jo esikäsittelyssä palauttaa esiin arkaluontoista tietoa, pelkkä kenttien poistaminen ei riitä. Kysymys kuuluu: kuka vastaa siitä, että myös nämä ”näkymättömät” vaiheet läpäisevät reiluustarkastuksen?
Kun tekoälyä valjastetaan viranomaispäätöksiin, luotonantoon tai työelämän järjestelmiin, vastuu ei voi rajoittua näkyviin painikkeisiin ja selitteisiin. Reiluus alkaa paljon aiemmin – tavasta, jolla data järjestetään. Ja jos kartta näyttää suuntaan, jonne emme halua mennä, kuinka muutamme reittiä?
Paper: https://arxiv.org/abs/2602.18201v1
Register: https://www.AiFeta.com
tekoäly oikeudenmukaisuus yksityisyys koneoppiminen data