tekoäly

Korkea tarkkuus voi peittää kasvontunnistuksen epäreiluuden

Kari Jaaskelainen

31 Mar 2026 — 3 min read

Valvontakamera sirittää ja poliisin puhelin värähtää: järjestelmä väittää tunnistaneensa etsityn henkilön jonottamassa kioskin kassalle. Partio kääntyy paikalle, mutta kyse on väärästä hälytyksestä. Toisaalla sama kamera antaa mennä ohi ihmisen, jota todella etsitään. Arjessa näitä kahta virhettä – aiheetonta epäilyä ja ohiammuttua osumaa – ei koeta samanlaisina. Silti ne voivat piiloutua saman näyttävän luvun taakse: ”järjestelmän tarkkuus on 95 prosenttia”.

Vuosia kasvontunnistusta ja muita tekoälysovelluksia on myyty ja arvioitu yhdellä keskimääräisellä onnistumisluvulla. Ajatus on houkutteleva: mitä korkeampi prosentti, sitä parempi. Tuore arXiv-artikkeli väittää, että tällainen yhden luvun tuijottaminen on vaarallisen harhaanjohtavaa etenkin silloin, kun päätösten seuraukset ovat vakavat – kuten poliisin työssä ja turvallisuudessa. Korkea kokonaisluku voi nimittäin kätkeä alleen sen, kenelle virheet kasautuvat.

Artikkelin ydin on arkijärjellä ymmärrettävä. Kun järjestelmä tekee virheen, se voi tehdä sen kahdella tavalla: se voi ”osoittaa” väärää henkilöä (väärä hälytys), tai jättää oikean henkilön tunnistamatta (ohiammuttu osuma). Lisäksi virheitä voi sattua eri väestöryhmille eri tahtiin. Jos katsomme vain yhtä keskiarvoa, emme näe, kenen laitteet piippaavat turhaan ja ketkä kävelevät aina tarkastuspisteen läpi kuin näkymättöminä.

Artikkeli osoittaa, että tällainen epätasaisuus ei ole teoriaa. Tutkimuksessa tarkastellaan virheiden jakautumista ryhmittäin ja huomautetaan, että saman oloiset kokonaisluvut voivat syntyä hyvin erilaisista todellisuuksista. Kaksi järjestelmää voi näyttää paperilla yhtä hyvältä, vaikka ensimmäinen tekee useimmat virheensä yhtenä tyyppisenä ja tietylle ryhmälle, ja toinen aivan toisenlaisina ja toiseen suuntaan. Yhden keskiarvon taakse voi siis piiloutua olennaista tietoa siitä, kuka joutuu useammin aiheetta epäillyksi ja ketkä jäävät järjestelmän katveeseen.

Konkreettinen esimerkki auttaa. Kuvitellaan kaksi jatkuvassa valvontakäytössä olevaa kasvontunnistusjärjestelmää. Molemmat ”onnistuvat” suurin piirtein yhtä usein, ja niiden esitysmateriaaleissa komeilee sama korkea prosenttiluku. Ensimmäinen järjestelmä kuitenkin hälyttää useammin turhaan tietyistä ryhmistä – käytännössä tämä tarkoittaa ylimääräisiä pysäytyksiä ja selittelyjä heille, joilla ei ole mitään tekemistä rikosepäilyn kanssa. Toinen puolestaan jättää tunnistamatta joitakin toisia ryhmiä muita useammin – seurauksena on, että etsintäkuulutettu voi helpommin livahtaa ohi. Molempien tilanne on ”95 prosenttia”, mutta arki ja riskit ovat täysin erilaisia.

Tämä ero ei ole pelkkää teknistä hiustenhalkomista. Poliisin ja turvallisuuden kaltaisissa korkean panoksen ympäristöissä väärä hälytys voi leimata viattoman ihmisen ja kasvattaa epäluottamusta. Ohiammuttu osuma taas voi tarkoittaa, että vaarallinen tilanne jää havaitsematta. Artikkelin viesti on, että jos arvioimme järjestelmää vain yhdellä aggregoidulla tarkkuudella, emme kykene punnitsemaan näitä eri virheitä emmekä niiden jakautumista ihmisryhmien kesken. Tällainen arviointitapa lisää operatiivista riskiä – virheitä tehdään väärissä paikoissa ja väärien ihmisten kohdalla.

Mitä tilalle? Kirjoittaja ehdottaa, että arvioinnissa pitäisi katsoa virheitä ryhmittäin eikä tyytyä yhteen keskiarvoon. Käytännössä tämä tarkoittaa sitä, että raportoidaan ja tarkastellaan erikseen, kuinka usein järjestelmä hälyttää syyttä ja kuinka usein se antaa oikean kohteen mennä ohi – ja tehdään tämä erikseen eri väestöryhmille. Lisäksi artikkeli korostaa, että arvioinnin ei pidä päättyä laboratorioon tai lanseeraukseen: kentällä käytössä olevia järjestelmiä pitää voida tarkastaa jälkikäteen riippumatta siitä, miten ne on toteutettu. Ulkopuolinen, toteutuksesta riippumaton tarkastaminen auttaa havaitsemaan todellisen käytön aikaiset vinoumat, joita kehitysvaiheessa ei nähty.

On syytä huomata myös rajoitukset. Artikkeli ei tarjoa yhtä taikalukua tai valmista kaavaa, joka kertoisi, milloin järjestelmä on ”riittävän reilu”. Se ei myöskään väitä, että kaikkia eroja voitaisiin poistaa. Sen johtopäätös on vaatimattomampi mutta tärkeä: kokonaistarkkuus on liian karkea mitta, ja vastuu on laajentaa arviointia niin, että se näyttää virheiden laadun ja kohdentumisen. Se on ehto sille, että voimme ylipäätään keskustella siitä, onko järjestelmä käyttökelpoinen ja hyväksyttävä.

Artikkelin empiiriset havainnot vahvistavat sen, mistä käytännön kokemus on jo monin paikoin vihjannut: sama näyttävä numero voi peittää alleen olennaisia eroja järjestelmien välillä. Tämä ei tee prosenttiluvuista hyödyttömiä. Se vain muistuttaa, että ilman ryhmittäin tehtyä virheanalyysia ja käytön aikaista, riippumatonta tarkastusta emme tiedä, kenelle virheet kohdistuvat – emmekä siksi myöskään, miten oikeudenmukaisesti järjestelmä toimii.

Kun poliisi ja muut viranomaiset pohtivat tekoälyn käyttöönottoa, kysymys kuuluu: pitäisikö lain edellyttää, että järjestelmästä raportoidaan aina virheiden jakautuminen eri ryhmille – ei vain yksi kaunisteltu keskiarvo? Ja vielä tärkeämpi: kuka päättää, mikä on oikea tasapaino aiheeton hälytyksen ja ohiammuttujen osumien välillä silloin, kun kyse on ihmisten arjesta ja luottamuksesta julkiseen valtaan?

Paper: https://arxiv.org/abs/2603.28675v1

Register: https://www.AiFeta.com

tekoäly kasvontunnistus oikeudenmukaisuus poliisi tietosuoja riskit arviot

Korkea tarkkuus voi peittää kasvontunnistuksen epäreiluuden

Kari Jaaskelainen

Read more

Tekoäly ei enää vain ehdota – se myös koettaa

Tekoäly alkaa opetella opettamaan itseään

Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Kaksi tekoälyä voi olla reilumpi kuin yksi