Korkea tarkkuus voi peittää kasvontunnistuksen epäreiluuden

Korkea tarkkuus voi peittää kasvontunnistuksen epäreiluuden

Valvontakamera sirittää ja poliisin puhelin värähtää: järjestelmä väittää tunnistaneensa etsityn henkilön jonottamassa kioskin kassalle. Partio kääntyy paikalle, mutta kyse on väärästä hälytyksestä. Toisaalla sama kamera antaa mennä ohi ihmisen, jota todella etsitään. Arjessa näitä kahta virhettä – aiheetonta epäilyä ja ohiammuttua osumaa – ei koeta samanlaisina. Silti ne voivat piiloutua saman näyttävän luvun taakse: ”järjestelmän tarkkuus on 95 prosenttia”.

Vuosia kasvontunnistusta ja muita tekoälysovelluksia on myyty ja arvioitu yhdellä keskimääräisellä onnistumisluvulla. Ajatus on houkutteleva: mitä korkeampi prosentti, sitä parempi. Tuore arXiv-artikkeli väittää, että tällainen yhden luvun tuijottaminen on vaarallisen harhaanjohtavaa etenkin silloin, kun päätösten seuraukset ovat vakavat – kuten poliisin työssä ja turvallisuudessa. Korkea kokonaisluku voi nimittäin kätkeä alleen sen, kenelle virheet kasautuvat.

Artikkelin ydin on arkijärjellä ymmärrettävä. Kun järjestelmä tekee virheen, se voi tehdä sen kahdella tavalla: se voi ”osoittaa” väärää henkilöä (väärä hälytys), tai jättää oikean henkilön tunnistamatta (ohiammuttu osuma). Lisäksi virheitä voi sattua eri väestöryhmille eri tahtiin. Jos katsomme vain yhtä keskiarvoa, emme näe, kenen laitteet piippaavat turhaan ja ketkä kävelevät aina tarkastuspisteen läpi kuin näkymättöminä.

Artikkeli osoittaa, että tällainen epätasaisuus ei ole teoriaa. Tutkimuksessa tarkastellaan virheiden jakautumista ryhmittäin ja huomautetaan, että saman oloiset kokonaisluvut voivat syntyä hyvin erilaisista todellisuuksista. Kaksi järjestelmää voi näyttää paperilla yhtä hyvältä, vaikka ensimmäinen tekee useimmat virheensä yhtenä tyyppisenä ja tietylle ryhmälle, ja toinen aivan toisenlaisina ja toiseen suuntaan. Yhden keskiarvon taakse voi siis piiloutua olennaista tietoa siitä, kuka joutuu useammin aiheetta epäillyksi ja ketkä jäävät järjestelmän katveeseen.

Konkreettinen esimerkki auttaa. Kuvitellaan kaksi jatkuvassa valvontakäytössä olevaa kasvontunnistusjärjestelmää. Molemmat ”onnistuvat” suurin piirtein yhtä usein, ja niiden esitysmateriaaleissa komeilee sama korkea prosenttiluku. Ensimmäinen järjestelmä kuitenkin hälyttää useammin turhaan tietyistä ryhmistä – käytännössä tämä tarkoittaa ylimääräisiä pysäytyksiä ja selittelyjä heille, joilla ei ole mitään tekemistä rikosepäilyn kanssa. Toinen puolestaan jättää tunnistamatta joitakin toisia ryhmiä muita useammin – seurauksena on, että etsintäkuulutettu voi helpommin livahtaa ohi. Molempien tilanne on ”95 prosenttia”, mutta arki ja riskit ovat täysin erilaisia.

Tämä ero ei ole pelkkää teknistä hiustenhalkomista. Poliisin ja turvallisuuden kaltaisissa korkean panoksen ympäristöissä väärä hälytys voi leimata viattoman ihmisen ja kasvattaa epäluottamusta. Ohiammuttu osuma taas voi tarkoittaa, että vaarallinen tilanne jää havaitsematta. Artikkelin viesti on, että jos arvioimme järjestelmää vain yhdellä aggregoidulla tarkkuudella, emme kykene punnitsemaan näitä eri virheitä emmekä niiden jakautumista ihmisryhmien kesken. Tällainen arviointitapa lisää operatiivista riskiä – virheitä tehdään väärissä paikoissa ja väärien ihmisten kohdalla.

Mitä tilalle? Kirjoittaja ehdottaa, että arvioinnissa pitäisi katsoa virheitä ryhmittäin eikä tyytyä yhteen keskiarvoon. Käytännössä tämä tarkoittaa sitä, että raportoidaan ja tarkastellaan erikseen, kuinka usein järjestelmä hälyttää syyttä ja kuinka usein se antaa oikean kohteen mennä ohi – ja tehdään tämä erikseen eri väestöryhmille. Lisäksi artikkeli korostaa, että arvioinnin ei pidä päättyä laboratorioon tai lanseeraukseen: kentällä käytössä olevia järjestelmiä pitää voida tarkastaa jälkikäteen riippumatta siitä, miten ne on toteutettu. Ulkopuolinen, toteutuksesta riippumaton tarkastaminen auttaa havaitsemaan todellisen käytön aikaiset vinoumat, joita kehitysvaiheessa ei nähty.

On syytä huomata myös rajoitukset. Artikkeli ei tarjoa yhtä taikalukua tai valmista kaavaa, joka kertoisi, milloin järjestelmä on ”riittävän reilu”. Se ei myöskään väitä, että kaikkia eroja voitaisiin poistaa. Sen johtopäätös on vaatimattomampi mutta tärkeä: kokonais­tarkkuus on liian karkea mitta, ja vastuu on laajentaa arviointia niin, että se näyttää virheiden laadun ja kohdentumisen. Se on ehto sille, että voimme ylipäätään keskustella siitä, onko järjestelmä käyttökelpoinen ja hyväksyttävä.

Artikkelin empiiriset havainnot vahvistavat sen, mistä käytännön kokemus on jo monin paikoin vihjannut: sama näyttävä numero voi peittää alleen olennaisia eroja järjestelmien välillä. Tämä ei tee prosenttiluvuista hyödyttömiä. Se vain muistuttaa, että ilman ryhmittäin tehtyä virheanalyysia ja käytön aikaista, riippumatonta tarkastusta emme tiedä, kenelle virheet kohdistuvat – emmekä siksi myöskään, miten oikeudenmukaisesti järjestelmä toimii.

Kun poliisi ja muut viranomaiset pohtivat tekoälyn käyttöönottoa, kysymys kuuluu: pitäisikö lain edellyttää, että järjestelmästä raportoidaan aina virheiden jakautuminen eri ryhmille – ei vain yksi kaunisteltu keskiarvo? Ja vielä tärkeämpi: kuka päättää, mikä on oikea tasapaino aiheeton hälytyksen ja ohiammuttujen osumien välillä silloin, kun kyse on ihmisten arjesta ja luottamuksesta julkiseen valtaan?

Paper: https://arxiv.org/abs/2603.28675v1

Register: https://www.AiFeta.com

tekoäly kasvontunnistus oikeudenmukaisuus poliisi tietosuoja riskit arviot

Read more

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Olet etsimässä uutta takkia verkosta. Kirjoitat hakukenttään “villakangastakki”. Ensimmäiset osumat ovat järkeviä, mutta sinä mietit: haluaisin nimenomaan tummanharmaan, polvipituisen ja arkikäyttöön sopivan. Yhtäkkiä “samanlainen takki” tarkoittaakin eri asiaa kuin hetkeä aiemmin. Silti useimmat kuvahaun ja verkkokaupan järjestelmät vertaavat kuvia toisiinsa yhden ja saman, kiveen hakatun mittarin mukaan. Perinteinen oletus on

By Kari Jaaskelainen
Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Kun tekoälyn tekemät kuvat yleistyvät, pelkkä arvaus alkuperästä ei riitä. Tuoreet kokeet osoittavat, että yksinkertainen, huomaamaton vesileima voi kertoa sekä onko kuva koneella tehty että kuka sen teki. Sosiaalisen median virrassa kuva näyttää aina kuvalta: naurava hääseurue, tulviva katu, presidentti kättelemässä. Silti yhä useammin kysymys kuuluu, mistä kuva on peräisin

By Kari Jaaskelainen
Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Moni tunnistaa tilanteen terveyskeskuksessa tai videopuhelussa: kysymykseen ”mitä kuuluu?” on helpompi vastata ”ihan ok” kuin kertoa oikeasti, miltä tuntuu. Häpeä, kiire ja se, että oireet ovat lopulta vain omia kokemuksia, vaikeuttavat masennuksen huomaamista – sekä potilaalta että ammattilaiselta. Yleinen ajatus on ollut, että jos tekoäly oppisi poimimaan masennuksen merkkejä puheesta, tekstistä

By Kari Jaaskelainen
Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja

Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja

Koneet voivat oppia löytämään piilokuvioita, vinkata todistusten välivaiheita ja jopa keksiä yksittäisiä tapauksia, jotka kumoavat rohkeita väitteitä – ja se voi muuttaa tapaa, jolla uutta matematiikkaa syntyy. Arjessa riittää usein, että jokin toimii melkein aina. Matematiikassa yksi poikkeus riittää kaatamaan koko säännön. Jos väität, että jokaisessa bussissa on aina vapaa paikka,

By Kari Jaaskelainen