Chatbotti kokoaa sinusta kuvan – etkä pääse sitä tarkistamaan
Useimmat meistä ovat joskus kokeilleet, mitä netti tietää omasta nimestä. Hakukone näyttää uutisia ja someprofiileja. Mutta mitä tapahtuisi, jos saman kysymyksen esittäisi nykypäivän tekoälylle – sille, joka vastaa rennosti mihin tahansa, kirjoittaa esseitä ja osaa keskustella? Se ei vain kaiva esiin linkkejä. Se saattaa kertoa, millaisiin asioihin sinun nimesi sen mielestä liittyy.
Moni on ajatellut, että tällaiset kielimallit “eivät oikeasti tiedä” meistä mitään: ne vain ennustavat seuraavia sanoja. Tuore arXivissa julkaistu tutkimus kuitenkin ehdottaa toista. Mallit voivat käytännössä muodostaa ihmisistä assosiaatioita – eli kytköksiä nimen ja erilaisten tietokohtien välille – ja tarjota niitä vastauksina. Eivät aina oikein, mutta usein tarpeeksi oikein, jotta sillä on merkitystä.
Tutkijat rakensivat selainpohjaisen työkalun, jolla tavalliset ihmiset voivat testata, mitä tekoäly heidän nimestään ”ajattelee”. Työkalu esittää mallille yhdenmukaisia kysymyksiä 50 eri kohdasta, joilla voidaan kuvata ihmistä. Kahta käyttäjätutkimusta (yhteensä 458 osallistujaa) hyödyntäneessä kokeessa GPT-4o osui oikeaan useammin kuin väärään noin yhdentoista tällaisen kohdan osalta viidestäkymmenestä. Luku ei kuulosta huimalta, mutta tarkoittaa arjessa, että osa mallin väitteistä tavallisesta ihmisestä pitää yllättävän usein paikkansa.
Yksi konkreettinen esimerkki: kun malli saa nimen, se voi vastata kysymyksiin tavalla, joka viittaa tiettyyn taustaan tai elämäntilanteeseen. Julkkiksista vastaukset ovat usein johdonmukaisia eri malleissa – heistä on paljon julkista tietoa. Keksityn nimen kohdalla vastaukset latistuvat yleisiksi oletuksiksi. Tavallisen vapaaehtoisen kohdalla osa väitteistä osuu: ei siksi, että malli ”tietäisi” henkilön, vaan koska se yhdistää nimeen ja siitä irtoaviin vinkkeihin piirteitä, jotka näyttävät pitävän kohtuullisen usein paikkansa.
Osallistujat suhtautuivat tuloksiin kaksijakoisesti. He eivät pitäneet jokaista tekoälyn tuottamaa väitettä yksityisyyden loukkauksena. Silti he halusivat nähdä ja hallita sitä, millaisia assosiaatioita mallilla on heidän nimeensä. Tämän pitäisi olla mahdollista – mutta ei vielä ole.
Jotta omaa “tekoälyjälkeä” voisi tarkistaa, täytyy ensin varmistaa, että mitta on luotettava. Tutkijat yrittivät erottaa, milloin vastaus oikeasti liittyy nimeen ja milloin se on vain mallin oletus kenestä tahansa. He testasivat kahdeksaa eri kielimallia sekä julkisuuden henkilöillä että keksityillä nimillä. Tuloksena näkyi selvä ero: todelliseen nimeen kytkeytyvät vastaukset pysyivät eri malleissa melko samanlaisina, kun taas keksityillä nimillä mallit antoivat geneerisiä oletuksia. Tämä viittaa siihen, että nimeen sidottuja kytköksiä todella on – ainakin joissain rajoissa.
Tutkimus nostaa esiin toisenkin, laajemman ongelman. Kun tekoälyn vastaukset ovat todennäköisyyksiä, vaihtuvat tilanteen mukaan ja riippuvat siitä, miten kysymys esitetään, on yllättävän vaikea päättää, mitä ”mallin tietoon” ylipäätään sisältyy. Käytännön mittarit nojaavat siihen, miten kysymykset muotoillaan ja mitä pidetään osumana. Näitä asetuksia on vaikea validoida ja vertailla. Tutkijat kuvaavatkin yhdeksää kitkakohtaa, jotka hidastavat ihmislähtöisiä yksityisyyskatselmuksia. Niistä keskeisiä ovat ainakin:
- Tilannesidonnaisuus: vastaus muuttuu, kun kysymystä muotoilee hieman eri tavoin.
- Epävarmuus: samaan kysymykseen ei saa aina samaa vastausta, vaikka nimi ei muuttuisi.
- Rajojen määrittely: missä kulkee raja nimen perusteella tehdyn yleistyksen ja todellisen, henkilöön kytkeytyvän tiedon välillä?
- Mittaamisen vaikeus: millainen osumatarkkuus on merkityksellinen, ja miten se todistetaan?
On syytä korostaa rajoituksia. Kyse on välituloksista käynnissä olevassa tutkimuksessa. Havainnot koskevat osin yhtä mallia (GPT-4o) tietyllä hetkellä. Kriteeri ”osuu useammin kuin ei” on käytännön valinta, ei luonnonlaki. Lisäksi se, että malli vastaa oikein, ei kerro, perustuuko vastaus muistiin, päättelyyn vai sattumaan. Tutkijat yrittävät erottaa näitä tekijöitä julkkis- ja keksittyjen nimien vertailulla, mutta täydellistä varmuutta ei saa. Eikä työkalukaan näe mallin sisään: se kertoo vain, mitä pinnalle nousee, kun kysyy tietyllä tavalla.
Silti johtopäätös on selvä. Tekoälyn väittämät ihmisistä eivät ole pelkkiä lennokkaita arvauksia, jotka haihtuvat ilmaan. Osa niistä pysyy, toistuu ja vaikuttaa siltä, että ne liittyvät nimeen – myös tavallisilla ihmisillä. Jos näin on, kysymys ei ole vain tietovuodoista tai siitä, mitä tietokantaan on tallennettu. Kysymys on siitä, millaista kuvaa meistä rakennetaan ja miten voimme tarkistaa ja korjata sitä.
Tutkijoiden ehdotus on yksinkertainen: ihmisille pitäisi antaa mahdollisuus tehdä itsestään ”tekoälyauditointi” selkeillä kysymyksillä ja ymmärrettävillä mittareilla. Se on helpommin sanottu kuin tehty, mutta suunta on järkevä. Ilman läpinäkyvyyttä tavalliselle käyttäjälle jää vain arvaus, mitä hänen nimestään päätellään.
Seuraava askel kuuluu sekä kehittäjille että sääntelijöille. Jos tekoäly järjestelmällisesti liittää nimiin väitteitä, mitä oikeuksia ihmisillä pitäisi olla niiden näkemiseen ja oikaisemiseen? Ja jos vastaus riippuu aina sanamuodoista ja kontekstista, millä ehdoilla yksityisyys voi olla totta tekoälyn aikakaudella?
Paper: https://arxiv.org/abs/2603.12094v1
Register: https://www.AiFeta.com
tekoäly yksityisyys kielimallit data oikeudet teknologia