Chatbotti kokoaa sinusta kuvan – etkä pääse sitä tarkistamaan

Share
Chatbotti kokoaa sinusta kuvan – etkä pääse sitä tarkistamaan

Useimmat meistä ovat joskus kokeilleet, mitä netti tietää omasta nimestä. Hakukone näyttää uutisia ja someprofiileja. Mutta mitä tapahtuisi, jos saman kysymyksen esittäisi nykypäivän tekoälylle – sille, joka vastaa rennosti mihin tahansa, kirjoittaa esseitä ja osaa keskustella? Se ei vain kaiva esiin linkkejä. Se saattaa kertoa, millaisiin asioihin sinun nimesi sen mielestä liittyy.

Moni on ajatellut, että tällaiset kielimallit “eivät oikeasti tiedä” meistä mitään: ne vain ennustavat seuraavia sanoja. Tuore arXivissa julkaistu tutkimus kuitenkin ehdottaa toista. Mallit voivat käytännössä muodostaa ihmisistä assosiaatioita – eli kytköksiä nimen ja erilaisten tietokohtien välille – ja tarjota niitä vastauksina. Eivät aina oikein, mutta usein tarpeeksi oikein, jotta sillä on merkitystä.

Tutkijat rakensivat selainpohjaisen työkalun, jolla tavalliset ihmiset voivat testata, mitä tekoäly heidän nimestään ”ajattelee”. Työkalu esittää mallille yhdenmukaisia kysymyksiä 50 eri kohdasta, joilla voidaan kuvata ihmistä. Kahta käyttäjätutkimusta (yhteensä 458 osallistujaa) hyödyntäneessä kokeessa GPT-4o osui oikeaan useammin kuin väärään noin yhdentoista tällaisen kohdan osalta viidestäkymmenestä. Luku ei kuulosta huimalta, mutta tarkoittaa arjessa, että osa mallin väitteistä tavallisesta ihmisestä pitää yllättävän usein paikkansa.

Yksi konkreettinen esimerkki: kun malli saa nimen, se voi vastata kysymyksiin tavalla, joka viittaa tiettyyn taustaan tai elämäntilanteeseen. Julkkiksista vastaukset ovat usein johdonmukaisia eri malleissa – heistä on paljon julkista tietoa. Keksityn nimen kohdalla vastaukset latistuvat yleisiksi oletuksiksi. Tavallisen vapaaehtoisen kohdalla osa väitteistä osuu: ei siksi, että malli ”tietäisi” henkilön, vaan koska se yhdistää nimeen ja siitä irtoaviin vinkkeihin piirteitä, jotka näyttävät pitävän kohtuullisen usein paikkansa.

Osallistujat suhtautuivat tuloksiin kaksijakoisesti. He eivät pitäneet jokaista tekoälyn tuottamaa väitettä yksityisyyden loukkauksena. Silti he halusivat nähdä ja hallita sitä, millaisia assosiaatioita mallilla on heidän nimeensä. Tämän pitäisi olla mahdollista – mutta ei vielä ole.

Jotta omaa “tekoälyjälkeä” voisi tarkistaa, täytyy ensin varmistaa, että mitta on luotettava. Tutkijat yrittivät erottaa, milloin vastaus oikeasti liittyy nimeen ja milloin se on vain mallin oletus kenestä tahansa. He testasivat kahdeksaa eri kielimallia sekä julkisuuden henkilöillä että keksityillä nimillä. Tuloksena näkyi selvä ero: todelliseen nimeen kytkeytyvät vastaukset pysyivät eri malleissa melko samanlaisina, kun taas keksityillä nimillä mallit antoivat geneerisiä oletuksia. Tämä viittaa siihen, että nimeen sidottuja kytköksiä todella on – ainakin joissain rajoissa.

Tutkimus nostaa esiin toisenkin, laajemman ongelman. Kun tekoälyn vastaukset ovat todennäköisyyksiä, vaihtuvat tilanteen mukaan ja riippuvat siitä, miten kysymys esitetään, on yllättävän vaikea päättää, mitä ”mallin tietoon” ylipäätään sisältyy. Käytännön mittarit nojaavat siihen, miten kysymykset muotoillaan ja mitä pidetään osumana. Näitä asetuksia on vaikea validoida ja vertailla. Tutkijat kuvaavatkin yhdeksää kitkakohtaa, jotka hidastavat ihmislähtöisiä yksityisyyskatselmuksia. Niistä keskeisiä ovat ainakin:

  • Tilannesidonnaisuus: vastaus muuttuu, kun kysymystä muotoilee hieman eri tavoin.
  • Epävarmuus: samaan kysymykseen ei saa aina samaa vastausta, vaikka nimi ei muuttuisi.
  • Rajojen määrittely: missä kulkee raja nimen perusteella tehdyn yleistyksen ja todellisen, henkilöön kytkeytyvän tiedon välillä?
  • Mittaamisen vaikeus: millainen osumatarkkuus on merkityksellinen, ja miten se todistetaan?

On syytä korostaa rajoituksia. Kyse on välituloksista käynnissä olevassa tutkimuksessa. Havainnot koskevat osin yhtä mallia (GPT-4o) tietyllä hetkellä. Kriteeri ”osuu useammin kuin ei” on käytännön valinta, ei luonnonlaki. Lisäksi se, että malli vastaa oikein, ei kerro, perustuuko vastaus muistiin, päättelyyn vai sattumaan. Tutkijat yrittävät erottaa näitä tekijöitä julkkis- ja keksittyjen nimien vertailulla, mutta täydellistä varmuutta ei saa. Eikä työkalukaan näe mallin sisään: se kertoo vain, mitä pinnalle nousee, kun kysyy tietyllä tavalla.

Silti johtopäätös on selvä. Tekoälyn väittämät ihmisistä eivät ole pelkkiä lennokkaita arvauksia, jotka haihtuvat ilmaan. Osa niistä pysyy, toistuu ja vaikuttaa siltä, että ne liittyvät nimeen – myös tavallisilla ihmisillä. Jos näin on, kysymys ei ole vain tietovuodoista tai siitä, mitä tietokantaan on tallennettu. Kysymys on siitä, millaista kuvaa meistä rakennetaan ja miten voimme tarkistaa ja korjata sitä.

Tutkijoiden ehdotus on yksinkertainen: ihmisille pitäisi antaa mahdollisuus tehdä itsestään ”tekoälyauditointi” selkeillä kysymyksillä ja ymmärrettävillä mittareilla. Se on helpommin sanottu kuin tehty, mutta suunta on järkevä. Ilman läpinäkyvyyttä tavalliselle käyttäjälle jää vain arvaus, mitä hänen nimestään päätellään.

Seuraava askel kuuluu sekä kehittäjille että sääntelijöille. Jos tekoäly järjestelmällisesti liittää nimiin väitteitä, mitä oikeuksia ihmisillä pitäisi olla niiden näkemiseen ja oikaisemiseen? Ja jos vastaus riippuu aina sanamuodoista ja kontekstista, millä ehdoilla yksityisyys voi olla totta tekoälyn aikakaudella?

Paper: https://arxiv.org/abs/2603.12094v1

Register: https://www.AiFeta.com

tekoäly yksityisyys kielimallit data oikeudet teknologia

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen