Neutraali pyyntö paljastaa kuvageneraattorin oletusihmisen
Moni on jo tottunut siihen, että tekoäly laatii hetkessä mainoskuvia, julisteita tai somekuvituksia. Kun pyytää palvelua tekemään ”valokuvamaisen kuvan henkilöstä” lisäämättä mitään taustatietoja, odotus on selvä: malli arpoo neutraalin perusratkaisun. Uunituore analyysi osoittaa, että tällainen neutraalius on harhaa.
Arkijärjellä ajatellen merkityksetön pyyntö tuottaisi merkityksettömän tuloksen: ei erityistä ihonsävyä eikä selvää sukupuolioletusta. Tutkimus kahdesta laajasti käytetystä kuvageneraattorista ehdottaa päinvastaista. Kun pyynnössä ei täsmennetä mitään, palvelut valitsevat vahvan oletuslinjan.
Vertailussa olivat kaksi kaupallista mallia: Gemini Flash 2.5 Image ja GPT Image 1.5. Tutkija tuotti yhteensä 3 200 valokuvamaisen näköistä kuvaa neljällä semanttisesti neutraalilla pyynnöllä, siis pyynnöillä, joissa ei mainittu sukupuolta, etnisyyttä tai ihonsävyä. Tuloksia ei arvioitu mutu-tuntumalla, vaan menetelmällä, joka pyrki erottamaan kuvien estetiikan (esimerkiksi lämpimän ”kultaisen hetken” valon) itse ihon pigmenttiä muistuttavasta väristä. Tätä varten kuvia valaistuskorjattiin, kasvoista rajattiin analyysiin vain ihoalueet, ja sävyjä mitattiin tutkimuksessa ja lääketieteessä käytetyillä ihonsävyn asteikoilla.
Löydös on yksiselitteinen: niin sanotusti neutraalit pyynnöt tuottivat erittäin yksipuolisia oletuksia. Molemmat mallit loivat valtaosin vaaleaihoisia hahmoja – yli 96 prosentissa kuvista. Sukupuolessa mallit eriytyivät: Gemini tuotti useammin naiseksi tulkittavia hahmoja, GPT taas useammin mieheksi tulkittavia, ja etenkin vaaleaihoisia miehiä.
Mitä tämä tarkoittaa käytännössä? Kuvitellaan, että samaa neutraalia pyyntöä toistetaan kymmeniä kertoja. Vaikka yksityiskohdat vaihtuvat – hiustyyli, tausta, vaatetus – peruspiirre pysyy: ihonsävy on lähes aina vaalea. Toisessa palvelussa hahmo näyttää enimmäkseen naiselta, toisessa mieheltä. Nämä eivät ole yksittäisiä sattumia, vaan malli valitsee järjestelmällisesti tietyn lähtökohtaisen ”ihmisen”.
Löydös on tärkeä kahdesta syystä. Ensinnäkin täsmällinen pyyntö on arjessa poikkeus, ei sääntö: kiireessä moni jättää tarkenteet pois. Toiseksi tekoälyn tuottamat kuvat päätyvät markkinointiin, oppimateriaaleihin ja uutisgrafiikoihin. Jos oletusarvo on näin vino, myös näkyvä maailma kaventuu.
Tutkimuksen ansio on mittaustavassa. Ihon sävyä ei yritetty päätellä koko kuvan keskimääräisestä ”lämmöstä”, mikä voisi mennä pieleen jo pelkän auringonlaskun takia. Sen sijaan valaistusta korjattiin, ja analyysiin otettiin vain ihoalueita, ei esimerkiksi huulia tai silmiä, jotka voivat hämätä. Näin pyrittiin erottelemaan esteettinen jälkikäsittely todelliselta näyttävästä pigmentistä – tekoälykuvissakin.
Silti kyse on ennen muuta kartoituksesta, ei syiden selittämisestä. Tutkimus ei väitä, miksi mallit valitsevat tällaisen oletuksen. Taustalla voivat olla koulutusdatan vinoumat, tapamme käyttää kieltä tai mallien suunnitteluratkaisut. Tässä työssä näyttö koskee ulostuloja: mitä tapahtuu, kun ei sano erikseen mitään.
Yksi kiinnostava johtopäätös koskee kieltä. Arjessa ajatellaan, että ”merkitsemätön” sana – kuten ”henkilö” – olisi kaikille sopiva ja inklusiivinen. Tutkimuksen mukaan neutraali pyyntö toimii pikemminkin mittatikkuna: se paljastaa järjestelmän omat oletukset. Jos malli luo yli 96-prosenttisesti vaaleaihoisen hahmon, se kertoo oletusrakenteesta enemmän kuin käyttäjän toiveesta.
On reilua pohtia myös rajoituksia. Aineisto koostui neljästä neutraalista pyynnöstä ja kahdesta mallista, joten tulokset eivät kata kaikkia tilanteita tai palveluja. Sukupuolen tarkastelu liittyi esiintymiseen, ei henkilön identiteettiin, ja tällaiseen tulkintaan sisältyy aina epävarmuutta. Vaikka ihonsävyä mitattiin huolellisesti, valaistus- ja tyylivalinnat voivat silti vaikuttaa joihinkin kuviin. Lisäksi kaupalliset mallit päivittyvät, joten luvut voivat muuttua ajan myötä – syy toistomittauksiin, ei syy sivuuttaa havaittua vinoumaa.
Mitä pitäisi tehdä? Yksi mahdollisuus on, että palvelut kertovat avoimesti oletusratkaisunsa ja tarjoavat helpon tavan muuttaa sitä. Toinen on, että oletus muutetaan satunnaistetuksi tai tasapainotetuksi: jos pyyntö on neutraali, tuloksenkin pitäisi jakautua neutraalisti. Kolmas on ottaa neutraalit pyynnöt tietoisesti käyttöön laadunvarmistuksessa: jos malli kallistuu, tiedetään missä.
Lopulta kyse on samasta kysymyksestä, jota valokuvaus on kantanut takavuosien filmien ja valotusmittareiden ajoista saakka: kuka on ”oletusihminen”, kun kukaan ei sano toisin? Kun tekoälyn luomat kuvat leviävät kaikkialle, vastaus ei ole vain tekninen – se on kulttuurinen päätös, joka näkyy kaikille.
Paper: https://arxiv.org/abs/2602.12133v1
Register: https://www.AiFeta.com
tekoäly kuvat vinouma representaatio dataetiikka media