Tekoäly osaa neuvoa, mutta ei lohduttaa
Yöllä, kun huoli painaa eikä ketään ole paikalla, moni kokeilee jutella puhelimen tekoälylle. Vastaus on usein kohtelias ja täynnä neuvoja: vältä kofeiinia, hengitä syvään, varaa aika lääkärille. Silti jokin tuntuu ontolta. Tietoa on, mutta ymmärrystä ei.
Vuosia on puhuttu, että jos tekoälyn vastaukset ovat turvallisia ja oikeita, niistä on apua mielenterveyden tukena. Tuore arviointi ehdottaa toista: pelkkä asiallinen neuvominen ei riitä, jos vastaus ei tunnista ihmisen tunnetta. Tutkijat sanovat havaitsevansa selkeän kuilun sen välillä, mitä mallit kertovat, ja sen välillä, miten ne ovat vuorovaikutuksessa – tieto vastaan tunne.
Tätä taustaa vasten joukko tutkijoita arvioi, millaista tukea erilaiset suuret kielimallit antavat mielenterveyskeskusteluissa. He kokosivat 500 keskustelutilannetta aiemmista, tosielämän tilanteita kuvaavista aineistoista ja pyysivät yhdeksää erilaista mallia – sekä avoimia että suljettuja, niiden joukossa esimerkiksi GPT‑4o – tuottamaan vastauksia. Kaksi psykiatrian koulutuksen saanutta asiantuntijaa pisteytti jokaisen vastauksen kuuden osa-alueen mukaan asteikolla yhdestä viiteen.
Arvioinnin kuusi kohtaa jakautui karkeasti kahteen: ”tietopuoleen” ja ”tunnetasoon”. Tietopuoli koski sitä, ovatko vastaukset turvallisia, selkeitä ja kliinisesti sopivia. Tunnetaso taas sitä, tunnistaako vastaus ihmisen olon, validoiko se tunteen ja rakentaaanko inhimillistä yhteyttä. Tutkijat käyttävät termejä kuten kognitiivinen tuki ja tunnevaste, mutta arkisesti kyse on siitä, välittyykö pelkän neuvon lisäksi aito kuunteleminen.
Löytö oli kaksijakoinen. Kielimallit suoriutuivat vahvasti tiedon kanssa: ne tuottivat johdonmukaista, turvallista ja hoitolinjojen mukaista sisältöä. Samalla niiden tunneherkkyys horjui. Vastausten sävy oli usein tasainen ja etäinen, eikä se aina seurannut keskustelijan tunnetta. Suljetut mallit, kuten GPT‑4o, ylsivät keskimäärin tasapainoisempiin vastauksiin. Avoimissa malleissa vaihtelu oli suurempaa, ja niissä korostui tunneilmaisuun liittyvä latteus.
Mitä tämä tarkoittaa käytännössä? Kuvitellaan viesti: ”En saa iltaisin unta ja ahdistaa.” Yksi malli voi vastata: ”Uni- ja ahdistusoireita voi lievittää säännöllisellä unirytmillä, välttämällä kofeiinia iltaisin ja tekemällä rentoutusharjoituksia. Jos oireet jatkuvat, ole yhteydessä terveydenhuoltoon.” Tiedot ovat järkeviä ja turvallisia. Toinen malli aloittaa toisin: ”Kuulostaa raskaalta. Ahdistava ilta on pitkä, kun uni ei tule. Voimme käydä läpi keinoja, joista osa helpottaa heti tänään. Jos tilanne pitkittyy tai pahenee, apua kannattaa hakea.” Molemmat sanovat lähes saman, mutta jälkimmäinen tunnistaa ensin ihmisen tunteen ja asettaa neuvot vasta sen jälkeen. Arvioinnin mukaan juuri tämä järjestys ja sävy ovat monelle tärkeitä – eikä kone hallitse sitä vielä vakaasti.
Taustalla on laajempi lupaus ja paine. Mielenterveyden kriisi on globaali, ja ammattilaisista on pulaa. Tekoälyltä toivotaan skaalautuvaa, nopeasti saatavaa tukea. Tuore arviointi tuo toivoon varovaisen tarkennuksen: jos tuki perustuu pelkkään tietoon, se voi jäädä vajaaksi. Ihminen hakee myös tunnetta siitä, että hänet nähdään ja hänen kokemuksensa otetaan vakavasti.
Tutkimus ei kuitenkaan tarjoa valmista tuomioita, vaan mittarin. Se esittää ihmisten arvioihin nojaavan tavan puntaroida vastauksia sekä tiedon että vuorovaikutuksen näkökulmasta. Tekijät huomauttavat, että tulevat arviot pitäisi tehdä ”virheitä ennakoivasti” ja terveydenhuollon todellisuuteen kiinnittyen, ja että ihminen pitää pitää silmukassa – mukana valvomassa ja ohjaamassa. Tärkeää on asettaa etusijalle suhteellinen herkkyys yhtä lailla kuin tiedon oikeellisuus.
Rajoituksiakin on. Aineisto koostui valmiista keskustelutilanteista ja mallien tuottamista vastauksista, ei elävistä hoitotilanteista. Pisteytyksen teki kaksi asiantuntijaa, mikä on huolellista mutta ei poista tulkinnanvaraa. Kuusi kohtaa ja viisiportainen asteikko ovat järkeviä, mutta mikä tahansa mittari on yksinkertaistus. Tulokset koskevat testattuja tilanteita ja tutkittuja malleja sillä hetkellä; kielimallit päivittyvät nopeasti, ja pienetkin säädöt voivat muuttaa vastauksia. Arviointi ei myöskään kerro, paraneeko kenenkään vointi – siihen tarvitaan erillisiä, pitkittäisiä tutkimuksia.
Silti johtopäätös on arjessa tuntuvan selvä: jos tekoälyä halutaan käyttää mielenterveyden tukena, meidän on mitattava muutakin kuin faktat. Käyttöönotto kunnissa, työterveyshuollossa tai oppilaitoksissa edellyttää varmistusta siitä, että palvelu ei pelkästään kerro mitä tehdä, vaan myös kohtaa ihmisen. Se voi tarkoittaa koulutettuja ihmisiä rinnalla, kriittisiä käyttörajoja ja läpinäkyvää valvontaa.
Lopulta kysymys on siitä, millaista roolia haluamme koneille antaa. Riittääkö, että ne jakavat oikeita neuvoja nopeasti, vai pitääkö niiden myös osata olla läsnä? Ja jos edellytämme empaattisuutta, kuka määrittelee, miltä se kuulostaa – ja missä vaiheessa on parempi, että vastaa ihminen?
Paper: https://arxiv.org/abs/2601.18630v1
Register: https://www.AiFeta.com
tekoäly mielenterveys arviointi LLM empatia terveydenhuolto