Tekoäly alkaa oppia ilman opettajaa – ja näkee biolääketieteessä sellaista, mitä emme tienneet etsiä
Sairaalassa on huoneita, joissa kovalevyt ovat täynnä kuvia ja koetuloksia. Magneettikuvia sydämistä, kudosleikkeitä mikroskoopista, riveittäin DNA:n kirjaimia. Yksi asia puuttuu: siistit selitteet, jotka kertoisivat jokaisesta rivistä, mitä se tarkoittaa. Ilman niitä tietokone ei perinteisesti opi.
Vuosia vallitsi ajatus, että tekoäly tarvitsee valmiit vastaukset oppiakseen. Radiologi merkitsee kuviin kasvaimen rajat, geneetikko nimeää sairauden taustalla olevan mutaation – ja vasta sitten kone voi harjoitella. Nyt suunta on hiljalleen kääntymässä. Tuore arXivissa julkaistu katsaus väittää, että biolääketieteen suurin pullonkaula – asiantuntijoiden tekemien merkintöjen loputon tarve – on murtumassa.
Ajatus on yksinkertainen, mutta seuraukset voivat olla suuria: tietokone oppii suoraan datan omasta rakenteesta. Se tarkastelee pikseleitä magneettikuvassa, kolmiulotteisen skannauksen pieniä tilavuuspaloja tai DNA:n kirjainjonoja ja löytää säännönmukaisuuksia ilman, että ihminen kertoo, mikä on oikea vastaus. Tämä on "oppimista ilman vastauksia" – käytäntö, jota tutkijat kutsuvat ohjaamattomaksi ja itseohjautuvaksi oppimiseksi.
Katsauksen mukaan tällainen oppiminen on alkanut tuottaa tuloksia, jotka olivat aiemmin käytännössä saavutettavissa vain valtavalla käsityöllä – tai ei lainkaan. Menetelmillä on löydetty aiemmin huomaamatta jääneitä ominaisuuksia, niin sanottuja uusia fenotyyppejä. On yhdistetty elimien muotoja ja kudosten rakenteita geeneihin. On myös havaittu poikkeavuuksia datassa ilman, että ihmiset ovat ensin määritelleet, mitä "poikkeava" tarkoittaa.
Yksi konkreettinen esimerkki: kuvitellaan pino sydämen magneettikuvia kymmeniltä tuhansilta ihmisiltä. Kukaan ei merkitse valmiiksi, kuka on terve ja kenen sydämen seinämä on paksuuntunut. Sen sijaan malli opettelee itse vertaamaan kuvia toisiinsa: mitkä sydämet supistuvat samankaltaisesti, missä kammion muoto poikkeaa joukosta, miten liike muuttuu iän myötä. Kun tällaisia piirteitä on koottu, niitä voidaan verrata perimätietoon. Katsauksen mukaan näin on löydetty sydämen rakenteen ominaisuuksia, jotka näyttävät periytyvän – siis piirteitä, joihin tietyt geenit todennäköisesti vaikuttavat.
Toinen esimerkki tulee patologiasta. Kudossiivun värjätty kuva näyttää lääkärin silmään solumaisemalta. Itseohjautuva malli voi opetella ennustamaan, missä kuvassa tiettyjä geenejä luetaan vilkkaasti – siis miten solut toimivat tilassa – pelkän kuvan hienovaraisista vihjeistä. Ajatus muistuttaa sitä, että oppii arvaamaan talon asukkaiden elämäntavan pelkän pohjapiirroksen perusteella: missä on keittiö, missä oleskellaan, missä on hiljaista.
Kolmas käyttötapa on poikkeavuuksien etsintä. Kun kone on nähnyt valtavasti normaalia vaihtelua, se alkaa huomata, milloin jokin ei sovi joukkoon – vähän kuin kauppias huomaa hyllyssä tölkin, jonka etiketti on väärin päin. Katsauksen mukaan tällaiset mallit löytävät kuvista ja mittauksista epätavallisia piirteitä ilman, että ne oli etukäteen nimetty. Joissakin tapauksissa suorituskyky on yltänyt tasolle, joka vastaa tai ylittää perinteiset, käsin merkityillä esimerkeillä koulutetut mallit.
Miksi tämä on tärkeää juuri nyt? Siksi, että dataa on enemmän kuin selityksiä. Biopankit keräävät valtavia määriä kuvia, näytteitä ja genomitietoa. Jos jokainen rivi pitäisi selittää käsin, suurin osa jää käyttämättä. Oppiminen ilman vastauksia avaa nämä varannot: malli voi hyödyntää kaiken, ei vain sitä murto-osaa, johon ihmisillä on ollut aikaa lisätä laput. Se myös vähentää riskiä, että ihmisten omat ennakkokäsitykset ohjaavat liikaa sitä, mitä etsitään – vaikka kokonaan niistä ei luonnollisesti päästä eroon.
On kuitenkin syytä olla maltillinen. Kun malli oppii ilman selitteitä, se oppii sen, mitä datassa on – ei välttämättä sitä, mikä on lääketieteellisesti merkityksellistä. Löydetty "uusi piirre" voi olla laitteen asetus, potilaan liike kuvauksen aikana tai jokin muu arjen yksityiskohta. Siksi löydökset pitää varmistaa huolellisilla vertailuilla ja kliinisillä tutkimuksilla.
Toinen rajoitus liittyy yleistettävyyteen. Jos malli on kasvanut yhteen biopankkiin, jossa potilaat ovat tietyn ikäisiä tai tietystä maasta, se ei välttämättä näe samaa toisaalla. "Ilman ihmisen ennakkokäsityksiä" ei siis tarkoita "ilman vinoumia": data itsessään kantaa mukanaan valintoja, sattumaa ja rajauksia.
Lopuksi on kysymys tulkinnasta. Vaikka malli osaisi ryhmitellä sydämet hienosti, joku joutuu päättämään, mitä ryhmittely käytännössä tarkoittaa potilaalle. Onko uusi piirre varhainen varoitussignaali vai vain harmiton luonnon vaihtelu? Kuka sen päättää, ja millä perusteella?
Katsauksen viesti on kuitenkin kirkas: jos haluamme hyödyntää biolääketieteen tietovarannot, meidän on opittava oppimaan ilman valmiita vastauksia. Se ei korvaa lääkärin kokemusta eikä tee käsin annetuista selitteistä tarpeettomia. Mutta se voi ohjata katseen paikkoihin, joihin emme tienneet katsoa – ja siksi kysymys kuuluu: mitä kaikkea tärkeää jää vielä näkemättä, jos pidämme kiinni vain siitä, minkä osaamme nimetä?
Paper: https://arxiv.org/abs/2602.20100v1
Register: https://www.AiFeta.com
tekoäly terveys biolääketiede biopankit koneoppiminen tutkimus