Leikkausvideot osaavat rajata työn vaiheet – kun niitä kuunnellaan myös sanoin

Share
Leikkausvideot osaavat rajata työn vaiheet – kun niitä kuunnellaan myös sanoin

Leikkaussalissa kamerat käyvät yhä useammin koko toimenpiteen ajan. Ihmissilmä näkee videolta vaistonvaraisesti, milloin siirrytään valmistelusta varsinaiseen työvaiheeseen ja siitä sulkemiseen. Tietokoneelle tämä on ollut yllättävän vaikeaa: se on tarvinnut valtavasti käsin nimettyjä esimerkkivideoita oppiakseen, mitä missäkin kohdassa tapahtuu.

Viime vuosina ajatus on ollut, että mitä suurempi ja kalliimpi ennakkoharjoittelu, sitä parempi tulos. Algoritmeja on koulutettu tuhansilla nimetyillä leikkausvideoilla ja jopa koko verkon mittakaavan aineistoilla. Uusi tutkimus väittää kuitenkin, että tämä ei ole ainoa tie – eikä välttämättä edes tarpeellinen.

ArXivissa julkaistu työ esittelee menetelmän, joka jakaa leikkausvideon järkeviin jaksoihin ja tunnistaa niiden sisällön ilman, että sitä on erikseen koulutettu tietyillä leikkauksilla tai syötetty sille verkosta kaavittuja valmiita tietoja. Idea on yksinkertaistettuna tämä: videosta otetaan sekä kuvallinen vihje että automaattisesti tuotettu sanallinen vihje siitä, mitä kuvassa todennäköisesti tapahtuu. Nämä kaksi vihjettä yhdistetään, ja niiden avulla video sovitetaan etenemään loogisessa järjestyksessä vaiheesta toiseen.

Tutkijat kutsuvat lähestymistapaa nimellä TASOT. Taustalla on ajatus “parinmuodostuksesta”: jokaiselle videon kuvajaksolle etsitään paras vastine mahdollisista toimista niin, että koko videon aikajärjestys pysyy järkevänä. Kuvasta saadaan tietoa siitä, miltä asiat näyttävät ruutu ruudulta. Sanallisesta kuvauksesta saadaan puolestaan merkityksiä, joita pelkkä ulkonäkö ei aina paljasta. Näiden painotettu yhdistelmä auttaa päättämään, kuuluuko pätkä esimerkiksi valmisteluun vai instrumentin käyttämiseen. Menetelmä pitää samalla huolen siitä, että se ei “hypi” mielivaltaisesti vaiheiden välillä, vaan etenee ajallisesti yhtenäisesti.

Arjesta löytyy helppo vertaus. Ajatellaan videota, jossa tehdään voileipä: levitetään voi, asetellaan juusto, lisätään kurkku, painetaan leipä kiinni. Ilman etukäteistietoa konetta voi auttaa kahdella vihjeellä. Kuvassa näkyvät kädet, veitsi ja leipä viittaavat tiettyihin tekemisiin. Samalla videosta automaattisesti tuotettu lyhyt teksti “henkilö levittää jotakin leivälle” kertoo, että kyse on levittämisestä, ei esimerkiksi leikkaamisesta. Kun nämä kaksi vihjettä yhdistetään ja muistetaan, että vaiheet yleensä seuraavat toisiaan tietyssä järjestyksessä, kone voi jakaa videon kohtiin, jotka vastaavat ymmärrettäviä vaiheita. TASOT tekee tämän periaatteessa saman kirurgian videoille.

Menetelmä testattiin useissa tunnetuissa kirurgisissa aineistoissa, kuten StrasBypass70-, BernBypass70-, Cholec80- ja AutoLaparo-kokoelmissa. Niissä se paransi tuloksia johdonmukaisesti verrattuna aiempiin menetelmiin, jotka yrittävät toimia ilman esimerkkivideoita: ilmoitetut erot olivat +23,7, +4,5, +16,5 ja +19,6. Tutkijoiden mukaan tämä osoittaa, että hienosyinen leikkausten ymmärtäminen on mahdollista nykyisillä perusesityksillä – ilman yhä monimutkaisempia ja kalliimpia esikoulutusputkia. Koodin luvataan tulevan avoimesti saataville.

Miksi tämä on kiinnostavaa? Siksi, että jos malli pärjää ilman valtavia nimettyjä tietomassoja, sairaalat voivat hyödyntää olemassa olevia videoitaan tehokkaammin. Leikkausvaiheiden automaattinen tunnistus voi auttaa koulutuksessa, laadun seurannassa ja dokumentoinnissa – myös silloin, kun dataa ei ole voitu tai ehditty käsin merkitä. Lisäksi lähestymistapa muistuttaa peruskysymyksestä tekoälyn kehityksessä: onko ratkaisu aina “enemmän dataa ja suurempi malli”, vai voisimmeko käyttää olemassa olevaa tietoa fiksummin?

On silti syytä pitää pää kylmänä. Tutkimusraportti kertoo parannuksista tietyissä vertailuasetelmissa, ei ihmelääkkeestä kaikkiin ympäristöihin. Aineistot ovat kontrolloituja, eivätkä ne kata jokaisen sairaalan todellisuutta: valaistus, laitteet ja työtavat vaihtelevat. Menetelmä nojaa lisäksi tekstivihjeisiin, jotka se tuottaa videosta automaattisesti – jos teksti on epätarkkaa tai harhaista, myös lopputulos kärsii. Raportti korostaa parannuksia aiempiin “esimerkitön” käyttö -menetelmiin verrattuna, mutta ei väitä päihittävänsä kaikkia tarkasti opetettuja malleja. Eikä se kerro, kuinka hyvin lähestymistapa toimii reaaliajassa tai mitä laskentatehoa se vaatii esimerkiksi vanhemmissa sairaalajärjestelmissä.

On myös inhimillinen ulottuvuus. Vaikka kone osaisi jakaa videon uskottaviin vaiheisiin, se ei tee kliinisiä päätöksiä. Ihmisen pitää ymmärtää, mitä malli on tehnyt ja miksi, ja havaita tilanteet, joissa automatiikkaa ei pidä seurata. Tutkimus ei lupaa ohittaa tätä vastuullisuuden kysymystä, mutta tarjoaa työkalun, joka voi tehdä videosta luettavampaa ja niitä tietoja paremmin hyödynnettävää.

Järkevästi ajatellen tämä on pieni mutta merkityksellinen suunnanmuutos. Sen sijaan että vaadimme yhä suurempia tietomassoja, yritämme yhdistää paremmin ne vihjeet, jotka meillä jo on: se, mitä näemme, ja se, mitä siitä voidaan sanoa. Jos se toimii leikkaussalissa, missä muualla sama periaate voisi auttaa? Liikenteessä? Teollisuudessa? Tai kotona, kun yritämme ymmärtää pitkiä videoita, joita emme ehdi katsoa läpi? Kysymys kuuluu: kumpi voittaa pitkällä aikavälillä – massiivinen ennakkoharjoittelu vai oivaltava yhdistäminen?

Paper: https://arxiv.org/abs/2602.24138v1

Register: https://www.AiFeta.com

tekoäly kirurgia tieteenuutiset videoanalyysi

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen