Leikkausvideot osaavat rajata työn vaiheet – kun niitä kuunnellaan myös sanoin

Leikkausvideot osaavat rajata työn vaiheet – kun niitä kuunnellaan myös sanoin

Leikkaussalissa kamerat käyvät yhä useammin koko toimenpiteen ajan. Ihmissilmä näkee videolta vaistonvaraisesti, milloin siirrytään valmistelusta varsinaiseen työvaiheeseen ja siitä sulkemiseen. Tietokoneelle tämä on ollut yllättävän vaikeaa: se on tarvinnut valtavasti käsin nimettyjä esimerkkivideoita oppiakseen, mitä missäkin kohdassa tapahtuu.

Viime vuosina ajatus on ollut, että mitä suurempi ja kalliimpi ennakkoharjoittelu, sitä parempi tulos. Algoritmeja on koulutettu tuhansilla nimetyillä leikkausvideoilla ja jopa koko verkon mittakaavan aineistoilla. Uusi tutkimus väittää kuitenkin, että tämä ei ole ainoa tie – eikä välttämättä edes tarpeellinen.

ArXivissa julkaistu työ esittelee menetelmän, joka jakaa leikkausvideon järkeviin jaksoihin ja tunnistaa niiden sisällön ilman, että sitä on erikseen koulutettu tietyillä leikkauksilla tai syötetty sille verkosta kaavittuja valmiita tietoja. Idea on yksinkertaistettuna tämä: videosta otetaan sekä kuvallinen vihje että automaattisesti tuotettu sanallinen vihje siitä, mitä kuvassa todennäköisesti tapahtuu. Nämä kaksi vihjettä yhdistetään, ja niiden avulla video sovitetaan etenemään loogisessa järjestyksessä vaiheesta toiseen.

Tutkijat kutsuvat lähestymistapaa nimellä TASOT. Taustalla on ajatus “parinmuodostuksesta”: jokaiselle videon kuvajaksolle etsitään paras vastine mahdollisista toimista niin, että koko videon aikajärjestys pysyy järkevänä. Kuvasta saadaan tietoa siitä, miltä asiat näyttävät ruutu ruudulta. Sanallisesta kuvauksesta saadaan puolestaan merkityksiä, joita pelkkä ulkonäkö ei aina paljasta. Näiden painotettu yhdistelmä auttaa päättämään, kuuluuko pätkä esimerkiksi valmisteluun vai instrumentin käyttämiseen. Menetelmä pitää samalla huolen siitä, että se ei “hypi” mielivaltaisesti vaiheiden välillä, vaan etenee ajallisesti yhtenäisesti.

Arjesta löytyy helppo vertaus. Ajatellaan videota, jossa tehdään voileipä: levitetään voi, asetellaan juusto, lisätään kurkku, painetaan leipä kiinni. Ilman etukäteistietoa konetta voi auttaa kahdella vihjeellä. Kuvassa näkyvät kädet, veitsi ja leipä viittaavat tiettyihin tekemisiin. Samalla videosta automaattisesti tuotettu lyhyt teksti “henkilö levittää jotakin leivälle” kertoo, että kyse on levittämisestä, ei esimerkiksi leikkaamisesta. Kun nämä kaksi vihjettä yhdistetään ja muistetaan, että vaiheet yleensä seuraavat toisiaan tietyssä järjestyksessä, kone voi jakaa videon kohtiin, jotka vastaavat ymmärrettäviä vaiheita. TASOT tekee tämän periaatteessa saman kirurgian videoille.

Menetelmä testattiin useissa tunnetuissa kirurgisissa aineistoissa, kuten StrasBypass70-, BernBypass70-, Cholec80- ja AutoLaparo-kokoelmissa. Niissä se paransi tuloksia johdonmukaisesti verrattuna aiempiin menetelmiin, jotka yrittävät toimia ilman esimerkkivideoita: ilmoitetut erot olivat +23,7, +4,5, +16,5 ja +19,6. Tutkijoiden mukaan tämä osoittaa, että hienosyinen leikkausten ymmärtäminen on mahdollista nykyisillä perusesityksillä – ilman yhä monimutkaisempia ja kalliimpia esikoulutusputkia. Koodin luvataan tulevan avoimesti saataville.

Miksi tämä on kiinnostavaa? Siksi, että jos malli pärjää ilman valtavia nimettyjä tietomassoja, sairaalat voivat hyödyntää olemassa olevia videoitaan tehokkaammin. Leikkausvaiheiden automaattinen tunnistus voi auttaa koulutuksessa, laadun seurannassa ja dokumentoinnissa – myös silloin, kun dataa ei ole voitu tai ehditty käsin merkitä. Lisäksi lähestymistapa muistuttaa peruskysymyksestä tekoälyn kehityksessä: onko ratkaisu aina “enemmän dataa ja suurempi malli”, vai voisimmeko käyttää olemassa olevaa tietoa fiksummin?

On silti syytä pitää pää kylmänä. Tutkimusraportti kertoo parannuksista tietyissä vertailuasetelmissa, ei ihmelääkkeestä kaikkiin ympäristöihin. Aineistot ovat kontrolloituja, eivätkä ne kata jokaisen sairaalan todellisuutta: valaistus, laitteet ja työtavat vaihtelevat. Menetelmä nojaa lisäksi tekstivihjeisiin, jotka se tuottaa videosta automaattisesti – jos teksti on epätarkkaa tai harhaista, myös lopputulos kärsii. Raportti korostaa parannuksia aiempiin “esimerkitön” käyttö -menetelmiin verrattuna, mutta ei väitä päihittävänsä kaikkia tarkasti opetettuja malleja. Eikä se kerro, kuinka hyvin lähestymistapa toimii reaaliajassa tai mitä laskentatehoa se vaatii esimerkiksi vanhemmissa sairaalajärjestelmissä.

On myös inhimillinen ulottuvuus. Vaikka kone osaisi jakaa videon uskottaviin vaiheisiin, se ei tee kliinisiä päätöksiä. Ihmisen pitää ymmärtää, mitä malli on tehnyt ja miksi, ja havaita tilanteet, joissa automatiikkaa ei pidä seurata. Tutkimus ei lupaa ohittaa tätä vastuullisuuden kysymystä, mutta tarjoaa työkalun, joka voi tehdä videosta luettavampaa ja niitä tietoja paremmin hyödynnettävää.

Järkevästi ajatellen tämä on pieni mutta merkityksellinen suunnanmuutos. Sen sijaan että vaadimme yhä suurempia tietomassoja, yritämme yhdistää paremmin ne vihjeet, jotka meillä jo on: se, mitä näemme, ja se, mitä siitä voidaan sanoa. Jos se toimii leikkaussalissa, missä muualla sama periaate voisi auttaa? Liikenteessä? Teollisuudessa? Tai kotona, kun yritämme ymmärtää pitkiä videoita, joita emme ehdi katsoa läpi? Kysymys kuuluu: kumpi voittaa pitkällä aikavälillä – massiivinen ennakkoharjoittelu vai oivaltava yhdistäminen?

Paper: https://arxiv.org/abs/2602.24138v1

Register: https://www.AiFeta.com

tekoäly kirurgia tieteenuutiset videoanalyysi

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen