tekoäly

Tekoäly ymmärtää videoita paremmin, kun kuvat pilkotaan “sanoiksi” usealla tarkkuudella

Kari Jaaskelainen

23 Jan 2026 — 3 min read

Oletko koskaan yrittänyt kelata pitkää videota löytääksesi juuri sen kohdan, jossa kokki lisää valkosipulin pannulle? Tai pyytänyt tekoälyä tekemään lyhyen klipin, jossa punainen pallo vierii portaita alas – ja saanut lopputuloksen, jossa pallo kyllä on punainen, mutta liike on väärä? Tekoälylle video on ollut vaikea kieli: paljon pikseleitä, vähän ymmärrystä.

Vuosia on ajateltu, että ongelma ratkeaa, kun video pakataan pieneksi määräksi ”merkkejä”, joista malli oppii, mitä kuvassa on. Yksi kompakti sanasto, yksi mittakaava. Tuore arXivissa julkaistu tutkimus kuitenkin väittää, että tämä oletus on liian kapea. Sen mukaan tekoäly oppii videoista enemmän, kun se saa ”sanaston” usealla tarkkuudella ja sitoo sen tiiviimmin kieleen.

Ajatus on yksinkertainen, vaikka tekniikka on monimutkainen. Tutkijat rakentavat videoille kerroksittaisen koodauksen: samaa tapahtumaa kuvataan useilla tasoilla, ikään kuin katsoisi sekä koko huonetta että yksittäisen kädenliikkeen. Jokaisella tasolla video pilkotaan pieniksi palasiksi – kuin kirjaimiksi ja tavuiksi – joille annetaan yhteinen sanasto. Tärkeää on, että palikat opetetaan yhteydessä tekstiin. Jos videossa on ”koira hyppää sohvalle”, järjestelmä oppii, mitkä palikat vastaavat koiraa, mitkä sohvaa ja mitkä hyppyä. Näin palikat eivät jää irrallisiksi kuvioiksi, vaan niillä on myös kielellinen merkitys.

Käytännössä menetelmä rakentuu valmiiksi opetetun videopakkaajan varaan. Sen välivaiheista talteen otettuja esityksiä ei jätetä kellumaan omiin kerroksiinsa, vaan ne diskretoidaan eli muutetaan yhteiseen, rajattuun sanastoon useassa kohdassa – matalalla tasolla, keskellä ja korkealla tasolla. Lisäksi näiden palikoiden järjestystä opetetaan niin, että kokonaisuus pysyy järkevänä läpi kerrosten. Tuloksena on tiivis mutta ilmaisukykyinen kuvaus videosta, joka ”puhuu” samaa kieltä tekstin kanssa.

Miksi tämä olisi parempi? Yksi konkreettinen esimerkki: lause ”koira hyppää sohvalle” vaatii sekä hitaasti muuttuvan taustan ymmärtämistä (huone, sohva) että nopeatempoisen liikkeen erottamista (hypyn kaari). Yhden mittakaavan sanasto voi jäädä jommankumman vangiksi – se näkee koiran ja sohvan, mutta tulkitsee hypyn kävelyksi. Kerroksittainen esitys antaa mallille erikseen ”palikat” sekä hitaalle että nopealle muutokselle ja opettaa ne suoraan sanojen kautta. Silloin myös hakeminen muuttuu: järjestelmä voi löytää pitkän videon sisältä juuri sen hetken, kun pallo alkaa vieriä, ei vain kohtaa, jossa pallo näkyy.

Tutkimuksen mittakaava ei rajoitu yhteen temppuun tai yhteen tehtävään. Kirjoittajat raportoivat kymmenen eri vertailun läpi jalostuneita tuloksia: videon jälleenrakennuksessa eli pakatun videon palauttamisessa alkuperäisen kaltaiseksi saavutettiin alan kärkitaso, tekstistä videoon -tuotanto parani johdonmukaisemmaksi, ja ilman erillistä esimerkkiharjoittelua tehtävät, kuten videon osien rajaaminen, tapahtumien ajallinen paikantaminen ja videon ymmärtämisen kokeet, ylsivät uusiin ennätyksiin. Menetelmä toimi lisäksi myös erittäin korkeilla tarkkuuksilla, 4K- ja jopa 8K-videoissa.

On tärkeää huomata, mitä tässä ei väitetä. Menetelmä ei tee videoista helppoja, eikä se ratkaise kaikkia videon ”kielen” pulmia. Se ehdottaa, että ongelmaa kannattaa lähestyä kerroksittain ja kieli mielessä: kuvasta poimitut palikat liitetään suoraan sanoihin ja lauseisiin. Kun tämä yhteys on tiukempi, malli näyttää oppivan siirtämään osaamistaan tehtävästä toiseen, myös sellaisiin, joihin sitä ei erikseen opetettu.

Rajoituksia on useita. Ensinnäkin menetelmä nojaa suuriin, ennakkoon opetettuihin videomalleihin ja ”sanastoihin”, joiden opettaminen vaatii runsaasti dataa ja laskentaa. Vaikka esitys on tiivis, monitasoinen käsittely ja korkeat resoluutiot eivät ole ilmaisia: käytännön sovelluksissa muistia ja suorituskykyä kuluu. Toiseksi kielen ja kuvan tiukka kytkentä tuo mukanaan kielen vinoumat. Jos opastavat tekstit suosivat tiettyjä näkökulmia tai jättävät ilmiöitä huomiotta, myös videon ”sanasto” voi ohjata järjestelmää näkemään maailmaa kapeasti. Kolmanneksi vertailut kertovat, miten hyvin malli pärjää valituissa kokeissa – todellisessa arjessa videoiden laatu, tyyli ja sisältö vaihtelevat, eikä mikään vertailu kata kaikkea.

Silti suunnanmuutos on kiinnostava. Tekoälyssä on viime vuosina opittu, että oikeanlainen ”aakkosto” ratkaisee paljon: kirjainten tasolla kielimallit oppivat sanoja, sanojen tasolla lauseita. Video näyttää tarvitsevan omat aakkosensa – sekä liikkumisen että paikan, sekä yksityiskohdat että kokonaisuuden. Kun nämä aakkoset sidotaan suoraan kieleen, sama esitys voi tukea sekä hakua että tuottamista, sekä koneen omaa ymmärrystä että ihmisen kirjoittamaa ohjetta.

Jos video on verkon tärkein kieli, tällaiset menetelmät voivat muuttaa, miten sitä selataan, tiivistetään ja valvotaan – ja myös miten sitä tuotetaan. Kysymys kuuluu: jos tekoälylle luodaan yhteinen ”sanasto” näkemiselle ja puhumiselle, kuka lopulta päättää, millä sanoilla maailma koodataan?

Paper: https://arxiv.org/abs/2601.16210v1

Register: https://www.AiFeta.com

tekoäly video kieliteknologia tutkimus generatiivinen

Tekoäly ymmärtää videoita paremmin, kun kuvat pilkotaan “sanoiksi” usealla tarkkuudella

Kari Jaaskelainen

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen