tekoäly

Videomalli opettaa robotin toimimaan: yksi lisäharjoitus riittää monimutkaisiin tehtäviin

Kari Jaaskelainen

23 Jan 2026 — 2 min read

Valmiiksi opetetun videomallin hienosäätö näyttää riittävän ohjaamaan robotteja ja suunnittelemaan eteenpäin – vähemmällä rakentelulla kuin ennen ajateltiin.

Keittiössä seisova robottikäsivarsi on yllättävän hyvä vastustaja. Kun se tarttuu tiskirättiin ja kiertää hanan, liikesarja näyttää sujuvan kuin etukäteen harjoiteltu tanssi. Silti joku – tai jokin – ohjaa jokaista pientä liikettä ja ennakoi, mitä tapahtuu seuraavaksi.

Robotiikassa on pitkään ajateltu, että tällainen sujuvuus vaatii monimutkaisen erikoisratkaisun: tunnistuksen, ohjauksen ja suunnittelun omat palikkansa sekä useita vaiheita koulutusta. Nyt tuore tutkimus esittää toisenlaisen tee-se-yhdestä -ajatuksen. Sen mukaan riittää, että otetaan valmiiksi opetettu videomalli – malli, joka on oppinut ennustamaan, mitä seuraavaksi tapahtuu videossa – ja hienosäädetään sitä yhdellä lisävaiheella suoraan halutun robotin omilla esimerkeillä.

Tuloksena on Cosmos Policy -niminen lähestymistapa. Sen ydin on arkinen: jos malli osaa kuvitella todenmukaisesti, mitä tapahtuu kuvissa, se voi myös kuvitella omat liikkeensä niiden rinnalle. Tutkimuksessa robottien toiminta kirjoitetaan ikään kuin näkymättöminä videoruutuina mallin sisälle. Malli oppii siten sekä näkemään tulevia tilannekuvia että tuottamaan niihin kuuluvat liikkeet – ja vielä arvioimaan, kuinka todennäköisesti jokin toimintasarja johtaa onnistumiseen.

Tämä asettaa aiemman oletuksen kyseenalaiseksi. Aiemmin videomalleja on kyllä valjastettu robottien avuksi, mutta usein monessa portaassa: on lisätty uusia osia, rakennettu erillinen toimintakoneisto ja vielä toinen suunnittelija sen päälle. Cosmos Policy ehdottaa yksinkertaisempaa: sama malli, ilman rakennemuutoksia, oppii yhdellä jälkivaiheen koulutuksella sekä toimimaan että suunnittelemaan.

Miltä tämä näyttää käytännössä? Kuvitellaan kaappi, jossa on jäykkä laatikko. Robotti näkee ovenkahvan ja kuvitellun jatkon: käsi kurkottaa, ote tarttuu, laatikko liukuu ulos. Samanaikaisesti malli tuottaa omat ”hiljaiset kehykset” – komennot moottoreille. Ennen kuin robotti tekee mitään, malli pyöräyttää mielessään muutamia vaihtoehtoisia lyhyitä tulevaisuuksia ja antaa niille arvosanat: missä laatikko todella aukeaa? Sitten robotti valitsee arvioltaan lupaavimman polun. Matematiikka jää kulissien taakse, idea on ymmärrettävä: kuvittele, pisteytä, toteuta.

Väite ei jää pelkän ajatuksen tasolle. Tutkimuksessa lähestymistapaa testattiin kahdessa vakiintuneessa simulaatiomittaristossa. LIBERO-ympäristössä keskimääräinen onnistuminen nousi 98,5 prosenttiin ja RoboCasa-ympäristössä 67,1 prosenttiin, molemmissa tutkimuksen mukaan alan tämänhetkistä kärkeä. Lisäksi järjestelmä sai korkeimman keskimääräisen pistemäärän vaativissa oikean maailman kahden käsivarren tehtävissä. Vertailussa olivat mukana muun muassa vahvat diffuusiomallit, jotka opetettiin nollasta alkaen, toiset videomalleihin perustuvat ohjaimet sekä huippuluokan näkö–kieli–toiminta-mallit, jotka hienosäädettiin samoilla robottien esimerkeillä.

Olennaista on myös, mitä ei tarvittu. Mallin rakennetta ei muutettu. Ohjain, maailman ennustaja ja suunnittelija eivät ole erillisiä komponentteja, vaan sama videomalli tekee kaiken, kun se on hienosäädetty robotin omalla esine- ja liikeaineistolla. Toisin sanoen malliin ei rakennettu uusia rattaita; sille näytettiin, miten tällä nimenomaisella laitteella toimitaan.

Tutkimus ei kuitenkaan väitä ratkaisseensa robotiikan yleisongelmaa. Rajat ovat selviä. Esimerkkiaineisto kerättiin nimenomaan siltä alustalta, jolla robotti toimii – järjestelmä siis oppii hyvin siitä, mitä se on nähnyt. Arvioidut tulokset koskevat tiettyjä simulaatioita ja valikoituja tosimaailman tehtäviä. ”Alan kärkeä” on aina suhteessa siihen, keihin verrataan ja millaisin mittarein. Ja vaikka malli osaa kuvitella tulevaa, se ei tarkoita erehtymättömyyttä: parhaatkin tulokset sisältävät epäonnistumisia, ja ympäristön vaihdellessa uudet yllätykset ovat mahdollisia.

Kiinnostavaa on se, mitä tapahtuu seuraavaksi. Kun robotti saa kerätä kokemusta omista suorituksistaan, tutkimuksen mukaan sama järjestelmä voi parantaa sisäistä ”maailmankuvaansa” ja arviointiaan ja käyttää suunnittelua tehdäkseen entistä parempia valintoja. Toisin sanoen järjestelmä ei vain toimi, vaan myös oppii toimimalla – ja hyödyntää oppimaansa seuraavassa suunnittelukierroksessa.

Tämä yhdistää kaksi tekoälyn suuntaa, jotka ovat pitkään kulkeneet rinnakkain: generatiivisen mallinnuksen (kyvyn luoda ja ennustaa) ja päätöksenteon (kyvyn toimia). Kun videomallin ennakoinnista tehdään suoraan toiminnan perusta, väliin ei tarvita yhtä paljon erikoistaitoisia muuntimia. Jos ajatus kantaa laajemmalle, robottien kehittäminen voi yksinkertaistua: vähemmän räätälöintiä, enemmän uudelleenkäytettäviä perusmalleja.

Samalla suuri kysymys pysyy: kuinka pitkälle tällainen ”kuvittele ja toimi” -malli yltää, kun tehtävät monimutkaistuvat ja ympäristö vaihtuu? Tutkimuksen koodi, mallit ja aineistot on julkaistu, joten vastausta voidaan nyt etsiä avoimesti. Ehkä tulevaisuuden keittiössä ei enää opeteta robottia jokaisen ovenkahvan saloihin erikseen, vaan riittää, että se katsoo, kokeilee ja suunnittelee – kuin kuka tahansa oppiva ihminen.

Paper: https://arxiv.org/abs/2601.16163v1

Register: https://www.AiFeta.com

tekoäly robotiikka tutkimus koneoppiminen video

Videomalli opettaa robotin toimimaan: yksi lisäharjoitus riittää monimutkaisiin tehtäviin

Kari Jaaskelainen

Valmiiksi opetetun videomallin hienosäätö näyttää riittävän ohjaamaan robotteja ja suunnittelemaan eteenpäin – vähemmällä rakentelulla kuin ennen ajateltiin.

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen