Videomalli opettaa robotin toimimaan: yksi lisäharjoitus riittää monimutkaisiin tehtäviin

Share
Videomalli opettaa robotin toimimaan: yksi lisäharjoitus riittää monimutkaisiin tehtäviin

Valmiiksi opetetun videomallin hienosäätö näyttää riittävän ohjaamaan robotteja ja suunnittelemaan eteenpäin – vähemmällä rakentelulla kuin ennen ajateltiin.

Keittiössä seisova robottikäsivarsi on yllättävän hyvä vastustaja. Kun se tarttuu tiskirättiin ja kiertää hanan, liikesarja näyttää sujuvan kuin etukäteen harjoiteltu tanssi. Silti joku – tai jokin – ohjaa jokaista pientä liikettä ja ennakoi, mitä tapahtuu seuraavaksi.

Robotiikassa on pitkään ajateltu, että tällainen sujuvuus vaatii monimutkaisen erikoisratkaisun: tunnistuksen, ohjauksen ja suunnittelun omat palikkansa sekä useita vaiheita koulutusta. Nyt tuore tutkimus esittää toisenlaisen tee-se-yhdestä -ajatuksen. Sen mukaan riittää, että otetaan valmiiksi opetettu videomalli – malli, joka on oppinut ennustamaan, mitä seuraavaksi tapahtuu videossa – ja hienosäädetään sitä yhdellä lisävaiheella suoraan halutun robotin omilla esimerkeillä.

Tuloksena on Cosmos Policy -niminen lähestymistapa. Sen ydin on arkinen: jos malli osaa kuvitella todenmukaisesti, mitä tapahtuu kuvissa, se voi myös kuvitella omat liikkeensä niiden rinnalle. Tutkimuksessa robottien toiminta kirjoitetaan ikään kuin näkymättöminä videoruutuina mallin sisälle. Malli oppii siten sekä näkemään tulevia tilannekuvia että tuottamaan niihin kuuluvat liikkeet – ja vielä arvioimaan, kuinka todennäköisesti jokin toimintasarja johtaa onnistumiseen.

Tämä asettaa aiemman oletuksen kyseenalaiseksi. Aiemmin videomalleja on kyllä valjastettu robottien avuksi, mutta usein monessa portaassa: on lisätty uusia osia, rakennettu erillinen toimintakoneisto ja vielä toinen suunnittelija sen päälle. Cosmos Policy ehdottaa yksinkertaisempaa: sama malli, ilman rakennemuutoksia, oppii yhdellä jälkivaiheen koulutuksella sekä toimimaan että suunnittelemaan.

Miltä tämä näyttää käytännössä? Kuvitellaan kaappi, jossa on jäykkä laatikko. Robotti näkee ovenkahvan ja kuvitellun jatkon: käsi kurkottaa, ote tarttuu, laatikko liukuu ulos. Samanaikaisesti malli tuottaa omat ”hiljaiset kehykset” – komennot moottoreille. Ennen kuin robotti tekee mitään, malli pyöräyttää mielessään muutamia vaihtoehtoisia lyhyitä tulevaisuuksia ja antaa niille arvosanat: missä laatikko todella aukeaa? Sitten robotti valitsee arvioltaan lupaavimman polun. Matematiikka jää kulissien taakse, idea on ymmärrettävä: kuvittele, pisteytä, toteuta.

Väite ei jää pelkän ajatuksen tasolle. Tutkimuksessa lähestymistapaa testattiin kahdessa vakiintuneessa simulaatiomittaristossa. LIBERO-ympäristössä keskimääräinen onnistuminen nousi 98,5 prosenttiin ja RoboCasa-ympäristössä 67,1 prosenttiin, molemmissa tutkimuksen mukaan alan tämänhetkistä kärkeä. Lisäksi järjestelmä sai korkeimman keskimääräisen pistemäärän vaativissa oikean maailman kahden käsivarren tehtävissä. Vertailussa olivat mukana muun muassa vahvat diffuusiomallit, jotka opetettiin nollasta alkaen, toiset videomalleihin perustuvat ohjaimet sekä huippuluokan näkö–kieli–toiminta-mallit, jotka hienosäädettiin samoilla robottien esimerkeillä.

Olennaista on myös, mitä ei tarvittu. Mallin rakennetta ei muutettu. Ohjain, maailman ennustaja ja suunnittelija eivät ole erillisiä komponentteja, vaan sama videomalli tekee kaiken, kun se on hienosäädetty robotin omalla esine- ja liikeaineistolla. Toisin sanoen malliin ei rakennettu uusia rattaita; sille näytettiin, miten tällä nimenomaisella laitteella toimitaan.

Tutkimus ei kuitenkaan väitä ratkaisseensa robotiikan yleisongelmaa. Rajat ovat selviä. Esimerkkiaineisto kerättiin nimenomaan siltä alustalta, jolla robotti toimii – järjestelmä siis oppii hyvin siitä, mitä se on nähnyt. Arvioidut tulokset koskevat tiettyjä simulaatioita ja valikoituja tosimaailman tehtäviä. ”Alan kärkeä” on aina suhteessa siihen, keihin verrataan ja millaisin mittarein. Ja vaikka malli osaa kuvitella tulevaa, se ei tarkoita erehtymättömyyttä: parhaatkin tulokset sisältävät epäonnistumisia, ja ympäristön vaihdellessa uudet yllätykset ovat mahdollisia.

Kiinnostavaa on se, mitä tapahtuu seuraavaksi. Kun robotti saa kerätä kokemusta omista suorituksistaan, tutkimuksen mukaan sama järjestelmä voi parantaa sisäistä ”maailmankuvaansa” ja arviointiaan ja käyttää suunnittelua tehdäkseen entistä parempia valintoja. Toisin sanoen järjestelmä ei vain toimi, vaan myös oppii toimimalla – ja hyödyntää oppimaansa seuraavassa suunnittelukierroksessa.

Tämä yhdistää kaksi tekoälyn suuntaa, jotka ovat pitkään kulkeneet rinnakkain: generatiivisen mallinnuksen (kyvyn luoda ja ennustaa) ja päätöksenteon (kyvyn toimia). Kun videomallin ennakoinnista tehdään suoraan toiminnan perusta, väliin ei tarvita yhtä paljon erikoistaitoisia muuntimia. Jos ajatus kantaa laajemmalle, robottien kehittäminen voi yksinkertaistua: vähemmän räätälöintiä, enemmän uudelleenkäytettäviä perusmalleja.

Samalla suuri kysymys pysyy: kuinka pitkälle tällainen ”kuvittele ja toimi” -malli yltää, kun tehtävät monimutkaistuvat ja ympäristö vaihtuu? Tutkimuksen koodi, mallit ja aineistot on julkaistu, joten vastausta voidaan nyt etsiä avoimesti. Ehkä tulevaisuuden keittiössä ei enää opeteta robottia jokaisen ovenkahvan saloihin erikseen, vaan riittää, että se katsoo, kokeilee ja suunnittelee – kuin kuka tahansa oppiva ihminen.

Paper: https://arxiv.org/abs/2601.16163v1

Register: https://www.AiFeta.com

tekoäly robotiikka tutkimus koneoppiminen video

Read more

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Tekoälyapuria ei kannata valita pelkän esittelytekstin perusteella

Uusi vertailu osoittaa, että sanat ja teot eivät kulje käsi kädessä: oikeat koesuoritukset parantavat hakutuloksia, kun etsitään sopivaa tekoälyapuria tuhansien joukosta. Olet etsimässä verkosta apuria, joka hoitaisi puolestasi arjen askareita: täyttäisi lomakkeen, järjestäisi matkasuunnitelman tai seulisi pitkän asiakirjakasan ydinkohdat. Vastassa on valikoima, joka muistuttaa sovelluskauppaa steroideilla. Jokainen ”tekoälyagentti” lupaa paljon

By Kari Jaaskelainen
Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Hakutulosten kannattaa olla hyödyllisiä, ei vain samankaltaisia

Kielimallien taustahaku paranee, kun osumat valitaan sen mukaan, auttavatko ne vastausta — ja se voi olla yli satakertaisesti nopeampaa kuin nykyinen tapa. Kuvittele, että kysyt työpaikan chat-robotilta: “Mitä viime kuun kokouspäiväkirjassa päätettiin etätyöpäivistä?” Robotti selaa arkistoja ja poimii sinulle pätkän, jossa toistellaan, mitä etätyö tarkoittaa. Teksti on aiheeltaan lähellä kysymystä,

By Kari Jaaskelainen
Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Yksi malli voi pian puhua, soittaa ja kolista – pelkillä tekstiohjeilla

Kun tekee kotivideota, ääni on usein suurin vaiva. Juonto syntyy yhdellä sovelluksella, taustamusiikki toisella ja ukkosen jyrinä kolmannella. Jokainen työkalu ymmärtää erilaisia komentoja, eikä mikään niistä oikein “puhu” toistensa kanssa. Lopputulos on pienen palapelityön tulos. Vuosia on ajateltu, että näin tämän kuuluukin mennä. Puhe on sanoja ja lauseita – hyvin jäsenneltyä.

By Kari Jaaskelainen
Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Tekoälyn kanssa pärjäämme paremmin sopimalla kuin komentamalla

Puhelimesi suosittelee seuraavaa kappaletta, karttasovellus ehdottaa nopeinta reittiä, tekstinkorjaus päättää puolestasi, mitä olit ehkä sanomassa. Harva näistä järjestelmistä tottelee sinua sokeasti. Useammin huomaat itse muokkaavasi tapojasi niiden mukaan – ja ne puolestaan mukautuvat sinuun. Arkinen kokemus paljastaa: emme enää elä maailmassa, jossa kone on vain hiljainen renki. Silti puhe tekoälystä palaa

By Kari Jaaskelainen