Videomalli opettaa robotin toimimaan: yksi lisäharjoitus riittää monimutkaisiin tehtäviin

Videomalli opettaa robotin toimimaan: yksi lisäharjoitus riittää monimutkaisiin tehtäviin

Valmiiksi opetetun videomallin hienosäätö näyttää riittävän ohjaamaan robotteja ja suunnittelemaan eteenpäin – vähemmällä rakentelulla kuin ennen ajateltiin.

Keittiössä seisova robottikäsivarsi on yllättävän hyvä vastustaja. Kun se tarttuu tiskirättiin ja kiertää hanan, liikesarja näyttää sujuvan kuin etukäteen harjoiteltu tanssi. Silti joku – tai jokin – ohjaa jokaista pientä liikettä ja ennakoi, mitä tapahtuu seuraavaksi.

Robotiikassa on pitkään ajateltu, että tällainen sujuvuus vaatii monimutkaisen erikoisratkaisun: tunnistuksen, ohjauksen ja suunnittelun omat palikkansa sekä useita vaiheita koulutusta. Nyt tuore tutkimus esittää toisenlaisen tee-se-yhdestä -ajatuksen. Sen mukaan riittää, että otetaan valmiiksi opetettu videomalli – malli, joka on oppinut ennustamaan, mitä seuraavaksi tapahtuu videossa – ja hienosäädetään sitä yhdellä lisävaiheella suoraan halutun robotin omilla esimerkeillä.

Tuloksena on Cosmos Policy -niminen lähestymistapa. Sen ydin on arkinen: jos malli osaa kuvitella todenmukaisesti, mitä tapahtuu kuvissa, se voi myös kuvitella omat liikkeensä niiden rinnalle. Tutkimuksessa robottien toiminta kirjoitetaan ikään kuin näkymättöminä videoruutuina mallin sisälle. Malli oppii siten sekä näkemään tulevia tilannekuvia että tuottamaan niihin kuuluvat liikkeet – ja vielä arvioimaan, kuinka todennäköisesti jokin toimintasarja johtaa onnistumiseen.

Tämä asettaa aiemman oletuksen kyseenalaiseksi. Aiemmin videomalleja on kyllä valjastettu robottien avuksi, mutta usein monessa portaassa: on lisätty uusia osia, rakennettu erillinen toimintakoneisto ja vielä toinen suunnittelija sen päälle. Cosmos Policy ehdottaa yksinkertaisempaa: sama malli, ilman rakennemuutoksia, oppii yhdellä jälkivaiheen koulutuksella sekä toimimaan että suunnittelemaan.

Miltä tämä näyttää käytännössä? Kuvitellaan kaappi, jossa on jäykkä laatikko. Robotti näkee ovenkahvan ja kuvitellun jatkon: käsi kurkottaa, ote tarttuu, laatikko liukuu ulos. Samanaikaisesti malli tuottaa omat ”hiljaiset kehykset” – komennot moottoreille. Ennen kuin robotti tekee mitään, malli pyöräyttää mielessään muutamia vaihtoehtoisia lyhyitä tulevaisuuksia ja antaa niille arvosanat: missä laatikko todella aukeaa? Sitten robotti valitsee arvioltaan lupaavimman polun. Matematiikka jää kulissien taakse, idea on ymmärrettävä: kuvittele, pisteytä, toteuta.

Väite ei jää pelkän ajatuksen tasolle. Tutkimuksessa lähestymistapaa testattiin kahdessa vakiintuneessa simulaatiomittaristossa. LIBERO-ympäristössä keskimääräinen onnistuminen nousi 98,5 prosenttiin ja RoboCasa-ympäristössä 67,1 prosenttiin, molemmissa tutkimuksen mukaan alan tämänhetkistä kärkeä. Lisäksi järjestelmä sai korkeimman keskimääräisen pistemäärän vaativissa oikean maailman kahden käsivarren tehtävissä. Vertailussa olivat mukana muun muassa vahvat diffuusiomallit, jotka opetettiin nollasta alkaen, toiset videomalleihin perustuvat ohjaimet sekä huippuluokan näkö–kieli–toiminta-mallit, jotka hienosäädettiin samoilla robottien esimerkeillä.

Olennaista on myös, mitä ei tarvittu. Mallin rakennetta ei muutettu. Ohjain, maailman ennustaja ja suunnittelija eivät ole erillisiä komponentteja, vaan sama videomalli tekee kaiken, kun se on hienosäädetty robotin omalla esine- ja liikeaineistolla. Toisin sanoen malliin ei rakennettu uusia rattaita; sille näytettiin, miten tällä nimenomaisella laitteella toimitaan.

Tutkimus ei kuitenkaan väitä ratkaisseensa robotiikan yleisongelmaa. Rajat ovat selviä. Esimerkkiaineisto kerättiin nimenomaan siltä alustalta, jolla robotti toimii – järjestelmä siis oppii hyvin siitä, mitä se on nähnyt. Arvioidut tulokset koskevat tiettyjä simulaatioita ja valikoituja tosimaailman tehtäviä. ”Alan kärkeä” on aina suhteessa siihen, keihin verrataan ja millaisin mittarein. Ja vaikka malli osaa kuvitella tulevaa, se ei tarkoita erehtymättömyyttä: parhaatkin tulokset sisältävät epäonnistumisia, ja ympäristön vaihdellessa uudet yllätykset ovat mahdollisia.

Kiinnostavaa on se, mitä tapahtuu seuraavaksi. Kun robotti saa kerätä kokemusta omista suorituksistaan, tutkimuksen mukaan sama järjestelmä voi parantaa sisäistä ”maailmankuvaansa” ja arviointiaan ja käyttää suunnittelua tehdäkseen entistä parempia valintoja. Toisin sanoen järjestelmä ei vain toimi, vaan myös oppii toimimalla – ja hyödyntää oppimaansa seuraavassa suunnittelukierroksessa.

Tämä yhdistää kaksi tekoälyn suuntaa, jotka ovat pitkään kulkeneet rinnakkain: generatiivisen mallinnuksen (kyvyn luoda ja ennustaa) ja päätöksenteon (kyvyn toimia). Kun videomallin ennakoinnista tehdään suoraan toiminnan perusta, väliin ei tarvita yhtä paljon erikoistaitoisia muuntimia. Jos ajatus kantaa laajemmalle, robottien kehittäminen voi yksinkertaistua: vähemmän räätälöintiä, enemmän uudelleenkäytettäviä perusmalleja.

Samalla suuri kysymys pysyy: kuinka pitkälle tällainen ”kuvittele ja toimi” -malli yltää, kun tehtävät monimutkaistuvat ja ympäristö vaihtuu? Tutkimuksen koodi, mallit ja aineistot on julkaistu, joten vastausta voidaan nyt etsiä avoimesti. Ehkä tulevaisuuden keittiössä ei enää opeteta robottia jokaisen ovenkahvan saloihin erikseen, vaan riittää, että se katsoo, kokeilee ja suunnittelee – kuin kuka tahansa oppiva ihminen.

Paper: https://arxiv.org/abs/2601.16163v1

Register: https://www.AiFeta.com

tekoäly robotiikka tutkimus koneoppiminen video

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen