Robotit näkevät paremmin, kun ne uskaltavat koskea

Robotit näkevät paremmin, kun ne uskaltavat koskea

Kun etsimme avaimia sotkuiselta pöydältä, emme jää tuijottamaan. Siirrämme lehtiä, tönäisemme kynäpurkkia ja kurkistamme mukin alle. Uusi robottitutkimus väittää, että koneiden olisi syytä toimia samoin.

Teollisuusrobotit ovat vuosikymmeniä opetelleet katsomaan ja tarttumaan. Niiden silmät – kamerat ja ohjelmistot – ovat yhä taitavampia tunnistamaan esineitä. Silti ne kompastuvat arkiseen ongelmaan: kaikkea ei näe kerralla. Esineet peittävät toisiaan, perspektiivi hämää, ja staattinen kuva valehtelee. Perinteinen ajatus on ollut, että robotti ratkaisee tämän katsomalla paremmin: lisäämällä kameroita, vaihtamalla kuvakulmaa tai jalostamalla kuvankäsittelyä.

Tuore arXivissa julkaistu työ ehdottaa toista polkua. Sen mukaan robotti voi parantaa näköään tekemällä pienen, harkitun liikkeen – tönäisemällä, raapaisemalla, tarttumalla ja siirtämällä – ja katsomalla sitten uudestaan. Tekijät kutsuvat lähestymistapaa nimellä Zero-Shot Interactive Perception, nimen mukaisesti tavoitteenaan ohjata tällaisia toimenpiteitä ilman, että jokaista tilannetta varten pitää erikseen kouluttaa malli.

Ydinajatus on yksinkertainen: jos et näe, muuta näkymää. Uutta on tapa päättää, miten näkymää kannattaa muuttaa. Tutkimuksessa robottia ohjataan kieli–kuvamallin avulla. Se on tekoäly, joka ymmärtää sekä kuvia että tekstiä ja osaa yhdistää ne toisiinsa. Mallille annetaan muistia – käytännössä muistiinpanoja aiemmista havainnoista ja liikkeistä – jotta se osaa perustella seuraavan siirtonsa sen mukaan, mitä on jo kokeiltu.

Lisäksi tutkijat lisäävät kuvaan yksinkertaisia, mutta käytännöllisiä vihjeitä: pisteitä ja viivoja. Pisteet merkitsevät olennaisia kohtia esineissä. Uutuus ovat niin sanotut “työntöviivat”: ne hahmottavat kaksiulotteiselle kuvalle suunnan ja kohdan, josta esinettä kannattaa varovasti tönäistä. Ajatus on sama kuin piirtäisi pöydälle nuolen: tästä kulmasta kevyt työntö siirtää laatikon pois tieltä ilman, että vieressä oleva lasi kaatuu. Tällaiset viivavihjeet on räätälöity juuri kosketusta vaativiin liikkeisiin, eivätkä ne yritä kattaa kaikkea mahdollista tarttumista tai siirtelyä yhdellä ruudukkomallilla.

Arjesta tuttu esimerkki selventää eroa. Kuvitellaan, että sininen muki on puoliksi piilossa pahvilaatikon takana. Passiivinen katselu ei paljasta, onko mukin korva ehjä. Yksi vaihtoehto on vaihtaa kuvakulmaa – siirtää kameraa, toivoa parempaa näkymää ja toistaa. Toinen on tehdä yksi hallittu liike: tönäistä laatikon reunaa sentin verran oikealle ja vilkaista uudestaan. Juuri tällaisia pieniä, harkittuja siirtoja “työntöviiva” ehdottaa robotille.

Tekijät testasivat menetelmää Franka Panda -robottikäsivarrella pöytämäisissä ympäristöissä, joissa esineet peittivät toisiaan ja tehtävät vaihtelivat. Järjestelmä osasi valita, työntääkö, vetääkö vai tarttuuko – ja se teki valintansa kieli–kuvamallin tuottaman perustelun pohjalta. Tulosten mukaan uusi tapa pärjäsi paremmin kuin passiivinen katselu ja myös paremmin kuin eräs kehotevihjeisiin perustuva vertailumenetelmä, MOKA. Ero korostui erityisesti tehtävissä, joissa tönäisy – kosketusliike, joka ei ole pelkkä tarttuminen – oli ratkaiseva. Lisäksi sivuesineet pysyivät pääosin ehjinä ja paikoillaan: robotti ei rymistellyt turhaan.

Tärkeää on, että tässä tutkimus toimii todisteena, ei vielä lopullisena vastauksena. Vaikka parannukset olivat selvät testatuissa ympäristöissä, kyse oli yhdestä robotista ja laboratorio-olosuhteista. Menetelmä näyttää lupaavalta etenkin työntötehtävissä; monimutkaisempi tarttuminen, materiaalien moninaisuus tai epävakaat esinepinot voivat tuoda omat yllätyksensä. Kieli–kuvamalli on vahva yleistyökalu, mutta sekin tekee virheitä – varsinkin jos kuva on epätarkka tai jos muistiin tallentuu harhaanjohtavaa tietoa aikaisemmista liikkeistä.

On myös syytä kysyä, milloin koskettaminen todella auttaa. Jos esine on herkkä tai vaarallinen, varovainenkin tönäisy voi olla liikaa. Joskus kameran siirtäminen on halvempi ja turvallisempi ratkaisu. Menetelmän vahvuus näyttää olevan siinä, että se tarjoaa lisää vaihtoehtoja: robotti voi päättää, milloin vaihtaa kuvakulmaa ja milloin muuttaa itse maailmaa – ja tehdä molemmat harkiten.

Miksi tällä on merkitystä? Siksi, että arki on osittain piilossa. Keittiössä, varastossa ja kierrätyslinjalla tieto on usein esineiden takana, alla tai sisällä. Robotti, joka osaa kysyä itseltään “mihin suuntaan minun kannattaa tönäistä, jotta näen enemmän?” voi olla käytännössä hyödyllisempi kuin robotti, joka vain katsoo yhä tarkemmin. Ja jos päätöksiä ohjaa yleiskäyttöinen kieli–kuvamalli, sama periaate voi toimia monessa paikassa ilman, että jokaista hyllyä ja laatikkoa varten pitää rakentaa uusi erikoisohjelma.

Olemme vasta kosketuksen alkeissa. Mutta suunta on kiinnostava: kohti koneita, jotka eivät vain katso maailmaa, vaan kyselevät siltä kohteliaasti – pienellä liikkeellä kerrallaan. Seuraava kysymys kuuluu: kuinka pitkälle annamme robottien “kokeilla” ympäristöään, ja kuka päättää, milloin kokeilu muuttuu riskiksi?

Paper: https://arxiv.org/abs/2602.18374v1

Register: https://www.AiFeta.com

robotiikka tekoäly tutkimus tieteenuutiset

Read more

Tekoäly ei enää vain ehdota – se myös koettaa

Tekoäly ei enää vain ehdota – se myös koettaa

Kuvittele tutkija, joka esittää tietokoneelle väitteen: “Tämä rakenne voisi kestää kuumuutta paremmin.” Ennen vastaus olisi ollut viittauksia artikkeleihin ja arveluja. Nyt kone voi myös yrittää: se luonnostelee kokeen, simuloi atomien liikettä ja palaa perusteltuun arvioon – heti samassa istunnossa. Tämä on hienovarainen mutta merkittävä muutos. Vielä hiljattain kielimallipohjaiset tekoälyt olivat taitavia

By Kari Jaaskelainen
Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Uusi menetelmä lupaa vaihtaa suttuiset korostukset teräviin todisteisiin, jotta lääkärille näkyy täsmälleen se, mihin päätös perustui. Kuvittele rutiininen hetki sairaalassa: tietokone katsoo keuhkokuvaa, antaa tulokseksi “poikkeava” ja levittää kuvan päälle oranssin läiskän. Läiskä kertoo, että jossain siinä suunnassa oli jotain tärkeää. Mutta mitä tarkalleen? Onko ratkaisevaa pieni varjo kylkiluussa vai

By Kari Jaaskelainen
Kaksi tekoälyä voi olla reilumpi kuin yksi

Kaksi tekoälyä voi olla reilumpi kuin yksi

Tutkijoiden simuloimassa päivystyksessä oikeudenmukaisuus syntyi neuvottelusta, ei yhdestä auktoriteetista. Se haastaa tavan, jolla tekoälyä on tähän asti arvioitu ja säädelty. Kuvittele ruuhkainen päivystysilta: paikkoja on liian vähän, potilaita liikaa. Yhden älykkään järjestelmän sijaan päätöksiä valmistelee kaksi tekoälyä. Ne käyvät muutaman kierroksen keskustelun siitä, kenelle hoito kuuluu ensin ja millä perusteilla.

By Kari Jaaskelainen