Robotti voi nyt suunnitella pitkät työt ja paikata virheet omin avuin

Robotti voi nyt suunnitella pitkät työt ja paikata virheet omin avuin

Ajattele arkista kokoonpanotyötä: käännät ohjeen auki, päätät mitä teet ensin, ja muutat suunnitelmaa, jos ruuvi putoaa tai osa juuttuu. Ihminen tekee tämän huomaamattaan – katsoo, ajattelee ja korjaa. Robotille sama on ollut vaikeaa. Se osaa kyllä toistaa yhden liikkeen tuhansia kertoja, mutta monivaiheisessa tehtävässä pienikin lipsahdus on voinut pysäyttää koko suorituksen.

Tähän asti on usein ajateltu, että robotin pitää oppia työ vaiheen tarkkuudella ihmisen esimerkistä tai sen on seurattava etukäteen kirjoitettua koreografiaa. Toisaalta uudet tekoälymallit osaavat jo ”kuvitella” – ne pystyvät jakamaan tehtävän osiin kielen avulla ja luomaan lyhyitä videoita siitä, miltä onnistunut lopputulos voisi näyttää. Silti nämä kyvyt ovat jääneet ilmaan leijumaan: kone on voinut suunnitella hienosti, mutta ei ole tiennyt tarkasti, mihin oikeassa maailmassa tarttua.

Tuore arXivissa julkaistu työ ehdottaa yhdistelmää, joka paikkaa tämän välin. Menetelmä, nimeltään NovaPlan, sitoo yhteen kolme asiaa: kielen avulla tapahtuvan suunnittelun, ennustevideot ja robotin oman geometrian – eli sen, missä sen käsi on, missä esineen reunat kulkevat ja mihin kannattaa tarttua. Tulos on järjestelmä, joka ei tarvitse tehtävästä ennakko-opetusta, vaan osaa purkaa ohjeen osiin, seurata itseään ja muuttaa kurssia, jos jokin askel menee pieleen.

Käytännössä tämä toimii kahdella tasolla. Yläkerrassa on suunnittelija, joka lukee tehtävänannon, jakaa sen välitavoitteiksi ja seuraa koko ajan, miten robotti edistyy. Jos yksittäinen askel epäonnistuu – pala putoaa tai kahva ei liiku – suunnittelija havaitsee sen ja ehdottaa uutta yritystä tai toista etenemistapaa. Tämä on olennaista: robotti ei enää marssi eteenpäin kuin metronomi, vaan katsoo, mitä tekee, ja säätää sen mukaan.

Alakerrassa ratkaistaan käsien ja sormien varsinainen liike. NovaPlan ei yritä arvata tyhjästä, vaan käyttää apuna omia ennustevideoitaan: lyhyitä kuvasekvenssejä siitä, miltä onnistunut liike voisi näyttää. Niistä se poimii kaksi vihjelajia. Ensimmäinen on esineiden tärkeät pisteet – kulmat, reunat tai tarttumapinnat – joihin käden kannattaa tähdätä. Toinen on ihmiskäden asento videossa, jota robotti voi jäljitellä. Järjestelmä vaihtaa näiden kahden välillä sen mukaan, kumpi näyttää selkeämmältä lähteeltä toimivalle otteelle. Jos esimerkiksi pultti peittyy hetkeksi eikä sen tarkkaa paikkaa näe, ihmiskäden hahmo videossa voi antaa paremman vihjeen. Jos taas käden hahmo on epätarkka, esineen mittoihin sidotut pisteet ohjaavat luotettavammin. Tekijöiden mukaan tämä vaihtaminen pitää suorituksen vakaana silloinkin, kun kuva peittyy tai syvyysarvio on epätarkka.

Yksi konkreettinen esimerkki: kuvitellaan, että robotin tehtävä on koota useasta kappaleesta toimiva kokonaisuus. Se aloittaa laittamalla kaksi osaa kohdakkain ja yrittää liu’uttaa kolmannen paikalleen. Osa lipsahtaa sivuun. Perinteinen, ennalta ohjelmoitu järjestelmä saattaisi jatkaa kuin mitään ei olisi tapahtunut tai pysähtyä virheilmoitukseen. NovaPlanin kaltainen lähestymistapa pysähtyy, vertaa tilannetta ennustevideoon ja uudelleenjakaa vaiheet: ensin oikaistaan vinossa oleva osa, sitten yritetään uudelleen. Yksittäinen moka ei kaada koko suoritusta.

Tutkijat testasivat menetelmää kolmessa monivaiheisessa tehtävässä sekä Functional Manipulation Benchmark -testistössä, joka mittaa robottien käytännön käsittelykykyä. Tulosten mukaan järjestelmä selvisi monimutkaisista kokoonpanoista ja pystyi taitavasti korjaamaan virheitään – ilman aiempia demonstraatioita tai erikseen tätä tehtävää varten tehtyä lisäkoulutusta. Tärkeää on muistaa, että tässä tutkimus toimi todisteena: se näytti, että tällainen yhdistelmä kielen, videon ja geometrian välillä voi käytännössä viedä robotin pidemmälle kuin kumpikaan yksin.

Rajoituksiakin on. Tulokset on toistaiseksi esitetty rajatussa joukossa tehtäviä ja kontrolloiduissa olosuhteissa. Vaikka menetelmä sietää peittymistä ja syvyysvirheitä aiempaa paremmin, se yhä nojaa videoiden laatuun ja siihen, että robotti näkee riittävästi ympäristöstään. Tutkimus ei ole pikakortti keittiön monitehtäväiseksi apulaiseksi, vaan askel kohti sitä: lupaava, mutta vielä kuljetettava.

Miksi tämä silti on merkittävää? Siksi, että se siirtää painopistettä pois valmiiksi kirjoitetuista koreografioista kohti toimivaa ”arkijärkeä”: robotti, joka yhdistää kielellisen suunnittelun lyhyisiin mielikuviin (ennustevideoihin) ja sitoo ne omaan kehoonsa, voi selvitä työstä, jota kukaan ei ole sille etukäteen opettanut. Se tuo koneen askeleen lähemmäs tapaa, jolla ihminen yhdistää ohjeen, näyn ja käden tunteen yhdeksi liikkeeksi.

Seuraava kysymys ei ole vain tekninen, vaan yhteiskunnallinen: jos robotit oppivat soveltamaan ja paikkaamaan virheitään itsenäisesti, mihin haluamme niiden yltävän – ja missä kohdin haluamme edelleen painaa jarrua?

Paper: https://arxiv.org/abs/2602.20119v1

Register: https://www.AiFeta.com

robotiikka tekoäly tutkimus automaatio

Read more

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Olet etsimässä uutta takkia verkosta. Kirjoitat hakukenttään “villakangastakki”. Ensimmäiset osumat ovat järkeviä, mutta sinä mietit: haluaisin nimenomaan tummanharmaan, polvipituisen ja arkikäyttöön sopivan. Yhtäkkiä “samanlainen takki” tarkoittaakin eri asiaa kuin hetkeä aiemmin. Silti useimmat kuvahaun ja verkkokaupan järjestelmät vertaavat kuvia toisiinsa yhden ja saman, kiveen hakatun mittarin mukaan. Perinteinen oletus on

By Kari Jaaskelainen
Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Kun tekoälyn tekemät kuvat yleistyvät, pelkkä arvaus alkuperästä ei riitä. Tuoreet kokeet osoittavat, että yksinkertainen, huomaamaton vesileima voi kertoa sekä onko kuva koneella tehty että kuka sen teki. Sosiaalisen median virrassa kuva näyttää aina kuvalta: naurava hääseurue, tulviva katu, presidentti kättelemässä. Silti yhä useammin kysymys kuuluu, mistä kuva on peräisin

By Kari Jaaskelainen
Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Moni tunnistaa tilanteen terveyskeskuksessa tai videopuhelussa: kysymykseen ”mitä kuuluu?” on helpompi vastata ”ihan ok” kuin kertoa oikeasti, miltä tuntuu. Häpeä, kiire ja se, että oireet ovat lopulta vain omia kokemuksia, vaikeuttavat masennuksen huomaamista – sekä potilaalta että ammattilaiselta. Yleinen ajatus on ollut, että jos tekoäly oppisi poimimaan masennuksen merkkejä puheesta, tekstistä

By Kari Jaaskelainen
Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja

Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja

Koneet voivat oppia löytämään piilokuvioita, vinkata todistusten välivaiheita ja jopa keksiä yksittäisiä tapauksia, jotka kumoavat rohkeita väitteitä – ja se voi muuttaa tapaa, jolla uutta matematiikkaa syntyy. Arjessa riittää usein, että jokin toimii melkein aina. Matematiikassa yksi poikkeus riittää kaatamaan koko säännön. Jos väität, että jokaisessa bussissa on aina vapaa paikka,

By Kari Jaaskelainen