Robots That Plan Long, Multi‑Step Tasks Using General AI

Robots That Plan Long, Multi‑Step Tasks Using General AI

Teaching robots to handle real-world chores—no special training required

This research shows a new way for robots to complete long, multi-step tasks by combining off‑the‑shelf foundation models (the same kind powering today’s AI) with a constantly updated “scene graph”—a smart map of objects and their relationships.

Here’s the idea: foundation models handle what the robot sees and understands (vision and language), while a general reasoning model decides the sequence of actions. The scene graph ties it together, tracking where things are and how they change so the robot can plan reliably over many steps without forgetting context.

  • Multimodal perception from existing AI models
  • General-purpose reasoning for robust task sequencing
  • Dynamic scene graphs for spatial awareness and consistency

Tested on tabletop manipulation, the framework highlights a path to build capable robot systems directly on top of today’s off-the-shelf AI—no domain-specific training needed.

Paper by Sushil Samuel Dinesh and Shinkyu Park. Read more: http://arxiv.org/abs/2510.27558v1

Paper: http://arxiv.org/abs/2510.27558v1

Register: https://www.AiFeta.com

#AI #Robotics #RobotLearning #FoundationModels #SceneGraphs #Manipulation #Research

Read more

Tekoälyavustaja on taitavimmillaan, kun se ponnistelee vain silloin kun päätös on aidosti vaikea

Tekoälyavustaja on taitavimmillaan, kun se ponnistelee vain silloin kun päätös on aidosti vaikea

Kuka tahansa on klikkaillut verkkopalvelussa väärää nappia ja huomannut olevansa takaisin lähtöruudussa. Ihminen oppii nopeasti: selvässä tilanteessa ei jäädä märehtimään, epävarmassa pysähdytään ja tarkistetaan. Sama periaate alkaa hiipiä myös verkkosivuilla toimiviin tekoälyavustajiin. Vielä hiljattain ajateltiin, että tekoälyn suoritusta voi parantaa yksinkertaisesti antamalla sille enemmän ”miettimisaikaa” joka vaiheessa. Kun malli kirjoittaa,

By Kari Jaaskelainen
Kielimallin huomio toimii yllättävän hyvin pitkien tekstien hakijana

Kielimallin huomio toimii yllättävän hyvin pitkien tekstien hakijana

Moni tuntee tilanteen: edessä on 180-sivuinen raportti, ja pitäisi löytää vastaus yhteen täsmäkysymykseen. Hakutoiminto löytää kymmeniä osumia, mutta oikea kohta on aina sen taulukon alaviitteessä tai liitteessä, johon teksti viittaa. Sama ongelma vaivaa myös älykkäitä keskustelubotteja. Ne lupaavat lukea pitkät tiedostot, mutta harhailevat helposti väärään kappaleeseen tai vastaavat luottavaisesti hutiin.

By Kari Jaaskelainen
Koneesta tulee tarkempi, kun sille antaa hetken miettiä

Koneesta tulee tarkempi, kun sille antaa hetken miettiä

Moni kuvankäsittelysovellus lupaa taikoja yhdellä napilla: poista kahvikuppi pöydältä, kirkasta kasvot, vaihda tausta. Usein tulos on kelvollinen – kunnes pieni yksityiskohta lipsahtaa. Nenäkatse jää epätarkaksi, varjo unohtuu tai reunaan jää outo haamu. Taustalla on tyypillinen tapa, jolla tekoälyä on käytetty: se antaa vastauksen kerralla, ilman että pysähtyy tarkistamaan itseään. Ajatus, että

By Kari Jaaskelainen