Escaping the Verifier: Learning to Reason via Demonstrations

Share
Escaping the Verifier: Learning to Reason via Demonstrations

TL;DR: RARO teaches language models to reason from expert demonstrations - no task-specific verifier needed.

Many real tasks don’t have an automatic "checker." RARO (Relativistic Adversarial Reasoning Optimization) uses inverse reinforcement learning to learn from examples instead.

How it works: a policy tries to produce answers like the experts, while a relativistic critic doesn’t score answers in isolation - it compares model vs. expert side-by-side and learns to tell which is better. Both are trained together with RL, using stabilization tricks to keep learning steady.

Why it matters: RARO beat strong verifier-free baselines on logic (Countdown), math (DeepMath), and creative writing (poetry), and it scales as robustly as verifier-based RL.

If you have examples but no reliable checker, RARO turns those demonstrations into strong reasoning skills.

Paper: https://arxiv.org/abs/2511.21667v1

Paper: https://arxiv.org/abs/2511.21667v1

Register: https://www.AiFeta.com

#AI #LLM #ReinforcementLearning #InverseRL #Reasoning #NLP #MachineLearning #Research

Read more

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Lääkärin työpöydällä vilisee merkintöjä: diagnoosikoodeja, laboratoriotuloksia, lääkityksen aloituksia ja lopetuksia. Kaikella on päivämäärä ja kellonaika. Silti se, mitä lääkäri oikeasti tarvitsee, on tarina: milloin sairausjakso alkoi, mitä hoitoa annettiin ja milloin se päättyi. Tietokone osaa hakea yksittäisiä rivejä nopeasti. Mutta osaako se nähdä kokonaisuuden? Tähän asti moni järjestelmä on tyytynyt

By Kari Jaaskelainen
Yhteinen sävel voi olla alue, ei lause

Yhteinen sävel voi olla alue, ei lause

Useimmat verkkoalustat kysyvät meiltä samaa kysymystä yhä uudelleen: oletko samaa vai eri mieltä? Peukku ylös, peukku alas. Silti arjessa harva mielipide tiivistyy yhteen lauseeseen. Ihmiset myös välittävät joistakin aiheista paljon, toisista vähemmän. Jos etsimme yhteistä maaperää, pitäisikö meidän etsiä sitä yksittäisten väittämien sijasta jostakin niiden väliltä? Tähän asti verkon keskustelualustoilla

By Kari Jaaskelainen