TempoBench: A verifiable benchmark for how AI reasons

TempoBench: A verifiable benchmark for how AI reasons

How do we know if an AI is truly reasoning—and where it fails? TempoBench offers a clear answer.

TempoBench is a new, formally grounded and verifiable benchmark that lets researchers systematically probe multi-step reasoning, with difficulty you can dial up or down.

  • Why it matters: Ad-hoc tests capture real decision chains but lack guarantees; proof systems are verifiable but don’t reflect agent-like tasks. TempoBench combines realism with rigor.
  • How it works: Temporal Trace Evaluation (TTE) checks whether models can follow and simulate a step-by-step process. Temporal Causal Evaluation (TCE) tests cause-and-effect reasoning in multi-step systems.
  • What they found: Today’s leading LLMs score 65.6% on TCE-normal but only 7.5% on TCE-hard—showing they 'get' the task yet struggle as system complexity rises.
  • Open tools: Code and tasks are available: https://github.com/nik-hz/tempobench

For anyone building reliable AI agents, TempoBench is a practical lens to see not just what models answer—but how they think over time.

Paper: http://arxiv.org/abs/2510.27544v1

Register: https://www.AiFeta.com

#AI #LLM #Reasoning #Benchmark #Causality #Eval

Read more

Tekoäly ei enää vain ehdota – se myös koettaa

Tekoäly ei enää vain ehdota – se myös koettaa

Kuvittele tutkija, joka esittää tietokoneelle väitteen: “Tämä rakenne voisi kestää kuumuutta paremmin.” Ennen vastaus olisi ollut viittauksia artikkeleihin ja arveluja. Nyt kone voi myös yrittää: se luonnostelee kokeen, simuloi atomien liikettä ja palaa perusteltuun arvioon – heti samassa istunnossa. Tämä on hienovarainen mutta merkittävä muutos. Vielä hiljattain kielimallipohjaiset tekoälyt olivat taitavia

By Kari Jaaskelainen
Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Uusi menetelmä lupaa vaihtaa suttuiset korostukset teräviin todisteisiin, jotta lääkärille näkyy täsmälleen se, mihin päätös perustui. Kuvittele rutiininen hetki sairaalassa: tietokone katsoo keuhkokuvaa, antaa tulokseksi “poikkeava” ja levittää kuvan päälle oranssin läiskän. Läiskä kertoo, että jossain siinä suunnassa oli jotain tärkeää. Mutta mitä tarkalleen? Onko ratkaisevaa pieni varjo kylkiluussa vai

By Kari Jaaskelainen
Kaksi tekoälyä voi olla reilumpi kuin yksi

Kaksi tekoälyä voi olla reilumpi kuin yksi

Tutkijoiden simuloimassa päivystyksessä oikeudenmukaisuus syntyi neuvottelusta, ei yhdestä auktoriteetista. Se haastaa tavan, jolla tekoälyä on tähän asti arvioitu ja säädelty. Kuvittele ruuhkainen päivystysilta: paikkoja on liian vähän, potilaita liikaa. Yhden älykkään järjestelmän sijaan päätöksiä valmistelee kaksi tekoälyä. Ne käyvät muutaman kierroksen keskustelun siitä, kenelle hoito kuuluu ensin ja millä perusteilla.

By Kari Jaaskelainen