TAMAS: Stress-testing Multi‑Agent AI for Safety

TAMAS: Stress-testing Multi‑Agent AI for Safety

AI agents are starting to work in teams. That unlocks power—and new ways things can go wrong.

TAMAS is a benchmark that stress‑tests multi‑agent LLM systems against adversarial tricks and coordination failures.

  • 5 realistic scenarios, 300 attack instances across 6 attack types
  • 211 tools, plus 100 harmless tasks to check false alarms
  • Evaluated with 10 backbone LLMs and 3 interaction setups (AutoGen, CrewAI)

The authors also propose an Effective Robustness Score (ERS): a simple metric that weighs both task success and safety, so teams can see trade‑offs at a glance.

Result: today’s multi‑agent systems are highly vulnerable. Attacks that exploit role handoffs, tool use, and peer persuasion often slip through.

If you build with agents, TAMAS offers a clear yardstick for red‑teaming and defense design. Read the paper: http://arxiv.org/abs/2511.05269v1

Paper: http://arxiv.org/abs/2511.05269v1

Register: https://www.AiFeta.com

#AI #Safety #LLM #MultiAgent #Security #Benchmark #AIAgents #RedTeam #TAMAS

Read more

Tekoäly ei enää vain ehdota – se myös koettaa

Tekoäly ei enää vain ehdota – se myös koettaa

Kuvittele tutkija, joka esittää tietokoneelle väitteen: “Tämä rakenne voisi kestää kuumuutta paremmin.” Ennen vastaus olisi ollut viittauksia artikkeleihin ja arveluja. Nyt kone voi myös yrittää: se luonnostelee kokeen, simuloi atomien liikettä ja palaa perusteltuun arvioon – heti samassa istunnossa. Tämä on hienovarainen mutta merkittävä muutos. Vielä hiljattain kielimallipohjaiset tekoälyt olivat taitavia

By Kari Jaaskelainen
Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Uusi menetelmä lupaa vaihtaa suttuiset korostukset teräviin todisteisiin, jotta lääkärille näkyy täsmälleen se, mihin päätös perustui. Kuvittele rutiininen hetki sairaalassa: tietokone katsoo keuhkokuvaa, antaa tulokseksi “poikkeava” ja levittää kuvan päälle oranssin läiskän. Läiskä kertoo, että jossain siinä suunnassa oli jotain tärkeää. Mutta mitä tarkalleen? Onko ratkaisevaa pieni varjo kylkiluussa vai

By Kari Jaaskelainen
Kaksi tekoälyä voi olla reilumpi kuin yksi

Kaksi tekoälyä voi olla reilumpi kuin yksi

Tutkijoiden simuloimassa päivystyksessä oikeudenmukaisuus syntyi neuvottelusta, ei yhdestä auktoriteetista. Se haastaa tavan, jolla tekoälyä on tähän asti arvioitu ja säädelty. Kuvittele ruuhkainen päivystysilta: paikkoja on liian vähän, potilaita liikaa. Yhden älykkään järjestelmän sijaan päätöksiä valmistelee kaksi tekoälyä. Ne käyvät muutaman kierroksen keskustelun siitä, kenelle hoito kuuluu ensin ja millä perusteilla.

By Kari Jaaskelainen