ACE-Safety: Co-Evolution of Attack and Defense for Safer LLMs

ACE-Safety: Co-Evolution of Attack and Defense for Safer LLMs

Large language models are powerful but can be tricked into harmful outputs (jailbreaks). Most research isolates either attacks or defenses. This paper introduces ACE-Safety, a "train both sides" approach where an attacking AI and a defending AI grow stronger together—like sparring partners—to harden real-world systems.

  • GS-MCTS: a group-aware, strategy-guided tree search that rapidly explores many jailbreak tactics, uncovering blind spots and generating diverse, realistic attack prompts.
  • AC-TGPO: a curriculum-based reinforcement learning method that jointly trains attacker and defender on increasingly tough cases, so each round raises the bar for the next.

Across multiple benchmarks, this co-evolution outperforms standalone attack or defense methods, pointing to a practical path for more robust, continuously improving LLM safety.

“Don’t just build bigger walls—train better sparring partners.”

Paper: https://arxiv.org/abs/2511.19218v1 — Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang

Paper: https://arxiv.org/abs/2511.19218v1

Register: https://www.AiFeta.com

#AI #LLM #AIsafety #AdversarialML #Cybersecurity #ReinforcementLearning #MCTS #ResponsibleAI #Jailbreaks

Read more

Tekoäly ei enää vain ehdota – se myös koettaa

Tekoäly ei enää vain ehdota – se myös koettaa

Kuvittele tutkija, joka esittää tietokoneelle väitteen: “Tämä rakenne voisi kestää kuumuutta paremmin.” Ennen vastaus olisi ollut viittauksia artikkeleihin ja arveluja. Nyt kone voi myös yrittää: se luonnostelee kokeen, simuloi atomien liikettä ja palaa perusteltuun arvioon – heti samassa istunnossa. Tämä on hienovarainen mutta merkittävä muutos. Vielä hiljattain kielimallipohjaiset tekoälyt olivat taitavia

By Kari Jaaskelainen
Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Uusi menetelmä lupaa vaihtaa suttuiset korostukset teräviin todisteisiin, jotta lääkärille näkyy täsmälleen se, mihin päätös perustui. Kuvittele rutiininen hetki sairaalassa: tietokone katsoo keuhkokuvaa, antaa tulokseksi “poikkeava” ja levittää kuvan päälle oranssin läiskän. Läiskä kertoo, että jossain siinä suunnassa oli jotain tärkeää. Mutta mitä tarkalleen? Onko ratkaisevaa pieni varjo kylkiluussa vai

By Kari Jaaskelainen
Kaksi tekoälyä voi olla reilumpi kuin yksi

Kaksi tekoälyä voi olla reilumpi kuin yksi

Tutkijoiden simuloimassa päivystyksessä oikeudenmukaisuus syntyi neuvottelusta, ei yhdestä auktoriteetista. Se haastaa tavan, jolla tekoälyä on tähän asti arvioitu ja säädelty. Kuvittele ruuhkainen päivystysilta: paikkoja on liian vähän, potilaita liikaa. Yhden älykkään järjestelmän sijaan päätöksiä valmistelee kaksi tekoälyä. Ne käyvät muutaman kierroksen keskustelun siitä, kenelle hoito kuuluu ensin ja millä perusteilla.

By Kari Jaaskelainen