Untargeted jailbreaks: a broader stress test for LLM safety

Share

New attack objective, bigger search space—higher risk.

This work proposes the first gradient-based untargeted jailbreak attack (UJA): instead of matching a fixed unsafe target, it maximizes the probability of an unsafe response using a judge model and a differentiable decomposition. In evaluations, UJA achieved over 80% success against recent safety-aligned LLMs with only 100 optimization steps, outperforming I-GCG and COLD-Attack by over 20%.

Why it matters: Broader attacks expose blind spots and can inform stronger defenses.

It’s a wind-tunnel for safety—find weaknesses before bad actors do. 🌬️🛡️⚠️

Review results to guide red-teaming and hardening strategies; share which mitigations you’d test next.

Paper: http://arxiv.org/abs/2510.02999v1

Register: https://www.AiFeta.com

Paper: http://arxiv.org/abs/2510.02999v1

Register: https://www.AiFeta.com

#AISafety #LLM #RedTeam #Security #AdversarialML #Alignment #SafetyEvaluation

Read more

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Lääkärin työpöydällä vilisee merkintöjä: diagnoosikoodeja, laboratoriotuloksia, lääkityksen aloituksia ja lopetuksia. Kaikella on päivämäärä ja kellonaika. Silti se, mitä lääkäri oikeasti tarvitsee, on tarina: milloin sairausjakso alkoi, mitä hoitoa annettiin ja milloin se päättyi. Tietokone osaa hakea yksittäisiä rivejä nopeasti. Mutta osaako se nähdä kokonaisuuden? Tähän asti moni järjestelmä on tyytynyt

By Kari Jaaskelainen
Yhteinen sävel voi olla alue, ei lause

Yhteinen sävel voi olla alue, ei lause

Useimmat verkkoalustat kysyvät meiltä samaa kysymystä yhä uudelleen: oletko samaa vai eri mieltä? Peukku ylös, peukku alas. Silti arjessa harva mielipide tiivistyy yhteen lauseeseen. Ihmiset myös välittävät joistakin aiheista paljon, toisista vähemmän. Jos etsimme yhteistä maaperää, pitäisikö meidän etsiä sitä yksittäisten väittämien sijasta jostakin niiden väliltä? Tähän asti verkon keskustelualustoilla

By Kari Jaaskelainen