Echo Chamber: Multi-Turn Jailbreaks That Fool Chatbot Guardrails

Echo Chamber: Multi-Turn Jailbreaks That Fool Chatbot Guardrails

Can a polite chat turn dangerous for chatbots?

New research uncovers a stealthy way to "jailbreak" AI assistants without obvious toxic prompts. The authors present Echo Chamber, a multi-turn attack that slowly escalates a conversation so guardrails slip—think nudging, not smashing.

Unlike one-shot exploits, Echo Chamber works through a chain of friendly messages that build context and trust. The study compares it to other multi-turn methods and evaluates it across several state-of-the-art models, showing strong effectiveness in extensive tests.

  • Highlights: gradual escalation beats blunt prompts
  • Risk: financial and reputational damage for companies deploying chatbots
  • Takeaway: defenses must be conversation-aware, not just single-message filters

Why this matters: as more businesses adopt LLMs, attackers adapt too. Security teams need better red-teaming, multi-turn detectors, and training that resists context manipulation.

Paper by Ahmad Alobaid, Martí Jordà Roca, Carlos Castillo, and Joan Vendrell. Read more: https://arxiv.org/abs/2601.05742v1

Paper: https://arxiv.org/abs/2601.05742v1

Register: https://www.AiFeta.com

#AI #Cybersecurity #LLM #Safety #Chatbots #AISecurity #RedTeaming #InfoSec #ResponsibleAI

Read more

Tekoälyavustaja on taitavimmillaan, kun se ponnistelee vain silloin kun päätös on aidosti vaikea

Tekoälyavustaja on taitavimmillaan, kun se ponnistelee vain silloin kun päätös on aidosti vaikea

Kuka tahansa on klikkaillut verkkopalvelussa väärää nappia ja huomannut olevansa takaisin lähtöruudussa. Ihminen oppii nopeasti: selvässä tilanteessa ei jäädä märehtimään, epävarmassa pysähdytään ja tarkistetaan. Sama periaate alkaa hiipiä myös verkkosivuilla toimiviin tekoälyavustajiin. Vielä hiljattain ajateltiin, että tekoälyn suoritusta voi parantaa yksinkertaisesti antamalla sille enemmän ”miettimisaikaa” joka vaiheessa. Kun malli kirjoittaa,

By Kari Jaaskelainen
Kielimallin huomio toimii yllättävän hyvin pitkien tekstien hakijana

Kielimallin huomio toimii yllättävän hyvin pitkien tekstien hakijana

Moni tuntee tilanteen: edessä on 180-sivuinen raportti, ja pitäisi löytää vastaus yhteen täsmäkysymykseen. Hakutoiminto löytää kymmeniä osumia, mutta oikea kohta on aina sen taulukon alaviitteessä tai liitteessä, johon teksti viittaa. Sama ongelma vaivaa myös älykkäitä keskustelubotteja. Ne lupaavat lukea pitkät tiedostot, mutta harhailevat helposti väärään kappaleeseen tai vastaavat luottavaisesti hutiin.

By Kari Jaaskelainen
Koneesta tulee tarkempi, kun sille antaa hetken miettiä

Koneesta tulee tarkempi, kun sille antaa hetken miettiä

Moni kuvankäsittelysovellus lupaa taikoja yhdellä napilla: poista kahvikuppi pöydältä, kirkasta kasvot, vaihda tausta. Usein tulos on kelvollinen – kunnes pieni yksityiskohta lipsahtaa. Nenäkatse jää epätarkaksi, varjo unohtuu tai reunaan jää outo haamu. Taustalla on tyypillinen tapa, jolla tekoälyä on käytetty: se antaa vastauksen kerralla, ilman että pysähtyy tarkistamaan itseään. Ajatus, että

By Kari Jaaskelainen