An AI that designs its own safety tests for other AI systems

An AI that designs its own safety tests for other AI systems

A research team has built an AI system that designs and improves safety tests for other AI models on its own. In trials, it found ways to make models break their own rules more often than methods designed by people. This matters because safety testing needs to keep pace with rapidly changing systems.

Why this matters now

Published as an open preprint on arXiv, the work comes from researchers in university and industry labs. They call the system AgenticRed. It responds to a common problem: most automated tests still follow testing plans that people wrote by hand, which reflect human assumptions and miss many paths.

The structural problem the authors describe

According to the authors, fixing the shape of an “attack” in advance means we search only a small corner of what is possible. Designing and maintaining those scripts is also slow and costly. The team instead treats safety testing as a system-design task. An AI “agent” (a program that plans and acts step by step) proposes whole testing setups, runs them, keeps the versions that expose more flaws, and refines them in rounds—a survival‑of‑the‑fittest loop.

A concrete example: pressure and threats

Consider pressure and threats. A human tester might write several messages that gradually push a model to ignore its rules. AgenticRed can invent such multi‑step sequences on its own: it might pose as a user who applies increasing pressure or offers incentives, then switch tactics if the first approach fails. The aim is not to cause harm, but to observe whether the target model yields under pressure.

Key risk: speed and scale

The main risk the authors highlight is speed and scale. Because the system can generate and test many strategies automatically, it can find weaknesses in a wide range of models—open and commercial—very quickly. The same ability could be misused to probe real systems for harmful outputs or to automate coercive prompting at scale.

What the authors suggest

The authors argue this automation should strengthen defenses under strict controls. Suggested safeguards include using it only in contained test environments, keeping detailed logs, putting limits on how fast and how much it can run, and subjecting results and code to independent review. They also call for policies that require automated red‑team testing (stress‑testing by trying to make a system fail) before release and for clear reporting of remaining risks.

Bottom line

The study reports very high success rates compared with prior methods and shows the approach transfers across models. The technical message is that letting an AI design its own tests can reveal issues people miss. The policy message is that faster tools demand stronger brakes and oversight.

In a nutshell: An AI that designs its own safety tests can surface hidden weaknesses faster than humans, which helps defense but raises oversight needs.

  • Automated test design outperforms fixed, human‑written scripts.
  • Speed and transfer across many models are strengths—and risks.
  • Use only in controlled settings with logging, limits, and independent review.

Paper: https://arxiv.org/abs/2601.13518v1

Register: https://www.AiFeta.com

#AI #Safety #Research #RedTeaming #Governance

Read more

Tekoälyavustaja on taitavimmillaan, kun se ponnistelee vain silloin kun päätös on aidosti vaikea

Tekoälyavustaja on taitavimmillaan, kun se ponnistelee vain silloin kun päätös on aidosti vaikea

Kuka tahansa on klikkaillut verkkopalvelussa väärää nappia ja huomannut olevansa takaisin lähtöruudussa. Ihminen oppii nopeasti: selvässä tilanteessa ei jäädä märehtimään, epävarmassa pysähdytään ja tarkistetaan. Sama periaate alkaa hiipiä myös verkkosivuilla toimiviin tekoälyavustajiin. Vielä hiljattain ajateltiin, että tekoälyn suoritusta voi parantaa yksinkertaisesti antamalla sille enemmän ”miettimisaikaa” joka vaiheessa. Kun malli kirjoittaa,

By Kari Jaaskelainen
Kielimallin huomio toimii yllättävän hyvin pitkien tekstien hakijana

Kielimallin huomio toimii yllättävän hyvin pitkien tekstien hakijana

Moni tuntee tilanteen: edessä on 180-sivuinen raportti, ja pitäisi löytää vastaus yhteen täsmäkysymykseen. Hakutoiminto löytää kymmeniä osumia, mutta oikea kohta on aina sen taulukon alaviitteessä tai liitteessä, johon teksti viittaa. Sama ongelma vaivaa myös älykkäitä keskustelubotteja. Ne lupaavat lukea pitkät tiedostot, mutta harhailevat helposti väärään kappaleeseen tai vastaavat luottavaisesti hutiin.

By Kari Jaaskelainen
Koneesta tulee tarkempi, kun sille antaa hetken miettiä

Koneesta tulee tarkempi, kun sille antaa hetken miettiä

Moni kuvankäsittelysovellus lupaa taikoja yhdellä napilla: poista kahvikuppi pöydältä, kirkasta kasvot, vaihda tausta. Usein tulos on kelvollinen – kunnes pieni yksityiskohta lipsahtaa. Nenäkatse jää epätarkaksi, varjo unohtuu tai reunaan jää outo haamu. Taustalla on tyypillinen tapa, jolla tekoälyä on käytetty: se antaa vastauksen kerralla, ilman että pysähtyy tarkistamaan itseään. Ajatus, että

By Kari Jaaskelainen