Do LLMs Really Memorize Your Personal Data? A Cue-Controlled Look at PII Leakage

Do LLMs Really Memorize Your Personal Data? A Cue-Controlled Look at PII Leakage

Do big AI models really "remember" your phone number? A new study says: often, no.

Past claims of PII leakage may be inflated by "lexical cues"—obvious hints in the prompt (like giving part of a name or address) that let models complete patterns rather than recall hidden data.

The authors introduce a cue-controlled test, Cue-Resistant Memorization (CRM), and re-check PII leakage across 32 languages and multiple tasks. Once cues are removed, reconstruction success drops sharply. Cue-free generation and membership inference show extremely low true positives.

Takeaways:

  • Apparent "leaks" often come from the prompt, not the model's memory.
  • Privacy risk isn't zero, but measuring it requires cue-controlled evaluations.
  • Better benchmarks can guide safer model training and release decisions.

Bottom line: Evaluate LLM privacy with cue awareness—otherwise we may mistake pattern completion for memorization.

Paper: https://arxiv.org/abs/2601.03791v1

Register: https://www.AiFeta.com

#AI #Privacy #LLMs #DataSecurity #NLP

Read more

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Olet etsimässä uutta takkia verkosta. Kirjoitat hakukenttään “villakangastakki”. Ensimmäiset osumat ovat järkeviä, mutta sinä mietit: haluaisin nimenomaan tummanharmaan, polvipituisen ja arkikäyttöön sopivan. Yhtäkkiä “samanlainen takki” tarkoittaakin eri asiaa kuin hetkeä aiemmin. Silti useimmat kuvahaun ja verkkokaupan järjestelmät vertaavat kuvia toisiinsa yhden ja saman, kiveen hakatun mittarin mukaan. Perinteinen oletus on

By Kari Jaaskelainen
Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Kun tekoälyn tekemät kuvat yleistyvät, pelkkä arvaus alkuperästä ei riitä. Tuoreet kokeet osoittavat, että yksinkertainen, huomaamaton vesileima voi kertoa sekä onko kuva koneella tehty että kuka sen teki. Sosiaalisen median virrassa kuva näyttää aina kuvalta: naurava hääseurue, tulviva katu, presidentti kättelemässä. Silti yhä useammin kysymys kuuluu, mistä kuva on peräisin

By Kari Jaaskelainen
Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Moni tunnistaa tilanteen terveyskeskuksessa tai videopuhelussa: kysymykseen ”mitä kuuluu?” on helpompi vastata ”ihan ok” kuin kertoa oikeasti, miltä tuntuu. Häpeä, kiire ja se, että oireet ovat lopulta vain omia kokemuksia, vaikeuttavat masennuksen huomaamista – sekä potilaalta että ammattilaiselta. Yleinen ajatus on ollut, että jos tekoäly oppisi poimimaan masennuksen merkkejä puheesta, tekstistä

By Kari Jaaskelainen
Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja

Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja

Koneet voivat oppia löytämään piilokuvioita, vinkata todistusten välivaiheita ja jopa keksiä yksittäisiä tapauksia, jotka kumoavat rohkeita väitteitä – ja se voi muuttaa tapaa, jolla uutta matematiikkaa syntyy. Arjessa riittää usein, että jokin toimii melkein aina. Matematiikassa yksi poikkeus riittää kaatamaan koko säännön. Jos väität, että jokaisessa bussissa on aina vapaa paikka,

By Kari Jaaskelainen