Small, smart, and synthetic: distilling data for pre-trained vision models

Small, smart, and synthetic: distilling data for pre-trained vision models

Big vision models are now trained once and reused via simple "linear probes." This paper asks: can a tiny set of synthetic images replace massive real datasets for training those probes?

Enter Linear Gradient Matching: it learns a handful of synthetic images so that, after a frozen feature extractor (e.g., DINO, CLIP), they provoke nearly the same gradients in the linear classifier as real data.

  • Outperforms real-image baselines for linear probing in the authors' tests.
  • Generalizes across models: a set distilled with a DINO backbone can train a competitive CLIP probe.
  • Excels on fine-grained categories.
  • Doubles as an interpretability tool—revealing similarity between models’ embedding spaces and flagging spurious correlations on adversarial datasets.

Why it matters: faster prototyping, lower storage and compute, and safer data sharing—without starting from scratch.

Paper: https://arxiv.org/abs/2511.16674v1

Register: https://www.AiFeta.com

#AI #ComputerVision #DatasetDistillation #SelfSupervisedLearning #ML #CLIP #DINO #Interpretability

Read more

Tekoäly ei enää vain ehdota – se myös koettaa

Tekoäly ei enää vain ehdota – se myös koettaa

Kuvittele tutkija, joka esittää tietokoneelle väitteen: “Tämä rakenne voisi kestää kuumuutta paremmin.” Ennen vastaus olisi ollut viittauksia artikkeleihin ja arveluja. Nyt kone voi myös yrittää: se luonnostelee kokeen, simuloi atomien liikettä ja palaa perusteltuun arvioon – heti samassa istunnossa. Tämä on hienovarainen mutta merkittävä muutos. Vielä hiljattain kielimallipohjaiset tekoälyt olivat taitavia

By Kari Jaaskelainen
Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Tekoälyn selitys voi olla pieni mutta ratkaiseva – ja juuri siksi luotettavampi

Uusi menetelmä lupaa vaihtaa suttuiset korostukset teräviin todisteisiin, jotta lääkärille näkyy täsmälleen se, mihin päätös perustui. Kuvittele rutiininen hetki sairaalassa: tietokone katsoo keuhkokuvaa, antaa tulokseksi “poikkeava” ja levittää kuvan päälle oranssin läiskän. Läiskä kertoo, että jossain siinä suunnassa oli jotain tärkeää. Mutta mitä tarkalleen? Onko ratkaisevaa pieni varjo kylkiluussa vai

By Kari Jaaskelainen
Kaksi tekoälyä voi olla reilumpi kuin yksi

Kaksi tekoälyä voi olla reilumpi kuin yksi

Tutkijoiden simuloimassa päivystyksessä oikeudenmukaisuus syntyi neuvottelusta, ei yhdestä auktoriteetista. Se haastaa tavan, jolla tekoälyä on tähän asti arvioitu ja säädelty. Kuvittele ruuhkainen päivystysilta: paikkoja on liian vähän, potilaita liikaa. Yhden älykkään järjestelmän sijaan päätöksiä valmistelee kaksi tekoälyä. Ne käyvät muutaman kierroksen keskustelun siitä, kenelle hoito kuuluu ensin ja millä perusteilla.

By Kari Jaaskelainen