Tiny Synthetic Datasets, Big Results for Vision Models

Tiny Synthetic Datasets, Big Results for Vision Models

Tiny synthetic images, big model results

Training today’s vision systems usually starts from large, self-supervised backbones. This work shows you can replace huge real datasets with a handful of smartly crafted, synthetic images—without losing performance.

The trick, called Linear Gradient Matching, distills a small set of images so that, after a frozen feature extractor, they push a linear classifier’s gradients to mimic those from the real data.

  • Optimized for linear probes on top of pre-trained models (no training from scratch).
  • Beats real-image baselines with far fewer samples.
  • Generalizes across backbones: e.g., a CLIP probe trained on a dataset distilled using a DINO model performs competitively.
  • Shines on fine-grained classification.
  • Doubles as a lens into model behavior—revealing embedding-space similarity and sensitivity to spurious correlations.

Why it matters: faster experiments, lower compute and memory, and potential privacy benefits when sharing distilled datasets instead of raw data.

Paper by George Cazenavette, Antonio Torralba, and Vincent Sitzmann. More: https://arxiv.org/abs/2511.16674

Paper: https://arxiv.org/abs/2511.16674v1

Register: https://www.AiFeta.com

#AI #ComputerVision #DatasetDistillation #SelfSupervisedLearning #MachineLearning #DeepLearning #ModelInterpretability #CLIP #DINO

Read more

Kun päällekkäisyys ei olekaan virhe: hermoverkot voivat hyödyntää “hälyä”

Kun päällekkäisyys ei olekaan virhe: hermoverkot voivat hyödyntää “hälyä”

Jos tekoäly järjestää sisäiset signaalinsa hyödyntämään sanojen yhteisesiintymiä, se voi vahvistaa oikeaa viestiä sen sijaan, että yrittäisi peittää kaiken päällekkäisyyden – ja tämä haastaa vallitsevan selitysmallin siitä, miten mallit ajattelevat. Kuvittele selaavasi reseptejä. Kun ruudulla vilahtaa “kahvi”, todennäköisesti näet pian “kupin” tai “mukin”. Me huomaamme tällaiset parit vaistonvaraisesti. Mutta mitä tapahtuu

By Kari Jaaskelainen
Synteettinen data parantaa satelliittikuvien tekoälyä, kun sisältö tarkistetaan sanoin ja kuvin

Synteettinen data parantaa satelliittikuvien tekoälyä, kun sisältö tarkistetaan sanoin ja kuvin

Kun kuvan piirteet nimetään ja kuvataan sanallisesti, tekoälyn harjoittamiseen luotu aineisto muuttuu ymmärrettäväksi – ja toimii paremmin kuin pelkkä oikea data yksinään. Kun avaa karttasovelluksen satelliittinäkymän, näkee ylhäältäpäin asioita, joita maan tasalla harvoin ajattelee: teiden suoruuden, jokien kiemurat, pellonlaidat, jotka asettuvat kuin palapelin palat. Juuri tällaisia kuvia koneoppimismallit yrittävät tulkita. Ne

By Kari Jaaskelainen
Huipputulokset koetesteissä eivät vielä todista aidosta päättelystä

Huipputulokset koetesteissä eivät vielä todista aidosta päättelystä

Kuvittele, että sinulle annetaan ohjelmointikirja kielellä, jota et ole koskaan nähnyt. Selailisit dokumentaatiota, kokeilisit esimerkkejä ja muuttaisit koodia, kunnes se toimii. Ihminen oppii näin varsin nopeasti uuden kielen alkeet. Mutta osaavatko myös tekoälymallit oppia uutta näin, vai toistavatko ne lähinnä asioita, joita ovat aiemmin nähneet? Viime vuosina suuret kielimallit ovat

By Kari Jaaskelainen
Tekoäly oppii katsomaan kuvia myös vietnamiksi, kun data ja mittarit päivitetään

Tekoäly oppii katsomaan kuvia myös vietnamiksi, kun data ja mittarit päivitetään

Matkalla otettu kuva torilta: muovipussissa vilahtaa keltainen hedelmä, ja joku kysyy puhelimelta vietnamin kielellä, mitä nainen pitää kädessään. Usein vastausta ei tule. Monelle kielelle tekoäly on oppinut puhumaan, mutta näkeminen ja vastaaminen yhtä aikaa on ollut pitkälti englannin varassa. Jo pitkään on ajateltu, että kunhan kielimalli on riittävän vahva, se

By Kari Jaaskelainen