Hidden Winning Tickets in Transformer Attention

Share
Hidden Winning Tickets in Transformer Attention

Ever heard of the “lottery ticket” idea in AI? It says big neural nets hide small subnetworks that can perform just as well. This paper proves a strong version of that for the heart of Transformers: multi-head attention (MHA).

  • The big claim: Inside a randomly initialized MHA, there exists a small subnetwork that can closely imitate any MHA with the same input size—provided the hidden size is large enough (grows with input dimension and number of heads).
  • Beyond attention: Using this result, the authors extend the strong lottery ticket theory to entire Transformers without normalization layers.
  • Evidence: Experiments show the approximation error shrinks exponentially as the hidden size increases.

Why it matters: if “winning tickets” are guaranteed to exist in attention, we can prune or sparsely train large models more confidently, aiming for smaller, faster, and cheaper Transformers without sacrificing accuracy.

Paper: http://arxiv.org/abs/2511.04217v1

Paper: http://arxiv.org/abs/2511.04217v1

Register: https://www.AiFeta.com

AI MachineLearning Transformers DeepLearning NeuralNetworks EfficientAI ModelCompression Research

Read more

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Lääkärin työpöydällä vilisee merkintöjä: diagnoosikoodeja, laboratoriotuloksia, lääkityksen aloituksia ja lopetuksia. Kaikella on päivämäärä ja kellonaika. Silti se, mitä lääkäri oikeasti tarvitsee, on tarina: milloin sairausjakso alkoi, mitä hoitoa annettiin ja milloin se päättyi. Tietokone osaa hakea yksittäisiä rivejä nopeasti. Mutta osaako se nähdä kokonaisuuden? Tähän asti moni järjestelmä on tyytynyt

By Kari Jaaskelainen
Yhteinen sävel voi olla alue, ei lause

Yhteinen sävel voi olla alue, ei lause

Useimmat verkkoalustat kysyvät meiltä samaa kysymystä yhä uudelleen: oletko samaa vai eri mieltä? Peukku ylös, peukku alas. Silti arjessa harva mielipide tiivistyy yhteen lauseeseen. Ihmiset myös välittävät joistakin aiheista paljon, toisista vähemmän. Jos etsimme yhteistä maaperää, pitäisikö meidän etsiä sitä yksittäisten väittämien sijasta jostakin niiden väliltä? Tähän asti verkon keskustelualustoilla

By Kari Jaaskelainen