Teaching Transformers to Understand Numbers (for Real)

Teaching Transformers to Understand Numbers (for Real)

Large language models can ace math benchmarks yet still stumble on simple number sense because they treat numbers like ordinary words. This work fixes that by giving models a value-aware way to read numbers.

How it works: whenever a number appears, the input is augmented with a tiny prefix token whose embedding is conditioned on the number’s actual magnitude. That injects value information directly into the model’s input space while keeping standard tokenizers and decoder-only Transformer architectures unchanged.

  • Drop-in: no changes to tokenizers or model architecture.
  • Versatile: handles different formats (integers, decimals, scientific notation) and longer operands.
  • Effective: beats baselines on arithmetic tasks, improving basic numerical robustness.

Takeaway: when models see numbers as values—not just symbols—they make fewer math mistakes.

Paper: https://arxiv.org/abs/2601.09706

Paper: https://arxiv.org/abs/2601.09706v1

Register: https://www.AiFeta.com

AI NLP LLM Transformers Math NumericalReasoning MachineLearning arXiv

Read more

Pienet, huomaamattomat muutokset opetusdataan voivat ohjata tekoälyn käyttäytymistä

Pienet, huomaamattomat muutokset opetusdataan voivat ohjata tekoälyn käyttäytymistä

Keittiössä pieni muutos reseptiin – ripaus suolaa vähemmän tai tilkka sitruunaa enemmän – voi muuttaa ruoan luonteen. Tekoälyä opetettaessa resepti on data: kuvat, tekstit ja äänitteet, joista malli oppii. Uusi esijulkaistu tutkimus väittää, että aivan pienet, lähes huomaamattomat muokkaukset tähän aineistoon voivat riittää kääntämään mallin käytöstä haluttuun suuntaan. Moni on tottunut ajatukseen,

By Kari Jaaskelainen
Äly ei synny yhdellä äänellä: tekoäly paranee, kun se vaihtaa ajattelutapaansa kesken tehtävän

Äly ei synny yhdellä äänellä: tekoäly paranee, kun se vaihtaa ajattelutapaansa kesken tehtävän

Ihminen harvoin ratkaisee ongelman yhdellä tavalla alusta loppuun. Ensin hahmotellaan, sitten ideoidaan, sen jälkeen karsitaan ja lopuksi tehdään täsmällisesti. Tuore tekoälytutkimus väittää, että myös koneet hyötyvät tästä rytmistä. Kokoonpanopaketin avaava huomaa pian, ettei sama ote riitä joka vaiheessa. Ensin täytyy katsoa, mikä osa sopii mihin (tilan hahmottaminen). Kun jokin ei

By Kari Jaaskelainen