Making LLMs Faster: Fix Memory and Interconnect, Not Just Compute

Share
Making LLMs Faster: Fix Memory and Interconnect, Not Just Compute

Why running LLMs is hard (and how hardware can help)

Large language models don't just need fast math—they need to fetch and share enormous amounts of data, one token at a time. In inference, the autoregressive "decode" phase dominates, making memory and interconnect, not compute, the true bottlenecks.

  • Trend headwinds: Bigger models, longer context windows, and limited batching all amplify memory pressure and communication costs.
  • What could fix it:
  • High-Bandwidth Flash: ~10× more memory capacity with HBM-like bandwidth to keep models close to the chips.
  • Processing-Near-Memory and 3D memory–logic stacking: bring simple operations to the data and boost on-package bandwidth.
  • Low-latency interconnects: faster links across accelerators and servers to reduce waiting during decode.

The paper focuses on datacenters, with lessons that can extend to mobile devices as on‑device AI grows.

Bottom line: To make LLMs faster, cheaper, and greener, prioritize memory and networking innovations over more compute.

Paper by Xiaoyu Ma and David Patterson: https://arxiv.org/abs/2601.05047

Paper: https://arxiv.org/abs/2601.05047v1

Register: https://www.AiFeta.com

#AI #LLM #Hardware #Datacenter #Semiconductors #Memory #Interconnect #EdgeAI

Read more

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Uusi vertailu näyttää, että tekoälyn tapa muotoilla järjestelmävaatimuksia luonnollisen kielen kysymyksiksi vaihtelee mallin ja aiheen mukaan. Siksi tärkeintä ei ole valita ”parasta” mallia, vaan tilanteeseen sopiva. Kuvitellaan tuttu kokous: pöydän ääressä yritetään päättää, mitä uuden tietojärjestelmän pitää pystyä tekemään. Syntyy lista kysymyksiä, joihin järjestelmän on osattava vastata. Esimerkiksi: ”Mitkä lääkkeet

By Kari Jaaskelainen
Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Kun tutkija jättää työpöytänsä, hänen äänensä ei välttämättä vaikene. Pelkistä julkaisuista voidaan jo rakentaa tekoäly, joka ohjaa väitöskirjaa, arvioi artikkeleita ja väittelee paneelissa – uskottavasti. Useimmat meistä ajattelevat tutkimusartikkeleita kirjastoiksi: hyllyriveiksi ajatuksia, joihin muut voivat palata. Uusi arXivissa julkaistu esityspaperi ehdottaa toisenlaista kuvaa. Julkaisut ovatkin rakennuspiirustuksia, joista voidaan koota tekijänsä ajattelutapa

By Kari Jaaskelainen
Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Moni tietää tunteen seminaarin päätteeksi: ohjelma oli kiinnostava, mutta kuka päätti, mistä puhuttiin ja mistä ei? Usein vastaus on pieni ohjelmakomitea, joka tekee valinnat ennakkoon. Yleisö kuuntelee, harva vaikuttaa. Eräässä tekoälyn yhteiskunnallisia vaikutuksia käsittelevässä kansainvälisessä konferenssissa kokeiltiin toisenlaista tapaa. Osallistujat eivät vain tulleet paikalle – he auttoivat muokkaamaan itse tilaisuuden suuntaa.

By Kari Jaaskelainen