Beyond URLs: Metadata That Makes LLMs Train Faster

Share
Beyond URLs: Metadata That Makes LLMs Train Faster

Smarter LLMs, Faster—thanks to metadata

What if training a large language model didn't just rely on text, but on the context around it? This study shows that adding fine-grained metadata—not just URLs—can meaningfully speed up pretraining and improve quality.

  • Beyond URLs: detailed quality signals (e.g., source reliability or cleanliness) work best—especially when prepended to the text.
  • New trick: append metadata and have the model predict it as an auxiliary task; this boosts efficiency too.
  • No labels? Use learnable meta-tokens trained with masked loss to induce quality-aware structure and recover part of the speedup.

Why it matters: richer, well-placed metadata helps models learn what to trust and what to focus on—cutting compute while maintaining or improving capability.

Takeaway: prefer finer-granularity metadata and thoughtful placement (prepend or append+predict). Probing confirms these signals shape the model’s internal representations.

Paper: https://arxiv.org/abs/2511.21613v1

Paper: https://arxiv.org/abs/2511.21613v1

Register: https://www.AiFeta.com

#AI #LLM #MachineLearning #NLP #DataQuality #Pretraining #Efficiency #DeepLearning

Read more

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Lääkärin työpöydällä vilisee merkintöjä: diagnoosikoodeja, laboratoriotuloksia, lääkityksen aloituksia ja lopetuksia. Kaikella on päivämäärä ja kellonaika. Silti se, mitä lääkäri oikeasti tarvitsee, on tarina: milloin sairausjakso alkoi, mitä hoitoa annettiin ja milloin se päättyi. Tietokone osaa hakea yksittäisiä rivejä nopeasti. Mutta osaako se nähdä kokonaisuuden? Tähän asti moni järjestelmä on tyytynyt

By Kari Jaaskelainen
Yhteinen sävel voi olla alue, ei lause

Yhteinen sävel voi olla alue, ei lause

Useimmat verkkoalustat kysyvät meiltä samaa kysymystä yhä uudelleen: oletko samaa vai eri mieltä? Peukku ylös, peukku alas. Silti arjessa harva mielipide tiivistyy yhteen lauseeseen. Ihmiset myös välittävät joistakin aiheista paljon, toisista vähemmän. Jos etsimme yhteistä maaperää, pitäisikö meidän etsiä sitä yksittäisten väittämien sijasta jostakin niiden väliltä? Tähän asti verkon keskustelualustoilla

By Kari Jaaskelainen