Teaching AI What We Like—Faster and Smarter

Share
Teaching AI What We Like—Faster and Smarter

Getting AI to reflect human preferences usually means showing it lots of examples—which is slow and costly. This paper proposes a smarter path: combine the scale of RLHF (used to tune large language models) with the efficiency of Bayesian preference optimization (PBO), which actively chooses the most informative questions to ask.

  • What’s new: An acquisition-driven module slots into the RLHF pipeline, so the system asks better “Which do you prefer?” questions instead of random ones.
  • Why it matters: Fewer labels, faster learning, and better alignment with human judgments.
  • Tested on: (i) complex preference optimization tasks and (ii) fine-tuning large language models.
  • Results: Consistent gains in sample efficiency and overall performance across both settings.

Think of it like training a chef: instead of making you taste every dish, they quickly learn by asking the few questions that reveal your tastes fastest.

Paper: Efficient Reinforcement Learning from Human Feedback via Bayesian Preference Inference (Cercola, Capretti, Formentin). Read more: http://arxiv.org/abs/2511.04286v1

Paper: http://arxiv.org/abs/2511.04286v1

Register: https://www.AiFeta.com

AI MachineLearning ReinforcementLearning RLHF ActiveLearning Bayesian LLM HumanFeedback Research SampleEfficiency

Read more

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Uusi vertailu näyttää, että tekoälyn tapa muotoilla järjestelmävaatimuksia luonnollisen kielen kysymyksiksi vaihtelee mallin ja aiheen mukaan. Siksi tärkeintä ei ole valita ”parasta” mallia, vaan tilanteeseen sopiva. Kuvitellaan tuttu kokous: pöydän ääressä yritetään päättää, mitä uuden tietojärjestelmän pitää pystyä tekemään. Syntyy lista kysymyksiä, joihin järjestelmän on osattava vastata. Esimerkiksi: ”Mitkä lääkkeet

By Kari Jaaskelainen
Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Kun tutkija jättää työpöytänsä, hänen äänensä ei välttämättä vaikene. Pelkistä julkaisuista voidaan jo rakentaa tekoäly, joka ohjaa väitöskirjaa, arvioi artikkeleita ja väittelee paneelissa – uskottavasti. Useimmat meistä ajattelevat tutkimusartikkeleita kirjastoiksi: hyllyriveiksi ajatuksia, joihin muut voivat palata. Uusi arXivissa julkaistu esityspaperi ehdottaa toisenlaista kuvaa. Julkaisut ovatkin rakennuspiirustuksia, joista voidaan koota tekijänsä ajattelutapa

By Kari Jaaskelainen
Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Moni tietää tunteen seminaarin päätteeksi: ohjelma oli kiinnostava, mutta kuka päätti, mistä puhuttiin ja mistä ei? Usein vastaus on pieni ohjelmakomitea, joka tekee valinnat ennakkoon. Yleisö kuuntelee, harva vaikuttaa. Eräässä tekoälyn yhteiskunnallisia vaikutuksia käsittelevässä kansainvälisessä konferenssissa kokeiltiin toisenlaista tapaa. Osallistujat eivät vain tulleet paikalle – he auttoivat muokkaamaan itse tilaisuuden suuntaa.

By Kari Jaaskelainen