SMILE: A Smarter, Fairer Metric for Grading Q&A Systems

Share
SMILE: A Smarter, Fairer Metric for Grading Q&A Systems

How do we fairly score an AI’s answer? Old-school metrics (like ROUGE or Exact Match) reward word overlap, not understanding. LLM judges can “feel” meaning, but they’re costly, inconsistent, and can hallucinate.

Meet SMILE (Semantic Metric Integrating Lexical Exactness): a lightweight way to evaluate answers that blends three signals:

  • Sentence-level meaning (does the whole answer make sense?)
  • Keyword-level meaning (are the key ideas there?)
  • Exact keyword matches (are crucial terms correct?)

This balance captures both what is said and how precisely it’s said—something pure semantics or pure overlap can miss. Across text, image, and video question answering, SMILE aligns strongly with human judgments while staying fast and affordable to run.

Why it matters: better metrics mean more reliable benchmarks, fairer model comparisons, and faster progress—without relying on black-box LLM judges.

Paper: https://arxiv.org/abs/2511.17432v1

Paper: https://arxiv.org/abs/2511.17432v1

Register: https://www.AiFeta.com

#AI #NLP #QuestionAnswering #Evaluation #Metrics #ComputerVision #VQA #LLM #Research

Read more

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Lääkärin työpöydällä vilisee merkintöjä: diagnoosikoodeja, laboratoriotuloksia, lääkityksen aloituksia ja lopetuksia. Kaikella on päivämäärä ja kellonaika. Silti se, mitä lääkäri oikeasti tarvitsee, on tarina: milloin sairausjakso alkoi, mitä hoitoa annettiin ja milloin se päättyi. Tietokone osaa hakea yksittäisiä rivejä nopeasti. Mutta osaako se nähdä kokonaisuuden? Tähän asti moni järjestelmä on tyytynyt

By Kari Jaaskelainen
Yhteinen sävel voi olla alue, ei lause

Yhteinen sävel voi olla alue, ei lause

Useimmat verkkoalustat kysyvät meiltä samaa kysymystä yhä uudelleen: oletko samaa vai eri mieltä? Peukku ylös, peukku alas. Silti arjessa harva mielipide tiivistyy yhteen lauseeseen. Ihmiset myös välittävät joistakin aiheista paljon, toisista vähemmän. Jos etsimme yhteistä maaperää, pitäisikö meidän etsiä sitä yksittäisten väittämien sijasta jostakin niiden väliltä? Tähän asti verkon keskustelualustoilla

By Kari Jaaskelainen