Can AI Spot Nonsense in Pictures? Meet UAIT

Share
Can AI Spot Nonsense in Pictures? Meet UAIT

Can AI spot nonsense in pictures?

Humans can tell that “A sandwich cuts a chef” is grammatically fine but semantically absurd. Many vision-language models (VLMs) can’t. UAIT (Uncommon-sense Action Image-Text) is a new benchmark that stress-tests whether VLMs truly understand who is doing what to whom—and what’s physically possible.

  • Synthesized uncommon action scenes via large language models, prompt engineering, and text-to-image tools.
  • Each image–caption pair comes with a carefully designed multiple-choice question for fine-grained reasoning.
  • Evaluated state-of-the-art VLMs against humans and contrastive baselines.

Findings: All models trail humans by a wide margin, especially when distinguishing grammatical correctness from real-world plausibility. Yet even lightweight models improve notably with targeted fine-tuning—showing strong potential for directional adaptation.

Why it matters: Beyond pattern-matching, next-gen AI must build real visual semantic reasoning. UAIT is both a diagnostic tool and a roadmap for training more robust, commonsense-aware systems.

Paper: https://arxiv.org/abs/2601.07737v1 — by Chen Ling and Nai Ding.

Paper: https://arxiv.org/abs/2601.07737v1

Register: https://www.AiFeta.com

AI ComputerVision VLM MachineLearning Commonsense Dataset Benchmark Research

Read more

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Uusi vertailu näyttää, että tekoälyn tapa muotoilla järjestelmävaatimuksia luonnollisen kielen kysymyksiksi vaihtelee mallin ja aiheen mukaan. Siksi tärkeintä ei ole valita ”parasta” mallia, vaan tilanteeseen sopiva. Kuvitellaan tuttu kokous: pöydän ääressä yritetään päättää, mitä uuden tietojärjestelmän pitää pystyä tekemään. Syntyy lista kysymyksiä, joihin järjestelmän on osattava vastata. Esimerkiksi: ”Mitkä lääkkeet

By Kari Jaaskelainen
Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Kun tutkija jättää työpöytänsä, hänen äänensä ei välttämättä vaikene. Pelkistä julkaisuista voidaan jo rakentaa tekoäly, joka ohjaa väitöskirjaa, arvioi artikkeleita ja väittelee paneelissa – uskottavasti. Useimmat meistä ajattelevat tutkimusartikkeleita kirjastoiksi: hyllyriveiksi ajatuksia, joihin muut voivat palata. Uusi arXivissa julkaistu esityspaperi ehdottaa toisenlaista kuvaa. Julkaisut ovatkin rakennuspiirustuksia, joista voidaan koota tekijänsä ajattelutapa

By Kari Jaaskelainen
Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Moni tietää tunteen seminaarin päätteeksi: ohjelma oli kiinnostava, mutta kuka päätti, mistä puhuttiin ja mistä ei? Usein vastaus on pieni ohjelmakomitea, joka tekee valinnat ennakkoon. Yleisö kuuntelee, harva vaikuttaa. Eräässä tekoälyn yhteiskunnallisia vaikutuksia käsittelevässä kansainvälisessä konferenssissa kokeiltiin toisenlaista tapaa. Osallistujat eivät vain tulleet paikalle – he auttoivat muokkaamaan itse tilaisuuden suuntaa.

By Kari Jaaskelainen