Be My Eyes: Small 'eyes', big 'brain'—a modular path to multimodal AI

Share
Be My Eyes: Small 'eyes', big 'brain'—a modular path to multimodal AI

LLMs are great thinkers—but they’re mostly text-only. BeMyEyes is a new way to give them “sight” without building giant, expensive multimodal models.

  • Two agents, one goal: a lean Perceiver (vision-language model) looks at images or other formats, while a powerful Reasoner LLM thinks through the answer. They collaborate via conversation.
  • Smart training: synthetic data and supervised fine-tuning teach the Perceiver how to best brief the Reasoner.
  • Why it matters: Keeps the broad knowledge and reasoning of frontier LLMs, avoids heavy multimodal training, and makes adding new domains/modalities flexible.
  • Results: An all–open-source stack—text-only DeepSeek-R1 + Qwen2.5-VL-7B Perceiver—outperforms large proprietary systems like GPT-4o on many knowledge-heavy multimodal tasks.

BeMyEyes shows a modular, scalable path for future multimodal AI—mix and match the best “eyes” with the best “brains.”

Paper: https://arxiv.org/abs/2511.19417v1

Paper: https://arxiv.org/abs/2511.19417v1

Register: https://www.AiFeta.com

AI multimodal LLM VLM opensource ComputerVision agents DeepSeek Qwen BeMyEyes research

Read more

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Aikaleimat voivat kertoa hoitojaksoista – jos kone ymmärtää säännöt

Lääkärin työpöydällä vilisee merkintöjä: diagnoosikoodeja, laboratoriotuloksia, lääkityksen aloituksia ja lopetuksia. Kaikella on päivämäärä ja kellonaika. Silti se, mitä lääkäri oikeasti tarvitsee, on tarina: milloin sairausjakso alkoi, mitä hoitoa annettiin ja milloin se päättyi. Tietokone osaa hakea yksittäisiä rivejä nopeasti. Mutta osaako se nähdä kokonaisuuden? Tähän asti moni järjestelmä on tyytynyt

By Kari Jaaskelainen
Yhteinen sävel voi olla alue, ei lause

Yhteinen sävel voi olla alue, ei lause

Useimmat verkkoalustat kysyvät meiltä samaa kysymystä yhä uudelleen: oletko samaa vai eri mieltä? Peukku ylös, peukku alas. Silti arjessa harva mielipide tiivistyy yhteen lauseeseen. Ihmiset myös välittävät joistakin aiheista paljon, toisista vähemmän. Jos etsimme yhteistä maaperää, pitäisikö meidän etsiä sitä yksittäisten väittämien sijasta jostakin niiden väliltä? Tähän asti verkon keskustelualustoilla

By Kari Jaaskelainen