Autocomplete That Sees What You See (Router-Suggest)

Kari Jaaskelainen

12 Jan 2026 — 1 min read

What’s the big idea?

Today’s autocomplete guesses from text alone. The authors add visual context—images, screenshots, shared canvases—so assistants can predict what you’ll type next more accurately in live chats.

How it works

MAC: a new task that completes characters using partial text + visuals.
New benchmarks adapted from MMDialog and ImageChat.
Router-Suggest: a controller that routes each keystroke to either a fast text model or a vision-language model; includes a lightweight version for tight compute.

Why it matters

2.3×–10× faster than the best vision-language model, with strong accuracy.
User study: multimodal models save typing and boost satisfaction in multi-turn chats.

Think smarter design tools, more helpful healthcare chats, and assistants that truly see your context.

Paper: https://arxiv.org/abs/2601.05851v1

Paper: https://arxiv.org/abs/2601.05851v1

Register: https://www.AiFeta.com

#AI #Autocomplete #Multimodal #VisionLanguage #Chatbots #HumanComputerInteraction #UIUX #HealthcareTech #DesignTools #NLP

Autocomplete That Sees What You See (Router-Suggest)

Kari Jaaskelainen

What’s the big idea?

How it works

Why it matters

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen