DeepEyesV2: Teaching AI to Use Tools

Share
DeepEyesV2: Teaching AI to Use Tools

AI that sees, thinks—and uses tools

Meet DeepEyesV2, a multimodal “agentic” model that doesn’t just read text and look at images—it can call external tools like code runners and web search, then weave the results into its reasoning.

Key ideas:

  • Two-stage training: a cold-start phase teaches basic tool-use patterns; reinforcement learning then refines when and how to invoke tools.
  • Curated data that rewards tool use, not just perception—so the model learns when tools actually help.
  • RealX-Bench: a new benchmark that tests real-world multimodal reasoning requiring perception, search, and logic.

What they found: direct reinforcement learning wasn’t enough to spark reliable tool use. The two-stage pipeline led to task-adaptive behavior—image operations for perception tasks, calculators/code for math and logic—and enabled more complex, context-aware tool chains.

Results: DeepEyesV2 performs well on RealX-Bench and other benchmarks spanning real-world understanding, mathematical reasoning, and search-heavy tasks.

By Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu. Paper: http://arxiv.org/abs/2511.05271v1

Paper: http://arxiv.org/abs/2511.05271v1

Register: https://www.AiFeta.com

ai multimodal agentic tooluse reinforcementlearning computervision llm benchmarks research

Read more

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Kielimallit tekevät vaatimuskysymyksiä eri tyyleillä – ja tyyli riippuu käyttötarkoituksesta

Uusi vertailu näyttää, että tekoälyn tapa muotoilla järjestelmävaatimuksia luonnollisen kielen kysymyksiksi vaihtelee mallin ja aiheen mukaan. Siksi tärkeintä ei ole valita ”parasta” mallia, vaan tilanteeseen sopiva. Kuvitellaan tuttu kokous: pöydän ääressä yritetään päättää, mitä uuden tietojärjestelmän pitää pystyä tekemään. Syntyy lista kysymyksiä, joihin järjestelmän on osattava vastata. Esimerkiksi: ”Mitkä lääkkeet

By Kari Jaaskelainen
Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Julkaistu ajattelu voidaan jo purkaa tekoälyksi

Kun tutkija jättää työpöytänsä, hänen äänensä ei välttämättä vaikene. Pelkistä julkaisuista voidaan jo rakentaa tekoäly, joka ohjaa väitöskirjaa, arvioi artikkeleita ja väittelee paneelissa – uskottavasti. Useimmat meistä ajattelevat tutkimusartikkeleita kirjastoiksi: hyllyriveiksi ajatuksia, joihin muut voivat palata. Uusi arXivissa julkaistu esityspaperi ehdottaa toisenlaista kuvaa. Julkaisut ovatkin rakennuspiirustuksia, joista voidaan koota tekijänsä ajattelutapa

By Kari Jaaskelainen
Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Konferenssien suunta ei ole pakko syntyä suljettujen ovien takana

Moni tietää tunteen seminaarin päätteeksi: ohjelma oli kiinnostava, mutta kuka päätti, mistä puhuttiin ja mistä ei? Usein vastaus on pieni ohjelmakomitea, joka tekee valinnat ennakkoon. Yleisö kuuntelee, harva vaikuttaa. Eräässä tekoälyn yhteiskunnallisia vaikutuksia käsittelevässä kansainvälisessä konferenssissa kokeiltiin toisenlaista tapaa. Osallistujat eivät vain tulleet paikalle – he auttoivat muokkaamaan itse tilaisuuden suuntaa.

By Kari Jaaskelainen