Molmo2: Open Video-Language AI with Pixel-Level Grounding

Kari Jaaskelainen

16 Jan 2026 — 1 min read

Most top video AIs are locked up. Molmo2 opens the door: open weights and open datasets, built to understand videos and ground that understanding by pointing to and tracking objects in the pixels.

Data you can build on: 7 new video datasets and 2 multi-image sets, including rich video captions, free-form video Q&A, complex object tracking, and a new video pointing set, all collected without closed models.
Training recipe: efficient sequence packing, message-tree encoding, bi-directional attention over vision tokens, and a novel token-weighting strategy.
Results: the 8B Molmo2 leads open models on short-video understanding, counting, and captioning, and is competitive on long videos.
Grounding wins: beats open models like Qwen3-VL on video counting (35.5 vs 29.6), and surpasses Gemini 3 Pro on some tasks (video pointing F1: 38.4 vs 20.0; video tracking J&F: 56.2 vs 41.1).

Why it matters: developers and researchers finally get transparent, high-quality building blocks for video-language systems that not only describe what is happening, but can show you where it happens. Paper: https://arxiv.org/abs/2601.10611v1

Paper: https://arxiv.org/abs/2601.10611v1

Register: https://www.AiFeta.com

AI OpenSource VisionLanguage VideoUnderstanding MachineLearning ComputerVision VLM Research Molmo2 Grounding Tracking Datasets

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen