VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

Kari Jaaskelainen

29 Sep 2025 — 1 min read

10,497 examples, 13 tasks: a holistic yardstick for voice-first multimodal assistants.

Voice assistants are rapidly evolving into multimodal agents that must hear, speak, and see. Yet evaluation has lagged behind capability. VoiceAssistant-Eval fills this gap with a comprehensive benchmark of 10,497 curated examples across 13 task categories, spanning natural sounds, music, spoken dialogue (listening); multi-turn and role-play imitation (speaking); and heterogeneous images (viewing).

Twenty-one open-source models and GPT-4o-Audio are assessed for response content, speech quality, and cross-modal consistency. Three key findings emerge: (1) proprietary models do not universally dominate; (2) most models speak well but struggle with audio understanding; and (3) carefully designed smaller models can rival much larger ones. Notably, Step-Audio-2-mini (7B) more than doubles the listening accuracy of LLaMA-Omni2-32B-Bilingual.

The benchmark also surfaces hard problems: audio+visual joint reasoning and role-play voice imitation remain challenging. Robustness and safety alignment gaps persist, underscoring the need for evaluation that captures real-world edge cases and user expectations.

Why it matters: developers can finally compare systems apples-to-apples across modalities, pinpoint failure modes, and prioritize training investments. For product teams, VoiceAssistant-Eval provides measurable targets for improvements in listening comprehension, speech naturalness, and multimodal grounding.

Code and data will be released, creating a shared platform to drive the next generation of voice-first AI.

Paper: http://arxiv.org/abs/2509.22651v1

Register: https://www.AiFeta.com

#AI #Speech #Multimodal #Benchmark #LLM #Audio #ComputerVision

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Olet etsimässä uutta takkia verkosta. Kirjoitat hakukenttään “villakangastakki”. Ensimmäiset osumat ovat järkeviä, mutta sinä mietit: haluaisin nimenomaan tummanharmaan, polvipituisen ja arkikäyttöön sopivan. Yhtäkkiä “samanlainen takki” tarkoittaakin eri asiaa kuin hetkeä aiemmin. Silti useimmat kuvahaun ja verkkokaupan järjestelmät vertaavat kuvia toisiinsa yhden ja saman, kiveen hakatun mittarin mukaan. Perinteinen oletus on

Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Kun tekoälyn tekemät kuvat yleistyvät, pelkkä arvaus alkuperästä ei riitä. Tuoreet kokeet osoittavat, että yksinkertainen, huomaamaton vesileima voi kertoa sekä onko kuva koneella tehty että kuka sen teki. Sosiaalisen median virrassa kuva näyttää aina kuvalta: naurava hääseurue, tulviva katu, presidentti kättelemässä. Silti yhä useammin kysymys kuuluu, mistä kuva on peräisin

Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Moni tunnistaa tilanteen terveyskeskuksessa tai videopuhelussa: kysymykseen ”mitä kuuluu?” on helpompi vastata ”ihan ok” kuin kertoa oikeasti, miltä tuntuu. Häpeä, kiire ja se, että oireet ovat lopulta vain omia kokemuksia, vaikeuttavat masennuksen huomaamista – sekä potilaalta että ammattilaiselta. Yleinen ajatus on ollut, että jos tekoäly oppisi poimimaan masennuksen merkkejä puheesta, tekstistä

Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja

Koneet voivat oppia löytämään piilokuvioita, vinkata todistusten välivaiheita ja jopa keksiä yksittäisiä tapauksia, jotka kumoavat rohkeita väitteitä – ja se voi muuttaa tapaa, jolla uutta matematiikkaa syntyy. Arjessa riittää usein, että jokin toimii melkein aina. Matematiikassa yksi poikkeus riittää kaatamaan koko säännön. Jos väität, että jokaisessa bussissa on aina vapaa paikka,

Read more

Se, mitä pidämme kuvissa samanlaisena, riippuu sanoista

Näkymätön lisäys kuvaan voi kantaa pitkän viestin – ja säilyä tavallisen muokkauksen läpi

Tietokone, joka kuuntelee sanat, äänen ja ilmeet, voi kertoa myös miksi se epäilee masennusta

Keinoälystä on tulossa matemaatikon apuri, joka etsii poikkeukset ja ehdottaa polkuja