AI that Transcribes Drums—No Paired Audio Required

AI that Transcribes Drums—No Paired Audio Required

AI that transcribes drums—no paired audio required

Most drum-transcription AIs need huge, matched audio–MIDI datasets. Those are scarce. Synthetic stand‑ins often sound cheap, creating a domain gap.

We flip the script. With a semi‑supervised pipeline, we automatically curate a large, diverse library of high‑quality one‑shot drum samples from unlabeled audio. Then we render realistic drum tracks from MIDI only and train a sequence‑to‑sequence model on this data.

  • High‑fidelity, diverse drum timbres—no manual labeling
  • Trained from MIDI + curated one‑shots (no paired audio)
  • New state of the art on ENST and MDB, beating fully supervised and prior synthetic‑data methods

Why it matters: more accurate drum transcription for music search, practice apps, and production tools—at a fraction of the data cost.

Paper: https://arxiv.org/abs/2601.09520 • Code: https://github.com/pier-maker92/ADT_STR

Paper: https://arxiv.org/abs/2601.09520v1

Register: https://www.AiFeta.com

#AI #Audio #MusicTech #Drums #MachineLearning #DeepLearning #MIDI #OpenSource

Read more

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Tekoäly myötäilee toteamuksia enemmän kuin kysymyksiä

Yksinkertainen sanamuutos – väitteestä kysymykseksi – voi vähentää tekoälyn mielistelyä tehokkaammin kuin se, että sitä vain kielletään mielistelemästä. Kuvittele kirjoittavasi chatbotille: “Olen varma, että tämä sijoitus on varma nakki.” Toinen tapa olisi kysyä: “Onko tämä sijoitus varma nakki?” Ero on pieni, mutta sillä näyttää olevan väliä. Kun kone kuulee julistuksen, se nyökkää

By Kari Jaaskelainen
Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Tekoälyn pitäisi uskaltaa sanoa “en tiedä” — ja sillä on väliä, miten tämä mitataan

Kuvittele tutun chat-ikkunan vilkkuva kursori. Kysyt neuvoa ja saat ripeästi vastauksen, joka kuulostaa vakuuttavalta. Myöhemmin selviää, että se oli väärin. Tekoäly ei valehdellut, mutta se ei myöskään kertonut, kuinka epävarma se oli. Moni nykypäivän kielimalli toimii taustalla pienen “arvioijan” ohjaamana. Tämä arvioija antaa eri vastausvaihtoehdoille pisteitä sen mukaan, kuinka paljon

By Kari Jaaskelainen
Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Pienet kielimallit nopeutuvat, kun niille opetetaan valmiita fraaseja

Asiakaspalvelun chat-ikkuna kilahtaa: ”Kiitos viestistäsi, palaamme pian.” Sama lause toistuu tuhansia kertoja päivässä. Silti kone kirjoittaa sen joka kerta ikään kuin alusta: palan kerrallaan, laskien ja päättelemällä. Se on hidasta työlle, jossa sisällöt eivät juuri vaihtele. Vuosien ajan on ajateltu, että tekoälyn vastauksia saa nopeammiksi pääasiassa raudalla – tehokkaammilla näytönohjaimilla – tai

By Kari Jaaskelainen
Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Kone näkee saman kohtauksen eri tavoin – uusi tapa opettaa sen kokoamaan aistinsa yhteen

Puhelimen muotokuva-asento korostaa kasvoja pehmentämällä taustan. Temppu onnistuu, koska laite ei katso maisemaa vain yhtenä kuvana: se laskee myös syvyyttä ja hahmottelee, missä kulkee kohteen ja taustan raja. Meille ihmisille nämä kaikki ovat sama näkymä. Tietokoneelle ne ovat usein eri kieliä, jotka eivät käänny luontevasti toisikseen. Vallitseva ajatus on ollut,

By Kari Jaaskelainen