Kuvitteelliset lähdeviitteet yleistyvät huippukonferensseissa
Tuore analyysi osoittaa, että lähes 300 kielenkäsittelyn alan konferenssipaperia vuosilta 2024–2025 sisältää vähintään yhden olematonta työtä koskevan viitteen – ilmiö kasvaa nopeasti ja koettelee julkaisemisen uskottavuutta.
Moni lukija on kokenut tämän: jokin väite vaikuttaa tärkeältä, ja silmä hakeutuu alaviitteeseen. Siinä luvataan tarkka lähde – tekijät, vuosi, lehti. Kun viitettä etsii, sitä ei ole missään. Kirjaston tietokannat, hakukoneet ja julkaisijan sivut ovat hiljaa. Viite näyttää täydeltä, mutta kohdetta ei ole olemassa.
Tieteessä viite on ollut lupaus: joku on tehnyt tämän ennen, todennut jotain, mitannut, kiistänyt. Nyt tuo lupaus lipsuu yllättävällä tavalla. Viime aikoina on havaittu kasvavasti niin sanottuja hallusinoituja viitteitä – täydellisiä mutta kuvitteellisia lähdemerkintöjä, jotka eivät vastaa mitään julkaistua työtä. Kyse ei ole kirjoitusvirheestä tai väärästä sivunumerosta, vaan lähteestä, jota ei ole.
Tuore tutkimus käyttää näistä nimitystä “HalluCitation” ja tarkastelee ilmiötä järjestelmällisesti. Työ käy läpi kaikki vuosina 2024 ja 2025 julkaistut artikkelit kolmessa alan keskeisessä tapahtumassa: ACL:ssä, NAACL:ssa ja EMNLP:ssä – mukaan lukien pääkonferenssit, Findings-julkaisut ja työpajapaperit. Tulokset ovat kiusallisia: lähes 300 paperia sisältää vähintään yhden hallusinoidun viitteen. Valtaosa näistä on vuodelta 2025, ja peräti puolet tapauksista osuu EMNLP 2025 -konferenssiin. Yli sadassa tapauksessa kyse on pääkonferenssin tai Findings-julkaisun paperista. Tutkijoiden johtopäätös on suora: ilmiö uhkaa tieteellisen työn luotettavuutta ja voi horjuttaa konferenssien uskottavuutta.
Jännite on selvä. Aiemmin viiteluettelo oli paperin kiinnitys todellisuuteen: sen avulla tarkistetaan väitteet ja sijoitetaan työ osaksi yhteistä ymmärrystä. Nyt yhä useammin listassa on merkintöjä, jotka eivät johda minnekään. Eikä kyse ole marginaalista: kun tällaisia viitteitä löytyy sadoista julkaisuista ja vieläpä hyväksyttyjen pääkonferenssipaperien joukosta, kyse on systeemisestä säröstä.
Miltä hallusinoitu viite käytännössä näyttää? Kuvitellaan artikkeli, jossa väitetään “Menetelmä X on osoittautunut tehokkaaksi aiemmassa työssä (Nieminen et al., 2019)”. Lähdeluettelossa on siisti merkintä: tekijät, vuosi, lehden nimi, jopa sivunumerot. Kun viitettä kuitenkin etsii, mitään vastaavaa artikkelia ei löydy yhdestäkään tietokannasta – ei mainitulla lehdellä, ei mainittuna vuonna, ei millään nimellä. Ei ole kyse väärästä vuosiluvusta tai sekaannuksesta konferenssin ja lehden välillä, vaan lähteestä, joka on kokonaan tyhjä.
Analyysi tuo esiin kaksi huolestuttavaa piirrettä. Ensinnäkin suunta. Koska suurin osa tapauksista on vuodelta 2025 ja niistä iso osa aivan viimeisimmästä konferenssista, ongelma näyttää voimistuvan nopeasti. Toiseksi paikka. Kun hallusinoituja viitteitä on myös pääkonferenssin ja Findings-julkaisun papereissa, kyse ei ole pelkästään työpajojen marginaalista tai varhaisista luonnoksista, vaan vertaisarvioinnin läpäisseistä teksteistä.
Tutkimus toimii varoituskylttinä. Siinä, missä yksittäinen virheviite on korjattavissa, kuvitteellinen lähde rikkoo perusluottamusta: jos todisteita ei ole, mihin väite nojaa? Kun tällaisia viitteitä päätyy julkaistuihin papereihin, riski on, että seuraavat kirjoittajat toistavat niitä – eivät siksi, että olisivat huolimattomia, vaan siksi, että lähde näyttää pätevältä ja kiire painaa.
On syytä huomata rajoitukset. Tulokset koskevat kahta vuotta ja kolmea kielenkäsittelyn alan tapahtumaa. Ne kertovat tästä yhteydestä, eivät koko tiedemaailmasta. Lisäksi laskenta riippuu määritelmästä: mikä täsmälleen tulkitaan hallusinoiduksi viitteeksi? Eri tietokannat kattavat julkaisuja eri tavoin, nimet vaihtuvat, preprintit poistuvat tai päivittyvät. Tällaiseen selvitykseen sisältyy väistämättä epävarmuutta – ja toisaalta riski aliarvioida ilmiö, jos osa tapauksista jää löytymättä. Tutkimus ei myöskään punnitse, kuinka keskeisiä nämä viitteet kussakin paperissa ovat: yksittäinen sivulause on eri asia kuin keskeisen tuloksen perustelu.
Silti pääviesti on vaikea sivuuttaa. Kun lähes 300 paperissa on vähintään yksi olematon lähde ja tapaukset kasaantuvat tuoreimpaan suurkonferenssiin, ongelma ei ole satunnainen. Se on merkki siitä, että viitteiden perinteinen rooli tieteellisen keskustelun ankkurina on lipeämässä – ainakin yhdessä vilkkaimmin julkaisevista yhteisöistä.
Mitä pitäisi tehdä? Tutkimus ei tarjoa valmista reseptiä, mutta rivien välistä hahmottuu yksinkertainen ajatus: viitteitä on alettava tarkistaa järjestelmällisemmin. Kysymys kuuluu, kenen tehtävä se on. Kirjoittajien, vertaisarvioijien vai konferenssien ja julkaisijoiden, jotka voisivat ottaa käyttöön automaattisia tarkistusvaiheita? Ja kuinka pitkälle tarkistus voi mennä ilman, että se hidastaa julkaisemista kohtuuttomasti?
Kielenkäsittelyn konferenssit ovat erikoisala, mutta niiden ongelma on yleinen: tiede perustuu tarkistettavuuteen. Lähdeluettelo on sen arjen infrastruktuuria – kuin kartta, jota ilman reitti hämärtyy. Kun karttaan ilmestyy olemattomia teitä, miten varmistamme, ettei matka johda harhaan?
Paper: https://arxiv.org/abs/2601.18724v1
Register: https://www.AiFeta.com
tiede julkaiseminen viitteet tutkimusetiikka kieliteknologia