Tekoäly voi muuttaa päiväkotien laatua koskevan seurannan harvoista pistotarkastuksista jatkuvaksi arjeksi
Kiinalaisissa päiväkodeissa testattu kielimallipohjainen apuri löysi ihmisarvioijien kanssa jopa 88-prosenttisen yksimielisyyden ja nopeutti työtä moninkertaisesti.
Aamupiiri alkaa. Opettaja kyselee viikonloppukuulumisia, lapset kertovat kilpaa, joku muistaa kirjan, jonka eilen luki. Juuri tällaisissa hetkissä syntyy se, mistä varhaiskasvatuksessa paljon puhutaan mutta harvoin mitataan: vuorovaikutuksen laatu. Kuinka opettaja tarttuu lapsen ajatukseen, millaisia kysymyksiä hän esittää, saavatko kaikki äänensä kuuluviin?
Tähän asti moni maa on luottanut pistotarkastuksiin. Asiantuntija vierailee luokassa kerran vuodessa, tekee muistiinpanoja ja antaa arvosanan. Ongelmana on, että arki elää. Yhden päivän perusteella on vaikea sanoa, miten luokassa sujuu muina viikkoina – tai milloin tukea tarvitaan.
Kiina tekee mittakaavan selväksi. Maassa on yli 250 000 päiväkotia ja 36 miljoonaa lasta. Koko järjestelmän säännöllinen, ihmistyöhön perustuva havainnointi on käytännössä mahdotonta. Siksi ehdotus, että tekoäly voisi toimia arviointityön apurina, on kiinnostava – ja herättää kysymyksiä.
ArXiv-palvelussa julkaistu tutkimus tarjoaa tähän ensimmäisiä, käytännönläheisiä vastauksia. Ryhmä kiinalaisia tutkijoita keräsi 370 tuntia aineistoa opettajien ja lasten luonnollisista kohtaamisista 105 luokassa. Aineisto arvioitiin etukäteen vakiintuneiden laatukriteerien mukaan, jotta oli mittatikku, johon tekoälyn tuottamia havaintoja voi verrata.
Tutkijat rakensivat erikoistetun järjestelmän, joka pohjautuu niin sanottuihin suuriin kielimalleihin – tekoälyyn, joka on opetettu lukemaan ja tuottamaan tekstiä. Tässä tapauksessa malli saa syötettä luokkahuoneen keskusteluista ja yrittää tehdä niistä jäsenneltyjä havaintoja samoin periaattein kuin ihmisen käyttämä arviointilista. Jotta se onnistuisi, järjestelmään lisättiin arjen ongelmiin vastaavia parannuksia: lapsen puheen tunnistus on vaikeaa, mandariinikiinan samankuuloiset sanat voivat johtaa harhaan, ja kriteeristöissä käytetyt käsitteet pitää osata tulkita käytännön esimerkeiksi.
Tulos: ihmisarvioijien ja tekoälyn arviot osuivat yksiin parhaimmillaan 88 prosentissa tapauksista. Kun järjestelmää kokeiltiin käytännön työvirrassa 43 luokassa, arviointiin kuluva aika lyheni jopa kahdeksastoistaosaan aiemmasta. Ajatus siirtymästä vuosittaisista pistotarkastuksista kuukausittaiseen, tekoälyn tukemaan seurantaan ei siksi näytä enää utopialta – tosin ihmisen harkinta säilyy osana prosessia.
Mitä tämä tarkoittaisi arjessa? Yksi esimerkki: järjestelmä voi tunnistaa, kuinka tasaisesti puheenvuorot jakautuvat opettajan ja lasten välillä. Se voi myös huomata, palaako aikuinen lasten esiin nostamiin ideoihin vai pyöriikö keskustelu valmiiden vastausten ympärillä. Tällaiset huomiot on mahdollista tiivistää vihjeiksi, jotka ohjaavat opettajaa: jatka tätä, kokeile tuota. Matematiikkaa ei tarvita, vaan kyse on samasta periaatteesta, jota kokeneet havainnoijat käyttävät – vain useammin ja kevyemmin.
On kuitenkin syytä hengittää rauhallisesti. Ensinnäkin 88 prosenttia ei ole sata. Neljännesluokan arvioinneissa jokainen väärä tulkinta voi tuntua epäreilulta, etenkin jos seuranta vaikuttaa opettajan tukeen, koulutukseen tai maineeseen. Tutkijat kuvaavatkin ratkaisua ”arviointitiimikaveriksi”, eivät korvaajaksi: ihminen päättää, tekoäly seuloo ja jäsentää.
Toiseksi, järjestelmä on testattu Kiinan päiväkodeissa ja mandariinikiinaksi. Kieli vaikuttaa suoraan siihen, mitä algoritmi kuulee ja ymmärtää, ja kulttuuri siihen, mitä pidetään hyvänä vuorovaikutuksena. Se, mikä toimii Shanghaissa, ei välttämättä toimi Savonlinnassa ilman muutoksia – eikä niin pitäisikään. Tästä huolimatta perusidea, arjen vuorovaikutuksen säännöllinen ja kevyt mittaaminen, voi kiinnostaa myös muualla.
Kolmanneksi, arki on meluisa. Lapsi mutisee, toinen puhuu päälle, taustalla kolisee. Tutkijat ovat ottaneet tätä huomioon säätämällä järjestelmää lapsen puheelle ja kielen harhoille, mutta virheet eivät katoa kokonaan. Käytännössä se tarkoittaa, että tallenteiden laatuun ja tietosuojaan on kiinnitettävä erityistä huomiota: kuka saa kuunnella, missä ja mihin tarkoitukseen.
Entä mitä jatkuva seuranta tekee työkulttuurille? Paras versio tästä tarinasta sanoo, että se vapauttaa asiantuntijoiden aikaa kehityskeskusteluihin, vertaisoppimiseen ja täsmävalmennukseen. Huonompi versio pelkää, että numeroista tulee itsetarkoitus ja luovuus kärsii. Tutkimus ei ratkaise tätä jännitettä, mutta tarjoaa aineiston ja välineen kokeilla, mitä tapahtuu, kun dataa kertyy useammin ja sitä tulkitaan ihmisen kanssa, ei ihmisen sijasta.
Jos tekoäly pystyy jo nyt jäsentämään päiväkodin arjen kohtalaisella varmuudella ja moninkertaisella nopeudella, seuraava kysymys kuuluu: mihin suuntaan sitä käytetään? Voiko se tehdä laadusta näkyvää tavalla, joka tukee sekä lapsia että opettajia – vai kääntyykö katse liiaksi mittaamiseen? Vastaus ei löydy yhdestä algoritmista vaan siitä, millaisen tehtävän me ihmiset sille annamme.
Paper: https://arxiv.org/abs/2603.24389v1
Register: https://www.AiFeta.com
varhaiskasvatus tekoäly koulutus Kiina arviointi kielimallit