Väitös: Tekoäly löytää järjestyksen historiallisesta kielestä, vaikka aineisto olisi täynnä virheitä
Väitöskirjatutkija FM Liina Revon digitaalisen humanismin tutkimus tarjoaa konkreettisia uusia työkaluja vanhojen tekstien ymmärtämiseen. Koneoppimisen avulla voidaan erottaa toisistaan esimerkiksi kirjeet, oikeustapaukset ja esseet historiallisissa aineistoissa käytännön tutkimustyöhön soveltuvalla tavalla.

Tutkimuksessa selvisi, että koneoppimismallit oppivat tunnistamaan erilaisia tekstilajeja niiden kielellisten piirteiden perusteella. Tekoäly siis löytää järjestyksen historiallisesta kielestä.
Esimerkiksi kirjeiden henkilökohtainen ja puhutteleva sävy erottuu mallille selvästi, kun taas oikeustapaukset tunnistetaan muodollisesta rakenteestaan ja vakiintuneista ilmaisuista.
Erityisen kiinnostavaa Revon mukaan on se, että tekstilajin tunnistamiseen riittää usein vain tekstin alku. Jo ensimmäiset kappaleet voivat paljastaa, onko kyse yksityisestä kirjeestä, virallisesta asiakirjasta vai esseemäisestä tekstistä.
– On yllättävää, kuinka paljon tietoa tekstilajista on luettavissa heti tekstin alusta jopa silloin, kun aineisto on vanhaa ja täynnä digitointivirheitä.
Kaikki tekstit eivät kuitenkaan ole yhtä helppoja. Selkeät tekstilajit tekoäly tunnistaa parhaiten, kun taas eri tekstilajien piirteitä yhdistelevät tekstit tuottavat enemmän virheitä. Näiden tapausten tarkastelu auttaa hahmottamaan mallien toiminnan rajoja ja sitä, millaiset piirteet jäävät koneelle vaikeiksi.
Tutkimuksessa tarkastellaan myös sitä, miksi koneoppimismallit tekevät tiettyjä virheitä. Selitysmenetelmien avulla on mahdollista nähdä, mihin sanoihin ja rakenteisiin mallit todella kiinnittävät huomiota.
– Mallien ymmärtämien on tärkeää, jotta niitä voidaan käyttää luotettavasti myös humanistisessa tutkimuksessa.
Käytännön hyötyjä tutkimukselle ja arkistoille
Tutkimus tarjoaa konkreettisia uusia työkaluja suurten historiallisten tekstiaineistojen käsittelyyn.
Koneoppimisen avulla tekstikokoelmia voidaan rikastaa automaattisesti tekstilajitiedolla, mikä helpottaa tutkijoiden työtä ja avaa uusia näkökulmia kielen ja tekstien historiaan.
– Tuloksia voidaan hyödyntää esimerkiksi historiallisessa kielentutkimuksessa ja oikeushistorian parissa, joissa tekstilajien tunnistaminen auttaa hahmottamaan, millaisia asiakirjoja eri aikoina on tuotettu ja mihin tarkoitukseen, Repo sanoo.
Tutkimus sijoittuu digitaalisen humanismin kenttään, jossa teknologiaa hyödynnetään ihmistieteellisissä kysymyksissä. Väitöskirja tuo uutta tietoa erityisesti siitä, miten koneoppimisen menetelmät toimivat historiallisissa aineistoissa ja mitä ne pystyvät kertomaan menneisyyden kielestä ja sen vaihtelusta eri tekstiyhteyksissä.
FM Liina Repo esittää väitöskirjansa ”Machine Learning in Modeling Historical Registers - A New Perspective to Text Linguistics” julkisesti tarkastettavaksi Turun yliopistossa perjantaina 30.1.2026 klo 12.00 (Turun yliopisto, Publicum, Pub2-luentosali, Assistentinkatu 7, Turku). Vastaväittäjänä toimii apulaisprofessori Daniel Keller (Western Kentucky University, Yhdysvallat) ja kustoksena professori Veronika Laippala (Turun yliopisto). Tilaisuus on englanninkielinen. Väitöksen alana on digitaalinen kielentutkimus.
Yleisön on mahdollista osallistua väitökseen etäyhteydellä Väitöskirja Turun yliopiston julkaisujärjestelmässä
Avainsanat
Yhteyshenkilöt
Liina RepoVäitöskirjatutkija
liina.t.repo@utu.fiwww.utu.fi/fi/ihmiset/liina-repoMediapalveluarkisin klo 9-15
Puh:+358 50 567 7197viestinta@utu.fiwww.utu.fi/medialleKuvat

Turun yliopisto on 25 000 opiskelijan ja työntekijän innostava ja kansainvälinen akateeminen yhteisö. Rakennamme kestävää tulevaisuutta monitieteisellä tutkimuksella, koulutuksella ja yhteistyöllä.
Tilaa tiedotteet sähköpostiisi
Haluatko tietää asioista ensimmäisten joukossa? Kun tilaat tiedotteemme, saat ne sähköpostiisi välittömästi julkaisuhetkellä. Tilauksen voit halutessasi perua milloin tahansa.
Lue lisää julkaisijalta Turun yliopisto
Tutkijat etsivät keinoja Suomen innovaatioparadoksin ratkaisemiseksi26.1.2026 12:30:00 EET | Tiedote
Suomessa on huipputason osaamista, vahvaa koulutusta ja mittavia TKI-panostuksia – mutta silti kestävää talouskasvua ei synny. Tutkijat haluavat ratkaista tämän ristiriidan, jota kutsutaan Suomen innovaatioparadoksiksi. Median edustajat ovat tervetulleita Helsingissä järjestettävään sidosryhmätilaisuuteen torstaina 29.1.2026.
Turun yliopisto vahvistaa luonnon monimuotoisuuteen liittyvää toimintaa perustamalla Suomen ensimmäisen biodiversiteettitieteiden laitoksen26.1.2026 11:25:16 EET | Tiedote
Turun yliopisto on ollut luonnon monimuotoisuuden tutkimuksen edelläkävijä 1990-luvulta lähtien. Tänä vuonna yliopisto vahvistaa tieteenalaa, kun yliopiston biodiversiteettiyksikkö laajentaa toimintaansa ja muuttuu Suomen ensimmäiseksi biodiversiteettitieteiden laitokseksi 1.4.2026 alkaen. Laitoksen tavoitteena on perustutkimuksen rinnalla lisätä tutkimuksen monitieteisyyttä, laajentaa biodiversiteettitieteiden opetusta sekä vahvistaa yhteiskunnallista vaikuttavuutta.
Tutkijat kehittävät uusia fermentoituja kasvisruokaratkaisuja – Business Finlandilta tutkimusprojektille 1,5 miljoonan euron rahoitus26.1.2026 09:00:00 EET | Tiedote
Turun yliopiston johtamassa tutkimuksessa kehitetään keinoja valmistaa alihyödynnetyistä raaka-aineista uusia kasviperäisiä fermentoituja elintarvikeratkaisuja, jotka ovat turvallisia, maukkaita, terveellisiä ja vatsaystävällisiä.
Turun yliopiston kansainvälisiin tutkinto-ohjelmiin noin 3900 hakijaa – hakijamäärissä odotettua laskua merkittävien muutosten myötä22.1.2026 15:25:52 EET | Tiedote
Kevään 2026 ensimmäisessä yhteishaussa Turun yliopiston kansainvälisiin kandidaatti- ja maisteriohjelmiin jätettiin noin 4700 hakemusta.
Esteettömyyttä, itsenäisyyttä ja ihmissuhteita – turvallisuus kotona on iäkkäiden kotihoidon asiakkaiden mielestä monen asian summa22.1.2026 08:30:00 EET | Tiedote
Turun yliopiston hoitotieteen laitoksen tutkimuksessa selvitettiin iäkkäiden kotihoidon asiakkaiden kokemuksia turvallisuudesta kotona.
Uutishuoneessa voit lukea tiedotteitamme ja muuta julkaisemaamme materiaalia. Löydät sieltä niin yhteyshenkilöidemme tiedot kuin vapaasti julkaistavissa olevia kuvia ja videoita. Uutishuoneessa voit nähdä myös sosiaalisen median sisältöjä. Kaikki tiedotepalvelussa julkaistu materiaali on vapaasti median käytettävissä.
Tutustu uutishuoneeseemme