Turun yliopisto

Väitös: Tekoäly löytää järjestyksen historiallisesta kielestä, vaikka aineisto olisi täynnä virheitä

Jaa

Väitöskirjatutkija FM Liina Revon digitaalisen humanismin tutkimus tarjoaa konkreettisia uusia työkaluja vanhojen tekstien ymmärtämiseen. Koneoppimisen avulla voidaan erottaa toisistaan esimerkiksi kirjeet, oikeustapaukset ja esseet historiallisissa aineistoissa käytännön tutkimustyöhön soveltuvalla tavalla. 

FM Liina Revon digitaalisen kielentutkimuksen väitöskirja tarkastetaan Turun yliopistolla perjantaina 30. tammikuuta.
FM Liina Revon digitaalisen kielentutkimuksen väitöskirja tarkastetaan Turun yliopistolla perjantaina 30. tammikuuta.

Tutkimuksessa selvisi, että koneoppimismallit oppivat tunnistamaan erilaisia tekstilajeja niiden kielellisten piirteiden perusteella. Tekoäly siis löytää järjestyksen historiallisesta kielestä.

Esimerkiksi kirjeiden henkilökohtainen ja puhutteleva sävy erottuu mallille selvästi, kun taas oikeustapaukset tunnistetaan muodollisesta rakenteestaan ja vakiintuneista ilmaisuista.

Erityisen kiinnostavaa Revon mukaan on se, että tekstilajin tunnistamiseen riittää usein vain tekstin alku. Jo ensimmäiset kappaleet voivat paljastaa, onko kyse yksityisestä kirjeestä, virallisesta asiakirjasta vai esseemäisestä tekstistä.

– On yllättävää, kuinka paljon tietoa tekstilajista on luettavissa heti tekstin alusta jopa silloin, kun aineisto on vanhaa ja täynnä digitointivirheitä.

Kaikki tekstit eivät kuitenkaan ole yhtä helppoja. Selkeät tekstilajit tekoäly tunnistaa parhaiten, kun taas eri tekstilajien piirteitä yhdistelevät tekstit tuottavat enemmän virheitä. Näiden tapausten tarkastelu auttaa hahmottamaan mallien toiminnan rajoja ja sitä, millaiset piirteet jäävät koneelle vaikeiksi.

Tutkimuksessa tarkastellaan myös sitä, miksi koneoppimismallit tekevät tiettyjä virheitä. Selitysmenetelmien avulla on mahdollista nähdä, mihin sanoihin ja rakenteisiin mallit todella kiinnittävät huomiota.

– Mallien ymmärtämien on tärkeää, jotta niitä voidaan käyttää luotettavasti myös humanistisessa tutkimuksessa.

Käytännön hyötyjä tutkimukselle ja arkistoille

Tutkimus tarjoaa konkreettisia uusia työkaluja suurten historiallisten tekstiaineistojen käsittelyyn.

Koneoppimisen avulla tekstikokoelmia voidaan rikastaa automaattisesti tekstilajitiedolla, mikä helpottaa tutkijoiden työtä ja avaa uusia näkökulmia kielen ja tekstien historiaan.

– Tuloksia voidaan hyödyntää esimerkiksi historiallisessa kielentutkimuksessa ja oikeushistorian parissa, joissa tekstilajien tunnistaminen auttaa hahmottamaan, millaisia asiakirjoja eri aikoina on tuotettu ja mihin tarkoitukseen, Repo sanoo.

Tutkimus sijoittuu digitaalisen humanismin kenttään, jossa teknologiaa hyödynnetään ihmistieteellisissä kysymyksissä. Väitöskirja tuo uutta tietoa erityisesti siitä, miten koneoppimisen menetelmät toimivat historiallisissa aineistoissa ja mitä ne pystyvät kertomaan menneisyyden kielestä ja sen vaihtelusta eri tekstiyhteyksissä.

FM Liina Repo esittää väitöskirjansa ”Machine Learning in Modeling Historical Registers - A New Perspective to Text Linguistics” julkisesti tarkastettavaksi Turun yliopistossa perjantaina 30.1.2026 klo 12.00 (Turun yliopisto, Publicum, Pub2-luentosali, Assistentinkatu 7, Turku). Vastaväittäjänä toimii apulaisprofessori Daniel Keller (Western Kentucky University, Yhdysvallat) ja kustoksena professori Veronika Laippala (Turun yliopisto). Tilaisuus on englanninkielinen. Väitöksen alana on digitaalinen kielentutkimus.

Yleisön on mahdollista osallistua väitökseen etäyhteydellä Väitöskirja Turun yliopiston julkaisujärjestelmässä 

Avainsanat

Yhteyshenkilöt

Kuvat

FM Liina Revon digitaalisen kielentutkimuksen väitöskirja tarkastetaan Turun yliopistolla perjantaina 30. tammikuuta.
FM Liina Revon digitaalisen kielentutkimuksen väitöskirja tarkastetaan Turun yliopistolla perjantaina 30. tammikuuta.
Lataa

Turun yliopisto on 25 000 opiskelijan ja työntekijän innostava ja kansainvälinen akateeminen yhteisö. Rakennamme kestävää tulevaisuutta monitieteisellä tutkimuksella, koulutuksella ja yhteistyöllä.

Turun yliopiston mediatiedotteet

Tilaa tiedotteet sähköpostiisi

Haluatko tietää asioista ensimmäisten joukossa? Kun tilaat tiedotteemme, saat ne sähköpostiisi välittömästi julkaisuhetkellä. Tilauksen voit halutessasi perua milloin tahansa.

Lue lisää julkaisijalta Turun yliopisto

Turun yliopisto vahvistaa luonnon monimuotoisuuteen liittyvää toimintaa perustamalla Suomen ensimmäisen biodiversiteettitieteiden laitoksen26.1.2026 11:25:16 EET | Tiedote

Turun yliopisto on ollut luonnon monimuotoisuuden tutkimuksen edelläkävijä 1990-luvulta lähtien. Tänä vuonna yliopisto vahvistaa tieteenalaa, kun yliopiston biodiversiteettiyksikkö laajentaa toimintaansa ja muuttuu Suomen ensimmäiseksi biodiversiteettitieteiden laitokseksi 1.4.2026 alkaen. Laitoksen tavoitteena on perustutkimuksen rinnalla lisätä tutkimuksen monitieteisyyttä, laajentaa biodiversiteettitieteiden opetusta sekä vahvistaa yhteiskunnallista vaikuttavuutta.

Uutishuoneessa voit lukea tiedotteitamme ja muuta julkaisemaamme materiaalia. Löydät sieltä niin yhteyshenkilöidemme tiedot kuin vapaasti julkaistavissa olevia kuvia ja videoita. Uutishuoneessa voit nähdä myös sosiaalisen median sisältöjä. Kaikki tiedotepalvelussa julkaistu materiaali on vapaasti median käytettävissä.

Tutustu uutishuoneeseemme
World GlobeA line styled icon from Orion Icon Library.HiddenA line styled icon from Orion Icon Library.Eye