Helsingin yliopiston tutkijat opettavat tekoälylle suomen kielen murteita

15.12.2021 08:00:12 EET | Helsingin yliopisto | Tiedote

Jaa

Koneäly ymmärtää yleensä suomea vain kirjakielenä. Kun vuorovaikutuksessa tietokoneiden kanssa käytetään suomen eri murteita, syntyy paljon ongelmatilanteita. Yleisesti kieltä ei voi puhua käyttämättä jonkin tasoista murretta. Helsingin yliopiston tutkijaryhmä on kehittänyt tekoälymalleja, jotka tunnistavat ja tuottavat suomenkielisiä murteita automaattisesti.

Tiedotusvälineissä on viime aikoina puhuttu kieliaineiston keräämisestä tarkoituksena opettaa tekoälyä ymmärtämään suomen ja ruotsin kielen murteita. Mika Hämäläisen, Niko Partasen, Khalid Alnajjarin ja Jack Rueterin muodostama tutkimusryhmä Helsingin yliopistossa on kehittänyt menetelmiä, joilla saadaan aikaan murteita sujuvasti käyttävä tekoäly.

Tutkijat ovat laskennallisen luovuuden avulla kehittäneet menetelmän, jolla suomen kirjakieli voidaan muuntaa miksi tahansa suomen kielen 23 alamurteesta. Koneälyn tulee sekä ymmärtää murteellista suomea että kyetä ilmaisemaan itseään murteellisesti.

– Kehittämämme menetelmän avulla robotti tai jokin muu älykäs järjestelmä osaa sanoa ”Akku on lopussa” vaikkapa Etelä-Karjalan murteella ”Akku o lopussa”, Etelä-Satakunnan murteella ”Akku ol lopus” tai Länsi-Uudenmaan murteella ”Akku o lopus”, Hämäläinen kertoo.

Google Kääntäjän suosittu algoritmi ei esimerkiksi osaa kääntää murteellista suomen kielen virkettä ”Oisko sulla jotai esimerkkei siit” englanniksi, vaan tuloksena on täysin virheellinen ”Oisko sulla something like that”, koska palvelu on rakennettu toimimaan yksinomaan suomen kirjakielen pohjalta. Sama ilmiö havaitaan kaikissa muissakin suomeksi toimivissa tekoälyyn perustuvissa työkaluissa, kuten Applen Siri-avustajassa tai macOS-käyttöjärjestelmän sanelutoiminnossa.

Murteet tunnistetaan sekä puheäänestä että tekstistä

Tutkimustulosten perusteella murteiden tunnistaminen on vaikeaa pelkästään tekstin pohjalta. Murteiden tunnistaminen helpottuu, kun mallilla on käytössään myös ääntä, sillä monilla murteilla on äänteellisiä erityispiirteitä. Tutkijoiden tuoreimmat julkaistut tulokset liittyvätkin murteiden tunnistamiseen sekä puhutun äänen että tekstin perusteella.

– Murteiden kirjakielistämisellä on monia etuja. Sen ansiosta voidaan analysoida murreaineistoja suomen kirjakieltä varten suunnitelluilla työkaluilla. Lisäksi kirjakielistettyjä aineistoja voidaan käyttää haun välineenä, kun etsitään jotakin murreaineistoista, Khalid Alnajjar sanoo.

Tutkijat huomauttavat, että murteiden ymmärtäminen on monitahoinen haaste, eikä mikään malli kykene ymmärtämään ihmisen lailla luonnollista kieltä. Nyt luodut mallit avaavat kuitenkin mielenkiintoisia suuntia tutkimukselle, kuten selvittää murteiden normista poikkeamisen aste ja eri kielimuotojen lauseopilliset erot.

– Näin voidaan parantaa luonnollisen suomen kielen käsittelyyn tarkoitettuja ratkaisuja ja kehittää yksilöllisesti räätälöityjä tekoälymalleja. Jo nyt on saatu vaikuttavia tuloksia yhden ihmisen puheen tunnistamisen saralla jopa uhanalaisissa kielissä, Niko Partanen sanoo.

Tutkimusryhmä on kehittänyt vastaavanlaista kirjakielistämismenetelmää myös Suomessa puhutuille ruotsin murteille ja historialliselle suomelle.

Murregeneraattoria voi testata verkossa ja murteen ”kirjakielistäjä” ja generaattorikoodi ovat julkaistu avoimesti GitHubissa. Myös murteen tunnistajakoodin voi löytää Githubista.

Tutkimusaineisto:

Partanen, N., Hämäläinen, M., & Alnajjar, K. (2019). Dialect Text Normalization to Normative Standard Finnish. In W. Xu, A. Ritter, T. Baldwin, & A. Rahimi (Eds.), The Fifth Workshop on Noisy User-generated Text (W-NUT 2019): Proceedings of the Workshop (pp. 141–146). The Association for Computational Linguistics.

Hämäläinen, M., Partanen, N., Alnajjar, K., Rueter, J., & Poibeau, T. (2020a). Automatic Dialect Adaptation in Finnish and its Effect on Perceived Creativity. In F. A. Cardoso, P. Machado, T. Veale, & J. M. Cunha (Eds.), Proceedings of the 11th International Conference on Computational Creativity (ICCC’20) (pp. 204-211). Association for Computational Creativity.

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2020b). Normalization of Different Swedish Dialects Spoken in Finland. In GeoHumanities'20: Proceedings of the 4th ACM SIGSPATIAL Workshop on Geospatial Humanities (pp. 24–27). ACM.

Hämäläinen, M., Alnajjar, K., Partanen, N., & Rueter, J. (2021a). Finnish Dialect Identification: The Effect of Audio and Text. In M-F. Moens, X. Huang, L. Specia, & S. Wen-tau Yih (Eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 8777-8783). The Association for Computational Linguistics.

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2021b). Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography. In P. Denis [et al.] (Ed.), Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles (pp. 189-198). Association pour le Traitement Automatique des Langues.

Avainsanat

koneoppiminen murre puheentunnistus suomen kieli tekoäly tekstintunnistus

Yhteyshenkilöt

Helsingin yliopiston mediapalvelu

Puh:02941 22622mediapalvelu@helsinki.fi

Tietoja julkaisijasta

Helsingin yliopisto
PL 3
00014 Helsingin yliopisto

02941 22622 (mediapalvelu) 02941 911 (vaihde) (vaihde)https://www.helsinki.fi/fi/yliopisto

Helsingin yliopisto on yli 40 000 opiskelijan ja työntekijän kansainvälinen tiedeyhteisö, joka toimii neljällä kampuksella Helsingissä ja usealla muulla paikkakunnalla Suomessa. Kansainvälisissä yliopistovertailuissa se on ollut toistuvasti maailman sadan parhaan yliopiston joukossa. Helsingin yliopisto on perustettu vuonna 1640.

Tilaa tiedotteet sähköpostiisi

Haluatko tietää asioista ensimmäisten joukossa? Kun tilaat tiedotteemme, saat ne sähköpostiisi välittömästi julkaisuhetkellä. Tilauksen voit halutessasi perua milloin tahansa.

Lue lisää julkaisijalta Helsingin yliopisto

Suomen urbaaneimmat lehmät pääsivät laitumelle – lataa kuvat ja videot median käyttöön!9.5.2026 14:17:28 EEST | Tiedote

Helsingin yliopiston Viikin tutkimustilan lehmät ovat kirmanneet jälleen riemuiten laitumelle. Perinteikäs koko perheen tapahtuma keräsi tuhansittain yleisöä laitumen laidalle lauantaina 9.5.

Järjestäytynyt rikollisuus lisääntynyt jonkin verran Suomessa8.5.2026 13:46:48 EEST | Tiedote

Kansainvälisesti vertailtuna järjestäytyneen rikollisuuden taso on edelleen melko maltillinen Suomessa. Kasvua on havaittavissa erityisesti kyberrikollisuudessa ja huumausainerikollisuudessa, ilmenee Helsingin yliopiston ja Poliisiammattikorkeakoulun laatimasta järjestäytyneen rikollisuuden tilannekuvasta.

Studia Medicina 20.5.: Lähisuhdeväkivalta – miten tunnistamme ja autamme7.5.2026 15:46:02 EEST | Kutsu

Tervetuloa mukaan keskiviikkona 20.5.2026 17.00 - 19.00! Studia Medicinat ovat kaikille avoimia yleisötilaisuuksia, joissa on myös mahdollisuus esittää kysymyksiä asiantuntijoille.

Yksinäisyyttä kokevien ikäihmisten hyvinvointi koheni luontoperustaisessa ryhmätoiminnassa7.5.2026 08:36:48 EEST | Tiedote

Palvelutaloissa asuvilla ikäihmisillä kerran viikossa tapahtuvalla luontoperustaisella ryhmätoiminnalla voidaan vähentää yksinäisyyttä, parantaa unta ja kognitiota sekä luontoyhteyden tunnetta.

Tutkimus: Kanariansaarten turistit viihtyvät luonnossa6.5.2026 12:55:18 EEST | Tiedote

Kolmannes Kanariansaarilta tehdyistä sosiaalisen median päivityksistä tehtiin luontoalueilta, paljasti yli 720 000 päivityksen analyysi.

Uutishuoneessa voit lukea tiedotteitamme ja muuta julkaisemaamme materiaalia. Löydät sieltä niin yhteyshenkilöidemme tiedot kuin vapaasti julkaistavissa olevia kuvia ja videoita. Uutishuoneessa voit nähdä myös sosiaalisen median sisältöjä. Kaikki tiedotepalvelussa julkaistu materiaali on vapaasti median käytettävissä.

Tutustu uutishuoneeseemme