Helsingin yliopisto

Digitaalinen uutissilmä lukee jutut menneistä tapahtumista ja vieläpä selittää ne uusille lukijoilleen

Jaa

Helsingin yliopiston tutkijat ovat saaneet lähes miljoonan euron eurooppalaisen rahoituksen NewsEye-hankkeelleen, jossa työstetään tekoälyllä automatisoitavaa tutkimusavustajaa. Avustaja löytää historiallisista sanomalehdistä asioiden välisiä yhteyksiä ja eroja ja sitten selittää ne. Tutkimus avaa uuden näkymän jo aiemmin tehtyyn vanhojen sanomalehtien digitointiin.

Helsingin yliopiston monitieteinen tutkimushanke, NewsEye, ’uutissilmä’ on saanut rahoituksen, jonka avulla digitaalisen humanismin tutkijat, tietojenkäsittelytieteen asiantuntijat ja kirjastoalan asiantuntijat pääsevät työskentelemään digitoidun muistiaineiston parissa. He halusivat yhteistyöhön, jotta muistiaineiston tarvitsijat, niin tutkijat, opettajat kuin muutkin, saavat käytettäviä ja relevantteja tuloksia käyttöönsä.

Tekoälyn keinoin automatisoitua datatiedettä

Tutkimuksen painopiste on datatieteessä, ja sitä johtaa professori Hannu Toivonen.

– Mielenkiintoisin kehityskohde on automatisoitu tutkimusavustaja, joka käyttää itsenäisesti projektissa kehitettäviä uusia työkaluja etsiäkseen käyttäjälle kiinnostavia tuloksia. Se myös raportoi löydöksistä selkeästi kirjallisesti ja osaa selittää löydöksiä ja omaa toimintaansa. Siihen me nyt Helsingissä tähtäämme, luovan tietojenkäsittelyn asiantuntijana tunnettu professori Toivonen sanoo.

Mikkelissä digitoiduista sanomalehdistä tuli koneluettavaa big data -aineistoa

Liikkeelle lähdetään Kansalliskirjaston jo digitoidusta aineistosta. Tavoitteena on tekstin automaattinen tunnistus digitoidusta materiaalista, kuvan muuttaminen tekstiksi ja erillisten artikkeleiden tunnistaminen.

NewsEye-hankkeen aineistoksi Kansalliskirjasto toimittaa historiallista suomalaista sanomalehtiaineistoa vuosilta 1771 – 1910. Kansalliskirjaston laaja digitointituotanto tehdään sen Mikkelissä sijaitsevassa toimipisteessä, ja kirjasto on digitoinut kaikki suomalaiset ilmestyneet sanomalehdet tältä ajalta ja tehnyt niistä koneluettavan datapaketin. Aineistoa täydennetään vielä vuosien 1911 – 1917 sanomalehtiaineistoilla.

Työkalu rikastetun tekstin analysointiin erilaisista näkökulmista

Työn alla on myös tekstin automaattinen rikastaminen tunnistamalla tekstistä nimiä ja asenteita. Suomalaistutkijat keskittyvät myös kehittämään uusia työkaluja rikastetun tekstin analysointiin erilaisista näkökulmista niin, että eri asiayhteydet ja vertailukohdat tulevat huomioiduksi.

Hannu Toivonen antaa esimerkin siitä, miten automatisoitu tutkimusavustaja toimisi, silloin kun asiayhteydet ja vertailukohdat on huomattu:

– Ajatellaan, että käyttäjä on kiinnostunut sukunsa historiasta ja antaa tarkastelun kohteeksi sukunimensä. Silloin tutkimusavustaja etsii sukunimeä vanhoista lehdistä ja katsoo myös missä yhteyksissä nimi esiintyy. Avustaja huomaa, että kyseessä on sukunimi, vertaa sen asiayhteyksiä muiden sukunimien asiayhteyksiin, ja kertoo käyttäjälle sitten, mitkä asiayhteydet korostuvat erityisesti annetun sukunimen yhteydessä. Sen jälkeen avustaja voi edelleen raportoida, miten asiayhteydet ovat muuttuneet ajan kuluessa, Toivonen kuvaa uutta avustajaa.

Parhaimmillaan jopa rinnakkain useita kieliä käsittelevä hanke

Helsingin yliopiston rahoitusosuus on 900 000 euroa tieteidenvälisessä H2020-projektissa NewsEye: A Digital Investigator for Historical Newspapers. Työ on juuri alkanut ja kestää 3 vuotta. Kokonaisuutena hankkeen eurooppalainen rahoitus on 3 miljoonaa euroa.

Helsingin yliopistosta mukana ovat Hannu Toivonen, Mikko Tolosen digitaalisten ihmistieteiden tutkijaryhmä ja Kansalliskirjastosta Minna Kaukonen työryhmineen. Vastaavat monitieteiset kolmikot ovat mukana myös Ranskasta ja Itävallasta, lisäksi mukana on yksi saksalainen partneri. 

Hankkeessa uutuutena on monikielisyys: menetelmät ja työkalut tehdään mahdollisimman kieliriippumattomiksi tai parhaimmillaan jopa rinnakkain useita kieliä käsitteleviksi. Tämä on tutkijoiden mukaan tärkeää — mutta harvinaista — eurooppalaisessa kontekstissa. 

Lue lisää:

Tutustu Suomen historiaan ja menneeseen aikaan digitoitujen sanomalehtien kautta. Kansalliskirjaston digitaaliset aineistot: https://digi.kansalliskirjasto.fi/sanomalehti/search

HELDIG, Helsinki Centre for Digital Humanities, on digitalisaatiota tukeva yhteistyöverkosto, jossa uusimmat tietojenkäsittelyn menetelmät valjastetaan humanistisen ja yhteiskunnallisen tutkimuksen käyttöön: https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities

HIDATA, Helsinki Centre for Data Science on monitieteinen datatiedettä kehittävä Helsingin yliopiston ja Aalto-yliopiston yhteistyöverkosto: https://www.helsinki.fi/en/helsinki-centre-for-data-science

Tervetuloa mukaan!
HIDATA järjestää datatieteen päivän Helsingin Tiedekulmassa tiistaina 29.5. kello 9-15. Kaikki ovat tervetulleita!

Kuva:
Kuvakaappaus Kansalliskirjaston historiallisia aineistoista Digi.Kansalliskirjasto.fi - sivulta: https://digi.kansalliskirjasto.fi/etusivu

Yhteystiedot:

Hannu Toivonen, matemaattis-luonnontieteellinen tiedekunta, hannu.toivonen@helsinki.fi, http://www.cs.helsinki.fi/hannu.toivonen/, 050 9112405

Minna Kaukonen, Kansalliskirjasto, minna.kaukonen@helsinki.fi, 050 4155 450

Mikko Tolonen, Kansalliskirjasto, mikko.tolonen@helsinki.fi, 050 448 2055

Viestinnän asiantuntija Minna Meriläinen-Tenhu, @MinnaMeriTenhu, 050 415 0316, minna.merilainen@helsinki.fi

Yhteyshenkilöt

Kuvat

Tietoja julkaisijasta

Helsingin yliopisto
Helsingin yliopisto
PL 3
00014 Helsingin yliopisto

02941 911 (vaihde)http://www.helsinki.fi/yliopisto

Helsingin yliopisto on yli 40 000 opiskelijan ja työntekijän kansainvälinen tiedeyhteisö, joka toimii neljällä kampuksella Helsingissä ja usealla muulla paikkakunnalla Suomessa. Se on toistuvasti maailman sadan parhaan yliopiston joukossa. Helsingin yliopisto on perustettu vuonna 1640.

Tilaa tiedotteet sähköpostiisi

Haluatko tietää asioista jo ennen kuin ne uutisoidaan? Kun tilaat tiedotteemme, saat ne sähköpostiisi yhtä aikaa suomalaisen median kanssa. Tilauksen voit halutessasi perua milloin tahansa.

Lue lisää julkaisijalta Helsingin yliopisto

Datatieteen tutkijat ja uudet menetelmät esillä Helsingin Tiedekulmassa tiistaina 29.5. kello 9-1525.5.2018 14:24Tiedote

Helsingin yliopisto ja Aalto-yliopisto etsivät datatieteen menetelmille uusia käyttötapoja yhteisessä HiData-tutkimuskeskuksessa, Helsinki Centre for Data Science, joka esittäytyy Tiedekulmassa tiistaina 29.5., Yliopistonkatu 4. Tilaisuus on avoin ja antaa yleiskäsityksen datatieteen menetelmistä ja mahdollisuuksista eri tieteenaloilla. Tarkoitus on myös ideoida uusia tutkimusalueita ja sovelluksia.

Peltojen kipsikäsittelystä tehoa maatalouden vesiensuojeluun25.5.2018 09:00Tiedote

Peltojen kipsikäsittely on osoittautunut tehokkaaksi, turvalliseksi ja viljelijöiden hyväksymäksi keinoksi vähentää maatalouden fosforikuormitusta Itämereen. Tulokset perustuvat laajaan kipsinlevitystä testanneeseen pilottiin Varsinais-Suomessa. Kipsin laajamittaisella käytöllä pystyttäisiin vastaamaan Itämeren suojelukomission (HELCOM) Suomelle asettamiin fosforikuormituksen vähentämistavoitteisiin. Kipsikäsittelyllä olisi suuri potentiaali koko Itämeren tasolla.

Åkrarnas gipsbehandling effektiviserar vattenskyddet inom jordbruket25.5.2018 09:00Tiedote

Gipsbehandlingen av åkrar har visat sig vara effektiv, säker och även accepterad av bönderna som en metod att minska jordbrukets fosforbelastning på Östersjön. Resultaten bygger på ett omfattande pilotprojekt där gipsspridning har testats i Egentliga Finland. Om gipsbehandlingen togs i bruk i större utsträckning skulle det bli möjligt att uppfylla de mål som Skyddskommissionen för Östersjön (HELCOM) har fastställt för Finlands del när det gäller att minska fosforbelastningen. Gipsbehandlingen har stor potential med tanke på hela Östersjön.

Uutishuoneessa voit lukea tiedotteitamme ja muuta julkaisemaamme materiaalia. Löydät sieltä niin yhteyshenkilöidemme tiedot kuin vapaasti julkaistavissa olevia kuvia ja videoita. Uutishuoneessa voit nähdä myös sosiaalisen median sisältöjä. Kaikki STT Infossa julkaistu materiaali on vapaasti median käytettävissä.

Tutustu uutishuoneeseemme