Väitös kieliteknologian alalta, Teemu Ruokolainen
Väitöksen nimi on ”Kontribuutioita morfologian oppimiseen ehdollisilla satunnaiskentillä”.
Map © OpenStreetMap. Some rights reserved.
Automaattiset kielenkäsittelyjärjestelmät, kuten internetin hakukoneet ja kielenkääntäjät, ovat muodostuneet olennaiseksi osaksi nykyarkea. Useat näistä järjestelmistä käsittelevät kieltä perusyksikkönään sanat. Tämä on kuitenkin haastava tehtävä ns. morfologisesti rikkaiden kielien, kuten suomalais-ugrilaisen kieliperheen jäsenten, kohdalla, sillä nämä kielet sisältävät suuren määrän harvinaisia sanamuotoja johtuen esimerkiksi sanojen runsaasta taivuttamisesta. Tätä ongelmaa voidaan lievittää tutkimalla morfologiaa eli sanojen sisäisen rakennetta. Tällöin harvinaisten sanojen merkitys ja käyttäytyminen lauseyhteydessä voidaan päätellä osittain tai kokonaan niiden sisältämien yksiköiden perusteella. Väitöskirjassa tutkittiin vaihtoehtoisten analyysitapojen oppimista käyttäen tilastollista koneoppimismetodologiaa. Käyttäen tätä lähestymistapaa sanojen morfologinen analyysi opitaan suorittamaan asiantuntijan valmistamien esimerkkitapauksien avulla. Erityisesti keskityttiin kahteen analyysitapaan: morfologiseen jäsennykseen ja morfologiseen pilkontaan. Morfologisessa jäsennyksessä sanoille valitaan sen sisäistä rakennetta kuvaava luokitus lauseyhteydessä. Morfologisessa pilkonnassa taas sanamuodot pyritään pilkkomaan pienempiin merkityksellisiin osiin, ns. morfeihin. Väitöskirjan ensimmäisenä päätuloksena esitellään ensimmäinen erityisesti suomen kielelle kehitetty morfologinen jäsennystyökalu, FinnPos. Työkalu on julkaistu avoimena lähdekoodina ja sitä voidaan hyödyntää vapaasti kehitettäessä kielenkäsittelysovelluksia suomen kielelle. Toisena päätuloksena väitöskirjassa esitellään uusi, aikasempia julkaistuja menetelmiä tarkempi ja tehokkaampi tapa morfologisen pilkonnan oppimiseen pienestä määrästä esimerkkitapauksia. Esitettyä menetelmää voidaan käyttää edullisena tapana oppia morfologinen työkalu harvinaisille kielille.
Vastaväittäjänä toimii Assistant Professor Chris Dyer, Carnegie Mellon University, USA
Valvojana on professori Mikko Kurimo, Aalto-yliopiston sähkötekniikan korkeakoulu, Signaalinkäsittelyn ja akustiikan laitos
Väittelijän yhteystiedot:
Teemu Ruokolainen
teemu.ruokolainen@iki.fi