Väitös kieliteknologian alalta, DI Manu Airaksinen
Väitöksen nimi on “Methods for the application of glottal inverse filtering to statistical parametric speech synthesis”
Tietoa ihmisen puheentuoton fysiologiasta voidaan käyttää korkealaatuisen koneäänen tuotossa, eli puhesynteesissä. Yksi tehokkaimmista ihmisen puheentuottoa kuvaavista malleista on nk. lähde-suodin -malli, jonka mukaan ihminen tuottaa puhetta luomalla lähdeherätteen (keuhkoista tuleva ilmavirta), joka matkatessaan ääntöväylän läpi (suu, kieli, huulet, jne.), suodattuu taajuuskomponenteiltaan ääntöväylän asennon määräämien resonanssitaajuuksien mukaan. Soinnillisen puheen tuotossa keuhkoista tuleva ilmavirta saa äänihuulet värähtelemään näennäis-säännöllisesti, joka synnyttää äänenkorkeuden ominaisuuden. Äänihuulten välistä aukkoa kutsutaan glottikseksi, ja kaikki keuhkoista tuleva ilmavirta kulkee sen läpi. Tästä saa nimensä termi ”glottisheräte”. Soinnillisessa puheessa glottisheräte on näennäis-säännöllinen signaali, joka määrittelee suurilta osin puheen intonaation.
Glottaalinen käänteissuodatus (GKS) on laskennallinen menetelmä glottis-herätteen estimointiin nauhoitetusta puhesignaalista. Yksi GKS:n pääsovellusalueista on ollut tilastollinen parametrinen puhesynteesi, missä GKS-pohjaisia herätesignaaleja on käytetty syntetisoitujen ääntöväyläsuotimien kanssa. Tämän väitöskirjan päätavoitteina on ollut 1) tuottaa uusia, tehokkaita ja skaalautuvia GKS-menetelmiä, joita voidaan käyttää modernien, datalähtöisten koneoppimismenetelmien rinnalla, ja 2) soveltaa uusia GKS-menetelmiä tilastollisessa parametrisessa puhesynteesissä, tavoitteena parantunut laatu ja luonnollisuus.
Vastaväittäjänä toimii professori Jon Gudnason, Reykjavikin yliopistosta Islannista
Valvojana on professori Paavo Alku, Aalto-yliopiston sähkötekniikan korkeakoulu, signaalinkäsittelyn ja akustiikan laitos.
Väitöksen verkkosivu
Väitöstiedote (pdf.)
Väittelijän yhteystiedot: Manu Airaksinen, +358 50 5311126, manu.airaksinen@aalto.fi