Minä puhun – sinun äänelläsi?
Ei tarvitse olla Jope Ruonansuu puhuakseen Tarja Halosen äänellä. Automaattinen puhujanmuunnos ei tee sinusta imitaattoria, mutta saa sinut kuulostamaan toiselta henkilöltä. Sillä saadaan myös tv-sarja Frendien näyttelijät puhumaan espanjaa omalla äänellään, väittää tutkija Elina Helander.Helander tutki väitöskirjassaan automaattista puhujanmuunnosta, jolla muokataan yhden puhujan tuottamaa puhesignaalia kuulostamaan tietyn toisen puhujan sanomalta. Käytännössä puhujamuunnos toimii siten, että samaan puhetietokantaan on tallennettu kahden eri henkilön puhetta. Tietokone vertaa lähdepuhujan eli henkilön A ja kohdepuhujan eli henkilön B puheen piirteitä ja oppii siten muunnosfunktion. Muunnosfunktion avulla tietokone muuntaa minkä tahansa henkilön A tuottaman lauseen kuulostamaan henkilön B puhumalta.
–Tulevaisuudessa voit esimerkiksi tallentaa ääntäsi puhelimeen puhuessasi ja jakaa sitten tuon äänimallin ystävällesi. Sitten ystäväsi puhelin lukee lähettämäsi sähköpostit tai tekstiviestit sinun äänelläsi.
Puhujanmuunnosta voidaan käyttää vaikkapa elokuvien dubbaukseen alkuperäisten näyttelijöiden äänillä. Tietokone pystyy tulkkaamaan myös oman puheesi kieleltä toiselle omaa ääntäsi käyttäen: kielimuuri ei ole enää vuorovaikutuksen esteenä. Puhujanmuunnoksen avulla voidaan myös tuottaa helposti uusia ääniä puhesynteesiin. Puhesynteesiä käytetään esimerkiksi peleissä ja leluissa sekä näkövammaisten apuvälineissä. Henkilö, jolla on sairauden vuoksi heikentynyt puheentuotto, voi tuottaa ymmärrettävää puhetta omalla äänellään puhesynteesin ja puhujanmuunnoksen avulla. Lisäksi menetelmillä voidaan muuntaa puheeseen erilaisia tunnetiloja.
Muunnetun puheen laatu kärsii
Helanderin mukaan muunnoksen oppiminen pienestä määrästä puhemateriaalia on tietokoneelle haastavaa. Kun puhujalta on dataa käytössä vain vähän, noin 20–60 sekuntia, on kohdepuhujan identiteetin oppiminen ja puheen laadun säilyttäminen ongelmallista. Suuret muokkaukset yleensä heikentävät laatua.
Väitöstyössään Helander kehitti menetelmiä, jolla muunnetun puheen laatua voidaan parantaa. Menetelmillä voidaan ennustaa yhden puhujan puhepiirteistä toisen puhujan puhepiirteitä. Lisäksi niillä voidaan muuntaa äänenkorkeuden vaihtelua ja puherytmiä, jotka ovat tärkeitä elementtejä puhujan tunnistamisessa: jokaisen ihmisen ääni on ainutlaatuinen.
Ihmisen ääneen ja puheeseen vaikuttavat yksilölliset erot äänentuottoelimistössä sekä opitut puhetavat. Ääntöväylän resonanssitaajuudet ja äänenkorkeus aiheuttavat persoonallisen äänenvärin, kun taas äänenkorkeuden ajallinen vaihtelu, äänteiden kestot ja puherytmi vaikuttavat erityisesti puhetyyliin. Kuuntelija tunnistaa puhujan äänenvärin ja äänenkorkeuden lisäksi monenlaista puhetyyliin liittyvästä informaatiosta, kuten ajallisesta äänenkorkeuden ja äänekkyyden vaihtelusta.
– Puhelimessa pelkkä moi-sana riittää siihen, että tunnistamme soittajan. Tutun puhujan voi jossain määrin erottaa jopa pelkästä äänenkorkeuden vaihtelusta. Sen sijaan puhujantunnistusta tekevä tietokone käyttää yleensä vain hetkellistä puheinformaatiota.
Helander toteaa, että imitaattorien on helpompi muuttaa puhetyyliään kuin ääntöväylänsä resonanssitaajuuksia, jotka ovat suuressa roolissa automaattisessa puhujantunnistuksessa.
–Tämän takia imitaattorit pystyvät paremmin huijaamaan yleisöään kuin automaattista puhujantunnistinta.
Väitöstilaisuus tiistaina 19.6.
Diplomi-insinööri Elina Helanderin signaalinkäsittelyn alaan kuuluva väitöskirja Mapping Techniques for Voice Conversion (”Menetelmiä puhujanmuunnokseen”) tarkastetaan Tampereen teknillisen yliopiston (TTY) tieto- ja sähkötekniikan tiedekunnassa tiistaina 19.6.2012 kello 12.00 Tietotalon salissa TB109 (Korkeakoulunkatu 1, Tampere). Vastaväittäjänä toimii professori Paavo Alku (Aalto-yliopisto). Tilaisuutta valvoo professori Ari Visa TTY:n signaalinkäsittelyn laitokselta.
Lisätietoja: Elina Helander, puh. 041 4317579, elina.helander@tut.fi