4/2014

Tolkkua puheensorinaan – kone tunnistaa äänesi melun keskeltä

Tuomas Virtanen

 

Virtanen vetää TTY:llä kansainvälistä, EU-rahoitteista INSPIRE (Investigating Speech Processing in Realistic Environments) -tutkimusprojektia. Nelivuotisessa projektissa tutkitaan puhetta ja kommunikaatiota arjen olosuhteissa. Lisäksi hänellä on meneillään projekti, jossa tutkitaan akustista hahmontunnistusta jokapäiväisissä ympäristöissä. Siinä kehitetään menetelmiä tavallisten, yksinkertaisten äänten, kuten autojen äänten tunnistamiseksi. Tätä varten tutkijat ovat nauhoittaneet äänidataa ulkona erilaisilla mikrofoneilla.

 

Meluisassa ympäristössä ei aina ole helppo saada selvää toisen puheesta. Erityisen vaikeaa se on kuulovammaisille ja vanhuksille, tai jos puhe ei ole omaa äidinkieltä. Kuulemista tutkivat audiotutkijat ovat kehittäneet kommunikaatio-ongelmaan apukeinoja.

Akatemiatutkija Tuomas Virtanen kiinnostui audiotutkimuksesta teini-iässä tehtyään kotona tietokoneella musiikkia ja siihen liittyvää äänen käsittelyä. Opiskellessaan tietotekniikkaa TTY:llä hän huomasi, että signaalinkäsittely oli ala, jossa riittää haastetta matemaattisesti suuntautuneelle. Hän päätyi TTY:n signaalinkäsittelyn laitoksen audioryhmään parantamaan puhesignaalien laatua ja tutkimaan akustista hahmontunnistusta.

Akustisessa hahmontunnistuksessa äänestä tunnistetaan sen sisältö. Sitä käytetään esimerkiksi matkapuhelimien automaattisessa puheentunnistuksessa sekä haettaessa tietyn äänen sisältäviä tiedostoja multimedia- ja musiikkitietokannoista.

Virtanen vetää TTY:llä kansainvälistä, EU-rahoitteista INSPIRE (Investigating Speech Processing in Realistic Environments) -tutkimusprojektia. Vuoden 2015 loppuun kestävässä nelivuotisessa projektissa tutkitaan puhetta ja kommunikaatiota arjen olosuhteissa.

Projektia toteuttavaan verkostoon kuuluu kymmenen eurooppalaista tutkimusyksikköä, viisi yritystä, jotka kehittävät kuulolaitteita, korvaimplantteja ja puheentunnistusta, sekä kaksi yliopistosairaalaa.

Käytännön kommunikointitilanteissa monet asiat, kuten taustamelu, puhuttu kieli ja kuulovauriot, vaikuttavat yhdessä puheen ymmärrettävyyteen. Usean osapuolen verkosto mahdollistaa näiden tekijöiden yhtäaikaisen tutkimisen. Virtasen mukaan verkoston avulla löydetään ratkaisuja kommunikointiongelmiin paljon tehokkaammin kuin pelkällä yksittäisen osapuolen tekemällä tutkimuksella.

KUKA: Tuomas Virtanen

  • 38-vuotias tekniikan tohtori.
  • Työskentelee TTY:n professorin tehtävään valmentavan tenure track -urapolun kolmannessa, Associate Professor -vaiheessa 1.1.2015 alkaen.
  • Opiskellut tietotekniikkaa TTY:llä, josta väitteli tohtoriksi vuonna 2006.
  • Työskentelee akatemiatutkijana TTY:n signaalinkäsittelyn laitoksella, jossa johtaa audioryhmää.
  • On tehnyt kansainvälistä pioneerityötä yksikanavaisten äänten erottelussa. Hänen kehittämistään menetelmistä on tullut vakiintuneita työkaluja audiosignaalien käsittelyssä.
  • Haluaa kehittää ääneen perustuvaa tiedonhakua ja teknologiaa, joka auttaa ihmisiä, esimerkiksi kuulovammaisia.
  • Perhe: Avovaimo ja kaksi lasta, neljä- ja kaksivuotiaat pojat.
  • Jos työltä ja lastenhoidolta jää aikaa, harrastaa lenkkeilyä ja musiikkia. Soittaa ja laulaa lapsille.
 

– TTY:n vastuulla on kehittää puheen erottelumenetelmiä, jotka perustuvat koneoppimiseen ja kuulomalleihin. Kuulomallit ovat matemaattisia yhtälöitä tai tietokoneohjelmia, jotka matkivat kuulon toimintaa, Virtanen kertoo.

– Me otamme mallia ihmisestä. Haluamme tehdä laitteita, joilla olisi sama tai jopa parempi kyky erotella tietyn puhujan puhe muista äänistä kuin ihmisaivoilla. Kuulovaurioisen ihmisen kyky erotella ääniä on heikentynyt, minkä takia hän tarvitsee kuulolaitetta erottelemaan ääniä meluisissa ympäristöissä. Tällä hetkellä markkinoilla olevat kuulolaitteet eivät kuitenkaan pysty erottelemaan puhetta voimakkaasta melusta tai toisesta puhujasta. Siksi kehittämillämme menetelmillä voidaan parantaa niiden suorituskykyä.

Supertehokas puheenparannusmenetelmä ja ennustustyökaluja

Virtasen tutkimustiimi on jo saanut aikaan puheenehostusmenetelmän, jonka avulla voidaan erottaa puhesignaali ja parantaa sitä tehokkaammin kuin millään muulla menetelmällä. Se perustuu niin sanottuun sokeaan puheenehostukseen, joka poistaa melua meluisasta puheesta.

Sokea menetelmä toimii ilman että sen on etukäteen tarvinnut ”nähdä” yhtäkään esimerkkiä puheäänestä. Se pystyy Virtasen mukaan parantamaan puhesignaalia käyttäen yleistä tietoa siitä, millaisia äänet ovat, tai miten ihmiskuulo niitä käsittelee.

– Olemme myös kehittäneet työkaluja, joilla pystymme ennustamaan, mitkä puheen elementit tekevät siitä vaikeasti ymmärrettävää, ja millaisissa sanoissa tulee helposti virheitä. Pystymme myös ennustamaan miten hankalaksi taustamelu tekee ymmärtämisen.

– Ennustuksen avulla saadaan aikaan parempia kuulolaitteita, akustisesti parempia tiloja ja parempaa puhesynteesiä, jota käytetään esimerkiksi rautatieasemien ja junien kuulutuksissa. Puhekäyttöliittymiä suunniteltaessa ennustus auttaa valitsemaan sanoja, jotka eivät mene sekaisin. Puhekäyttöliittymiä käytetään yleisesti muun muassa matkapuhelinten ja auton laitteistojen puheohjauksessa sekä automaattisissa puhelinpalveluissa.

Tutkijoille käytännön kokemusta yrityksissä

INSPIRE on EU-rahoitteinen Marie Curie -tutkijakoulutusverkosto (ITN). Sen puitteissa tutkijat pääsevät vierailemaan verkostoon kuuluvissa firmoissa ja tutkimuslaitoksissa.

Tuomas Virtasen tutkimustiimiin kuuluva Thomas Barker työskentelee tällä hetkellä Tanskassa kuulolaitteiden valmistaja Oticonin omistamassa tutkimuskeskuksessa. Siellä yritetään parantaa kuulolaitteiden tuottaman puheäänen laatua olosuhteissa, joissa taustamelu vaikeuttaa puheen kuulemista. Väitöskirjaansa valmistelevan Barkerin mielestä tutkijat hyötyvät paljon alan yrityksissä ja muissa tutkimuslaitoksissa työskentelystä.

– Täällä huomaa myös, miten akateemisten tutkijoiden ja alan yritysten tavoitteet voivat poiketa toisistaan. Esimerkiksi audiosignaalin laadun tilastollinen parannus saattaa olla hieno juttu yliopistoympyröissä, mutta ellei se käytännössä paranna kuulolaitteen käyttäjän käyttäjäkokemusta, sen merkitys yritykselle ei ehkä ole niin suuri, Barker sanoo.

Barker on vakuuttunut yrityksissä ja muissa yliopistoissa vierailemisen hyödyllisyydestä. Sen avulla tutkija saa laajempaa perspektiiviä omaan työhönsä ja pääsee tutustumaan erilaisiin työskentelytapoihin.

INSPIRE-projektin osanottajat

  • Yliopistot ja tutkimuslaitokset: Katholieke Universität Leuven (Belgia), Philips Research Eindhoven (Alankomaat), Radboud University Nijmegen (Alankomaat), Tampereen teknillinen yliopisto (Suomi), Technical University of Denmark (Tanska), Universidad del País Vasco (Espanja), University College London (Britannia), University of Sheffield (Britannia), University of Edinburgh (Britannia), University of York (Britannia).
  • Yritykset: Cochlear Europe (Britannia), Nokia /Microsoft (Suomi/USA), Nuance Communications International (Belgia), Oticon Research Centre Eriksholm (Tanska), Phonak (Sveitsi.)
  • Sairaalat: Royal National Throat, Nose and Ear Hospital (Britannia) ja Radboud University Nijmegen Medical Centre (Alankomaat).

Toimiva puheentunnistus helpottaa niin ihmisten kuin koneiden arkipäivää

Tampereen teknillisen yliopiston signaalinkäsittelyn laitoksen audioryhmässä on kehitetty matemaattisia menetelmiä, joilla arkielämän meluisat äänet voidaan erotella toisistaan. Näin puhe saadaan ehostettua ymmärrettävämpään muotoon, olipa tulkitsijana sitten laite tai ihminen. Lokakuun alussa aiheesta väitteli Tuomas Virtasen ryhmään kuuluva tutkija Antti Hurmalainen.

Automaattisen puheentunnistuksen avulla laitteita voidaan ohjata puhuen, jolloin kädet ja katse vapautuvat muihin tehtäviin. Esimerkiksi liikenneturvallisuus paranee, kun kuljettaja voi ohjata auton laitteistoja puheella, eikä liikenteen seuraaminen herpaannu. Äänipalvelun kautta netistä voi etsiä tietoa puhelimitse vaikka toiselta mantereelta.

Toisaalta käytännön puheentunnistus voi myös turhauttaa, jos tulos ei vastaa toivottua tai kone ei kerta kaikkiaan ymmärrä mitä ihminen sille sanoo.

– Hälyn keskellä kuuleminen on vaikeaa paitsi ihmisille myös laitteille. Mobiililaitteita käytetään hyvin monenlaisissa ympäristöissä, mikä tuo puheentunnistuksen tutkijoille ja kehittäjille haastetta, Antti Hurmalainen muistuttaa.

Hurmalaisen väitöskirjassaan esittämät järjestelmät ovat osallistuneet menestyksekkäästi kansainvälisiin vertailuihin, joita myös mobiilipalvelujen suuret nimet seuraavat mielenkiinnolla. Puheen sisällön lisäksi järjestelmät osaavat tunnistaa eri puhujat, vaikka näitä olisi äänessä useampi kerrallaan.

– Ihmisten kesken puheella hoidetaan päivittäin niin työt kuin huvit. Laitteiltakin se saadaan lopulta sujumaan, kunhan menetelmät laaditaan vastaamaan todellisia arjen käyttötilanteita, Hurmalainen uskoo.

Hurmalaisen väitöstiedote

 

Teksti: Leena Koskenlaakso
Kuva: Mika Kanerva

 
Kerro kaverille
TTY 50 vuotta
TTY 50 vuotta
4/2014
TTY 50 vuotta
Tuleeko teollisesta internetistä ekologinen painajainen?
Tuleeko teollisesta internetistä ekologinen painajainen?
4/2014
Tuleeko teollisesta internetistä ekologinen painajainen?
Päästöt ja polttoaineenkulutus kuriin uuden testausradan avulla
Päästöt ja polttoaineenkulutus kuriin uuden testausradan avulla
4/2014
Päästöt ja polttoaineenkulutus kuriin uuden testausradan avulla
Yhteistyöstä virtaa energiatutkimukseen
Yhteistyöstä virtaa energiatutkimukseen
4/2014
Yhteistyöstä virtaa energiatutkimukseen
Bioenergia tuli jäädäkseen
Bioenergia tuli jäädäkseen
4/2014
Bioenergia tuli jäädäkseen
Professori Ulla Ruotsalainen vararehtoriksi
Professori Ulla Ruotsalainen vararehtoriksi
4/2014
Professori Ulla Ruotsalainen vararehtoriksi
Uusien professorien juhlaluennot
Uusien professorien juhlaluennot
4/2014
Uusien professorien juhlaluennot
Kolme voittajaa: yritykset, yliopisto ja yhteiskunta
Kolme voittajaa: yritykset, yliopisto ja yhteiskunta
4/2014
Kolme voittajaa: yritykset, yliopisto ja yhteiskunta
Uusia oivalluksia ja ahaa-elämyksiä insinööreille
Uusia oivalluksia ja ahaa-elämyksiä insinööreille
4/2014
Uusia oivalluksia ja ahaa-elämyksiä insinööreille
Voiko algoritmi olla energiapihi?
Voiko algoritmi olla energiapihi?
4/2014
Voiko algoritmi olla energiapihi?
Arkielämä ja globaalit ilmastohaasteet kohtaavat liikenteen tutkimuksessa
Arkielämä ja globaalit ilmastohaasteet kohtaavat liikenteen tutkimuksessa
4/2014
Arkielämä ja globaalit ilmastohaasteet kohtaavat liikenteen tutkimuksessa
Vinkkejä suunnitelmalliseen energiansäästöön
Vinkkejä suunnitelmalliseen energiansäästöön
4/2014
Vinkkejä suunnitelmalliseen energiansäästöön
Ruokaa verkosta
Ruokaa verkosta
4/2014
Ruokaa verkosta
BioMediTechin tutkimus esittäytyi Research Dayssa
BioMediTechin tutkimus esittäytyi Research Dayssa
4/2014
BioMediTechin tutkimus esittäytyi Research Dayssa
Tech EMBA – aidosti uudenlaista liiketoimintaa
Tech EMBA – aidosti uudenlaista liiketoimintaa
4/2014
Tech EMBA – aidosti uudenlaista liiketoimintaa

Tampereen teknillinen yliopisto on teknologisen kehityksen tiennäyttäjä sekä tutkimusmaailman ja elinkeinoelämän yhteistyökumppani. Yliopistosta valmistuu haluttuja osaajia yhteiskunnan eri aloille.

Käyntiosoite:
Korkeakoulunkatu 10,
33720 Tampere

Postiosoite:
PL 527, 33101 Tampere

Puhelinvaihde:
03 311 511
ma–pe kello 8–16.15
kesällä ma–pe 8–15.45

Virallinen sähköpostiosoite:
tty.asiointi@tut.fi