9.7.2018

Kuukauden tutkija: Mietta Lennes

Mietta Lennes
Kuva: Hanna Westerlund

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mietta Lennes kertoo Kielipankin aineistoihin liittyvästä väitöskirjatutkimuksestaan ja työstään FIN-CLARINissa.

Kuka olet?

Olen Mietta Lennes ja työskentelen projektisuunnittelijana FIN-CLARIN-konsortiossa, jota koordinoidaan Helsingin yliopistosta. Autan ja neuvon tutkijoita ja opiskelijoita erilaisissa puhetta ja tekstiä sisältävien kieliaineistojen hallintaan, tutkimiseen ja julkaisemiseen liittyvissä kysymyksissä. Lisäksi pidän korpuslingvistiikan, puheen analyysin ja aineistonhallinnan verkkokursseja. Koulutukseltani olen foneetikko.

Mitä tutkit ja miten tutkimuksesi liittyy Kielipankkiin?

Tuleva väitöskirjani käsittelee suomenkielisen arkipuheen äänteellisen vaihtelun ja sanojen esiintymisfrekvenssin välistä yhteyttä. Ennestään tiedetään esimerkiksi, että missä tahansa kielessä usein esiintyvät sanat tapaavat olla lyhyempiä kuin harvoin esiintyvät sanat. Tällaiseen tilanteeseen vaikuttavia foneettisia ilmiöitä voidaan kuitenkin tutkia tarkemmin vasta riittävän isolla aineistolla. Lisäksi puheäänitteiden on oltava teknisesti hyvälaatuisia, jotta niistä saadaan luotettavia akustis-foneettisia mittauksia.

Foneettiseen tutkimukseen olen käyttänyt aineistoa nimeltä FinINTAS – Spontaanin ja ääneen luetun suomenkielisen puheen korpus ja erityisesti sen keskustelupuhetta sisältävää FinDialogue-alakorpusta. Aineisto julkaistaan Kielipankissa, kun väitöskirjatyöni on valmis. FinINTAS-korpus kerättiin pääosin INTAS 00-915-nimisen kansainvälisen tutkimushankkeen ja sen suomalaisten liitännäisprojektien aikana, joissa vertailtiin ääneen lukemista ja spontaania puhetta foneettiselta kannalta. Olin itse käytännön vastuussa FinINTAS-aineiston äänitysten ja aineiston annotoinnin teknisestä suunnittelusta ja järjestelyistä. Työssä oli mukana useita fonetiikan ja suomen kielen opiskelijoita sekä Helsingistä että Pietarista. Yhdessä saimme aineiston vähitellen annotoitua käyttökelpoiseen kuntoon ja julkaisujakin syntyi.

Väitöskirjaani varten tarvitsin lisäksi tietoa suomen puhekielessä esiintyvien sananmuotojen frekvensseistä. Tähän tarkoitukseen pelkkä FinDialogue-aineisto oli sanemäärältään liian pieni, eikä Kielipankissakaan vielä tuolloin ollut sopivia aineistoja. Onneksi silloisen yleisen kielitieteen laitoksen korpuspalvelimella sattui olemaan nykyisen Helsingin puhekielen pitkittäiskorpuksen (Helpuhe1) 1970-luvun osa-aineiston tekstimuotoisia litteraatteja, joita sain käyttää. Kyseinen Helsingin puhekielen aineisto muistutti tyyliltäänkin FinDialogue-korpusta. 1970-luvulla kerätyn aineiston litterointikäytänteet olivat kuitenkin vaihdelleet niin paljon, että väitöskirjatyötäni varten jouduin käsin yhtenäistämään tekstejä, jotta niistä laskemani sanafrekvenssit olisivat pitäneet edes suunnilleen paikkansa. Tätä sotkuista urakkaa muistellessa tuntuukin todella hienolta, että Helsingin puhekielen pitkittäiskorpuksen 1970-, 1990- ja 2010-lukujen osa-aineistot – sekä äänitteet että niihin kohdistetut litteraatit – on sittemmin tallennettu Kielipankkiin Hanna Lappalaisen tutkimusryhmän ansiosta.

Miksi työskentelet FIN-CLARINissa?

Kieliaineistoa keräävä tutkija joutuu usein huomaamaan, ettei pelkkä valtava tekstimassa tai äänitekokoelma välttämättä suoraan tarjoa hänen kaipaamiaan vastauksia. Monissa projekteissa olen kantapään kautta oppinut, että puheen äänittäminen ja videointi on sinänsä helppoa, mutta järjestelmällinen aineiston kerääminen ja tallennettujen näytteiden litterointi, annotointi ja muu järjestäminen edellyttää suunnitelmallisuutta ja kestää yleensä huomattavasti kauemmin. Tutkijan kannattaa myös kuvailla käyttämänsä aineistot ja analyysimenetelmät huolellisesti ja varmistaa mahdollisuudet tutkimuksen asteittaiseen paranteluun ja aineiston muuhun jatkokäyttöön.

Hyvästäkin pohjatyöstä huolimatta aineiston käsittely ja analyysi tiettyä tutkimuskysymystä varten vaatii monesti jonkin verran käsityötä tai ainakin automaattisten menetelmien räätälöintiä. Tässä salapoliisityössä Kielipankin kaltainen palvelukokonaisuus ja koko FIN-CLARINin tutkijaverkosto on kullanarvoinen tuki. Uskon, että monipuoliset aineistonhallintataidot ovat tulevaisuudessa yhä tärkeämpi osa tutkijan osaamista.

Oma työni FIN-CLARINissa on mielenkiintoista ja vaihtelevaa. Hienoimmalta tuntuu, kun onnistun auttamaan opiskelijaa tai tutkijaa ratkaisemaan jonkin tutkimukseensa liittyvän teknisen ongelman tai löytämään hänelle sopivan työkalun. Yhdessä koko Kielipankki-tiimin ja FIN-CLARINin yhteistyötahojen kanssa ideoimme ja kehitämme Kielipankkiin myös uusia palveluita tutkijoiden avuksi.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli on julkaistu myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.