19.12.2022

Kuukauden tutkija: Marja-Liisa Helasvuo

Marja-Liisa Helasvuo
Kuva: Lyyra Virtanen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Marja-Liisa Helasvuo kertoo meille, millaisia digitaalisia kieliaineistoja Turun yliopistossa on tuotettu. Yhteistyökuvioiden myötä korpusten parissa tehtävä työ on laajentunut kokonaiseksi aineistoinfrastruktuuriksi.

Kuka olet?

Olen Marja-Liisa Helasvuo. Toimin suomen kielen professorina Turun yliopistossa. Aikoinaan lähdin opiskelemaan suomen kieltä ja yleistä kielitiedettä Helsingin yliopistoon, ja väittelin kielitieteestä Kalifornian yliopistossa Santa Barbarassa. Olen aina ollut erityisen kiinnostunut puhutusta kielestä, ja väitöskirjanikin käsitteli puhuttua suomen kieltä kieltenvälisen tutkimuksen näkökulmasta.

Mikä on tutkimuksesi aihe?

Tutkimukseni on keskittynyt kielioppiin ja ihmisten väliseen vuorovaikutukseen. Olen tarkastellut tutkimuksessani hyvin erilaisia aineistoja: arkikeskusteluja aikuisten välillä tai aikuisen ja lapsen kesken, verkkokeskusteluja ja muuta tietokonevälitteistä vuorovaikutusta sekä kirjoitettuja tekstejä vanhimmista suomenkielisistä teksteistä uudempiin kirjoituksiin. Olen tutkinut näiden aineistojen perusteella monenlaisia kieliopin kysymyksiä.

Työskentelen suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa Turun yliopistossa. Meillä on tuotettu useita digitaalisia korpuksia alkaen Lauseopin arkiston murrekorpuksesta, jonka teko aloitettiin 1967. Se on ensimmäinen suomen kielen korpus, joka on suoraan tehty koneluettavaan muotoon.

Murrekorpuksen jälkeen on tullut useita muita: Agricola-korpus, joka sisältää kaikki Mikael Agricolan teokset 1500-luvulta, Edistyneiden suomenoppijoiden korpus (LAS2) ja Akateemisen suomen korpus (LAS1). Nämä kaikki ovat kieliopillisesti koodattuja, ja ne ovat saatavissa Kielipankin kautta (LAS1 tulossa saataville lähiaikoina). Lisäksi meillä on tuotettu useita suomalais-ugrilaisten kielten aineistoja. Nämä aineistot on koottu Suomen ja sen sukukielten arkistoon. Kun yhteisössämme on tuotettu paljon kieliaineistoja, meillä on myös paljon tutkijoita, jotka ovat kiinnostuneita korpuspohjaisesta tutkimuksesta. Jos esimerkiksi en tiedä, miten jonkin asian saisi parhaiten selville, tai en keksi, mitä korpusta kannattaisi käyttää tietyn asian tutkimiseen, voin aina kysyä työkaverilta.

Olemme viime aikoina tehneet lisääntyvässä määrin yhteistyötä TurkuNLP-ryhmän kanssa. Perustimme UTU-Digilang-aineistoinfrastruktuurin, jossa ovat mukana meidän Suomen ja sen sukukielten arkiston lisäksi Digilang-aineistoportaali, Digilang-pitkäaikaistallennus ja TurkuNLP-ryhmä ja sen kieliaineistot ja aineistotyökalut. Tämä yhteistyö on ollut tosi antoisaa, ja olen oppinut siitä paljon. Haluaisin tulevaisuudessa lisätä yhteistyötä.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt lähes kaikissa tutkimuksissani korpuksia, joista monet ovat Kielipankin kautta saatavissa.

Olen itsekin ollut tekemässä Kielipankin kautta saatavissa olevaa Arkisyn-korpusta. Saimme hankkeelle Koneen Säätiön rahoituksen, jonka avulla rakensimme morfosyntaktisesti koodatun korpuksen. Siitä pystyy helposti hakemaan vaikkapa tietyn sanan kaikki esiintymät (esim. ajatella-verbi kaikissa eri muodoissaan) tai tietyn muodon kaikki esiintymät (esim. kaikki menneen ajan muodot).

Viime aikoina olen tutkinut erityisesti erilaisia kiteytyneitä ilmauksia, jotka esiintyvät taajaan ja useimmiten samassa muodossa. Esimerkiksi ajatella-verbi on hyvin yleinen verbi arkikeskusteluissa. Se esiintyy lähes aina yksikön 1. persoonassa ja ilmauksen aikamuoto on imperfekti, menneen ajan muoto (mä ajattelin). Kun vertasimme korpushaun tuloksia vastaaviin kohtiin äänitallenteissa, huomasimme, että vaikka ilmaukset oli kirjattu muotoon mä ajattelin, ilmaus oli todellisuudessa äänteellisesti hyvin kulunut. Kaikkein yleisimmin se oli muodossa maattet. Minä-pronominista ei ollut jäljellä kuin m-äänne alussa, ilmauksen ensimmäinen ja toinen tavu (ajat) olivat sulautuneet yhteen (aat). Loppuun oli liimautunut että-sanan kulunut muoto. Tämäntyyppinen äänteellinen kuluminen ja käytön kivettyminen tiettyyn muotoon on hyvin tavallista kiteytyneille ilmauksille.

Kielipankin aineistoista olen käyttänyt Arkisynin lisäksi mm. Suomi24-korpusta, Agricola-korpusta, Lauseopin arkiston murrekorpusta ja lehtiaineistoja. Eri korpukset mahdollistavat erilaisia tutkimusaiheita.

Kirjallisuutta

Laury, Ritva, Marja-Liisa Helasvuo & Janica Rauma 2020. “When an expression becomes fixed: mä ajattelin että ‘I thought that’ in spoken Finnish”. – Ritva Laury & Tsuyoshi Ono (eds.), Fixed Expressions: Building language structure and social action, pp. 133–166. Pragmatics & Beyond New Series 315. Amsterdam: John Benjamins. DOI: http://dx.doi.org/10.1075/pbns.315.06lau

Helasvuo, Marja-Liisa 2019. “Free NPs as units”. Special issue “On the Notion of Unit in the Study of Human Languages”, guest editors Tsuyoshi Ono, Ritva Laury & Ryoko Suzuki. Studies in Language 43:2:301–328. DOI: http://dx.doi.org/10.1075/sl.16064.hel

Laury, Ritva & Marja-Liisa Helasvuo 2016. “Disclaiming epistemic access with ‘know’ and ‘remember’ in Finnish”. Special Issue on “Grammar and negative epistemics in talk-in-interaction”, guest editors Jan Lindström, Yael Maschler and Simona Pekarek Doehler. Journal of Pragmatics 106 (2016): 80–96. DOI: http://dx.doi.org/10.1016/j.pragma.2016.07.005

Helasvuo, Marja-Liisa & Aki-Juhani Kyröläinen 2016. “Choosing between zero and pronominal subject: Modeling subject expression in the 1st person singular in Finnish conversation”. Corpus Linguistics and Linguistic Theory 12(2):263–299. DOI: http://dx.doi.org/10.1515/cllt-2015-0066

Lisätietoa mainituista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.