Kuukauden tutkija: Jussi Ylikoski

Jussi Ylikoski
Kuva: Ilona Ylikoski

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jussi Ylikoski kertoo tutkimuksestaan, joka liittyy suomen ja sen sukukielten kieliopillisiin piirteisiin ja niiden kehitykseen.

Kuka olet?

Olen Jussi Ylikoski, kielentutkija. Työskentelen viidettä vuotta Oulun yliopistossa saamen kielen professorina, mutta syksystä 2022 alkaen Turun yliopiston suomalais-ugrilaisen kielentutkimuksen professorina. Olen siis aika monen kielen tutkija, myös suomen.

Mikä on tutkimuksesi aihe?

Tutkimusaiheita on riittänyt suomen ja sen sukukielten parissa, välillä osin niiden ulkopuolellakin. Eniten olen tutkinut tuttujen ja tuntemattomampien kielten kielioppeja eli muoto- ja lauseoppia, mutta välillä myös muun muassa etymologiaa. Nykykieliä tutkiessani en useinkaan malta olla tarkastelematta kieliä myös niiden kehityksen näkökulmasta, kielihistoriaa tutkiessani puolestaan kiinnitän tavallista enemmän huomiota nykykielten todelliseen käyttöön todellisten tekstiaineistojen valossa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankin aineistoja olen käyttänyt etenkin suomen kielen kieliopin tutkijana. Jo vuonna 2003 julkaisin artikkelin, jossa selvitin Kielipankissa olevan Suomen kielen tekstikokoelman avulla, että ns. 5. infinitiivinä tunnettua verbimuotoa (-maisillaan, –mäisillään) käytetään monella muullakin tavalla kuin vain olla-verbin yhteydessä, toisin kuin kieliopit aina olivat esittäneet. Esimerkiksi otsasuonet eivät välttämättä vain ole repeämäisillään vaan ne voivat myös vaikkapa pullistella repeämäisillään – tai joku raukka voi peloissaan odottaa jotain otsasuonet repeämäisillään.

Viime vuosina olen innostunut entistä suuremmista, miljardien sanojen laajuisista tekstimassoista, joita on saatavilla Kielipankin ja muiden CLARIN-palveluiden kautta. Tutkimuksessani olen käyttänyt mm. Helsingin yliopiston suomenkielisen E­-thesiksen Korp­-versiota, Kansalliskirjaston sanoma­ ja aikakauslehti­kokoelman suomenkielistä osakorpusta, Suomi 24 ­-korpuksen eri versioita, Ylilauta-korpusta sekä 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpuksen versiota 2.  Laajojen aineistojen avulla myös suomen kaltaisesta todella hyvin tunnetusta ja tutkitusta kielestä on mahdollista löytää tavallaan jopa uusia sijamuotoja. Olen tarkastellut mm. vanhastaan prolatiiviksi kutsuttujen muotojen lauseoppia ja havainnut niiden käytössä sijamaisempia piirteitä kuin mitä aiemmassa tutkimuskirjallisuudessa on esitetty. Kyse ei aina ole vain yksittäisistä sanoista (esim. maitse ja meritse), vaan niitä voivat määrittää myös sivulauseet (esim. mailitse jossa on helpompi kaunistella asioita ja tekstiviestitse joihin turhan harva vastaa).

Jännittävimpiä havaintoja olen tehnyt tutkiessani sellaisia aiemmin selvinä johdoksina pidettyjä muotoja kuin lauantaisin ja viikonloppuisin tai kunnittain ja aihealueittain. Kielipankin Korp-käyttöliittymällä on mahdollista löytää miljardien sanojen kokoisista aineistoista satoja tai jopa tuhansia suhteellisen luontevia lauseita, joissa tällaisillakin muodoilla on erilaisia määritteitä, jotka saavat ne näyttämään substantiivien taivutusmuodoilta: elokuun lauantaisin, joka lauantaisin, satunnaisin viikonloppuisin tai vaikkapa Suomen kunnittain, eri maittain ja tietyin aihealueittain. Koska tällaiset temporaalit (lauantaisin) ja distributiivit (kunnittain) käyttäytyvät hyvin sijamaisesti, olen leikkisästi kutsunut kyseisiä muotoja ”kääpiösijoiksi” samaan tapaan kuin aiemmin planeettana tunnettua Plutoa kutsutaan nykyään kääpiöplaneetaksi.

Johdosten ja taivutusmuotojen rajankäyntiin uppouduttuani olen päätynyt tarkastelemaan myös esimerkiksi suomen abessiivia (rahatta, internetittä jne.) ja ns. t-akkusatiivia (minut, meidät jne.) aiempaa perusteellisemmin. Itse havainnoin ja kuvaan aiemmin tuntemattomiksi jääneitä muotoja ja lauserakenteita mieluiten deskriptiivisen kielentutkimuksen keinoin, mutta Kielipankin välineet tarjoavat paljon mahdollisuuksia myös kvantitatiivisesta analyysista kiinnostuneille.

Kielipankin ohella olen käyttänyt vähintään yhtä paljon tromssalaisten kieliteknologien tuottamia saamelaiskielten ja monien muidenkin uralilaisten vähemmistökielten korpuksia, jotka hyödyntävät samaa Korp-käyttöliittymää kuin suomalainen Kielipankki. Suomen sukukielten ystävät löytävät kyseisiä aineistoja Tromssan yliopiston Giellateknon ylläpitämästä Korp-palvelusta, http://gtweb.uit.no/korp/ (saame) ja http://gtweb.uit.no/u_korp/ (muut sukukielet). Vaikkapa 63 miljoonaa sanaa annotoitua maria – voiko fennougristi enempää toivoa?

Kielipankkiin liittyviä julkaisuja

Ylikoski, Jussi. 2003. Havaintoja suomen ns. viidennen infinitiivin käytöstä. [Summary: Remarks on the use of the proximative verb form (the so-called 5th infinitive) in Finnish.] Sananjalka 45. 7–44. https://doi.org/10.30673/sja.86640

Ylikoski, Jussi. 2018. Prolatiivi ja instrumentaali: suomen –(i)tse ja –teitse kieliopin ja leksikon rajamailla. Sananjalka 60. 7–27. [Summary: On Finnish prolatives and instrumentals: –(i)tse and –teitse in between grammar and lexicon.] https://doi.org/10.30673/sja.69978

Ylikoski, Jussi. 2020. Kielemme kääpiösijoista: prolatiivi, temporaali ja distributiivi. Virittäjä 124. 529–554. [Summary: On Finnish dwarf cases: prolative, temporal and distributive.] https://doi.org/10.23982/vir.76971

Ylikoski, Jussi. 2021. Abessiivin apologia. Puhe ja kieli 41. 139–157. [Summary: Apologia of the Finnish abessive case.] https://doi.org/10.23997/pk.110924

Ylikoski, Jussi. 2021. Mistä voisin löytää sen entisen sinut? Suomen kielen akkusatiivi- ja pronominioppia. – Leena Maria Heikkola, Geda Paulsen, Katarzyna Wojciechowicz & Jutta Rosenberg (toim.), Språkets funktion. Juhlakirja Urpo Nikanteen 60-vuotispäivän kunniaksi. Festskrift till Urpo Nikanne på 60-årsdagen. Festschrift for Urpo Nikanne in honor of his 60th birthday. Åbo: Åbo Akademis förlag. 220–243. https://urn.fi/URN:ISBN:978-952-12-4062-1

 

Lisätietoa Kielipankissa olevista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Jutta Salminen

Jutta Salminen
Kuva: Malin Bengtsson

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jutta Salminen kertoo tutkimuksestaan, joka liittyy kiellon ilmaisemiseen suomen kielessä.

Kuka olet?

Olen Jutta Salminen (FT, MuK). Väittelin Helsingin yliopistosta suomen kielen alalta keväällä 2020 ja työskentelen kuudetta vuotta suomen kielen lehtorina Greifswaldin yliopistossa Saksassa. Olen kiinnostunut kieliopista ja kielellisestä merkityksestä – erityisesti kaikesta, mikä liittyy kiellon ilmaisuun sekä monimerkityksisyyteen.

Mikä on tutkimuksesi aihe?

Väitöskirjassani tutkin epäillä-verbin ja sen nominijohdosten epäily ja epäilys käyttöä ja tulkintoja sekä verbin osalta myös sen muuttumista kirjoitetun suomen aikana. Tutkimuksen lähtökohtana oli huomio, että epäileminen voi nykysuomessa käyttöyhteydestään riippuen tarkoittaa joko jonkin asian todennäköisenä tai epätodennäköisenä pitämistä. Kiinnostuin siis siitä, kuinka yksittäistä sanaa voidaan käyttää itselleen vastakohtaisissa merkityksissä. Lisäksi näiden sanojen kautta pääsi tarkastelemaan sitä, miten varsinainen kielto (’ei ole (totta, että) X’) ja ns. evaluoiva kielteisyys (’ei ole hyvä, että X’, ’en pidä X:stä’) suhteutuvat toisiinsa kielen käytössä, sillä epäillä-verbin ja sen nominijohdosten merkityspotentiaaliin kuuluvat nämä molemmat kielteisyyden puolet.

Työn alla oleva tutkimukseni käsittelee suomen kieltohakuisia pro-sanoja (esim. kukaan) ja sitä, mitä niiden käyttökontekstit kertovat niiden kieliopillisesta ja semanttisesta luonteesta. Englanninkielisessä kirjallisuudessa nimellä negative polarity item (NPI) kulkevia elementtejä on tutkittu (etenkin isoista indoeurooppalaisista kielistä) varsin paljon, ja on kiinnostavaa tarkastella, kuinka suomen elementit suhteutuvat näihin kuvauksiin.

Miten Kielipankki liittyy tutkimukseesi?

Kun tutkitaan kielellisen merkityksen vaihtelua, muutosta ja eri tulkintojen yleisyyttä, tarvitaan analyysin materiaaliksi kieliaineistojen esiintymiä tutkittavasta kielenaineksesta. Väitöstutkimukseni epäillä-verbianalyysia varten kokosin eri tekstilajeja edustavan aineiston useista korpuksista: Suomen kielen tekstikokoelmasta, Suomalaisen kirjallisuuden klassikoista, Varhaisnykysuomen korpuksesta, Kansalliskirjaston sanomalehti- ja aikakauslehtikokoelman (KLK) suomenkielisestä osakorpuksesta sekä Vanhan kirjasuomen korpuksesta. Väitöskirjatyöni alkuvaiheessa Suomen kielen tekstikokoelma oli vielä saatavilla Kielipankin aikaisemmassa Lemmie-hakukäyttöliittymässä ja muut korpukset KLK:ta lukuun ottamatta löytyivät Kotuksen Kaino-palvelusta. Nykyisin voin käyttää kaikkia mainittuja aineistoja Kielipankin Korp-alustalla.

Perustin epäily(s)-nominien vertailun niiden esiintymiin HS.fi-uutiskommenttiaineistossa, jonka avulla saatoin tarkastella kyseisten sanojen käyttöä sekä toimitetussa uutistekstissä että lukijakommenteissa. Koska monimerkityksisten sanojen merkitysvariantit hahmottuvat kielellisten kontekstien kautta, oli tutkimukseni kannalta olennaista, että pääsin Kielipankin kautta tehokkaasti käsiksi myös laajempiin yksittäisten hakutulosten käyttöyhteyksiin.

Käynnissä oleva tutkimukseni kieltohakuisista elementeistä on luonteeltaan pitkälti kieliopin kuvausta.  Koska kielioppi elää käytössä, ovat kieliaineistot itse postuloitujen esimerkkien ohella tarpeellisia tällaisessa tutkimuksessa etenkin, kun jokin ilmaisutapa on (vielä) vakiintuneisuuden ja hyväksyttävyyden rajoilla. Suomi24-korpus on osoittautunut hedelmälliseksi aineistoksi kieltohakuisten ainesten käytön tarkastelussa.

Kielipankkiin liittyviä julkaisuja

Salminen, Jutta (2020). Epäilemisen merkitys. Epäillä-sanueen polaarinen kaksihahmotteisuus kiellon ja kielteisyyden semantiikan peilinä. Väitöskirja. Helsinki: Helsingin yliopisto. http://urn.fi/URN:ISBN:978-951-51-5879-6

Salminen, Jutta (2018). Paratactic negation revisited. The case of the Finnish verb epäillä. Functions of Language 25(2): 259–288. https://doi.org/10.1075/fol.15030.sal

Salminen, Jutta (2017). Mitä tarkoittaa epäillä? Epäillä-verbin polaarisesta merkitysvariaatiosta nykysuomessa. Virittäjä 121: 4–36. https://journal.fi/virittaja/article/view/52322

Salminen, Jutta (2017). Epäillä-verbin polaarinen kaksihahmotteisuus merkitysmuutoksena. Virittäjä 121: 37–66. https://journal.fi/virittaja/article/view/52323

Salminen, Jutta (2017). Epäily vai epäilys? Jaettu polysemia ja lekseemien tyypilliset käytöt. Sananjalka 59: 217–243. https://doi.org/10.30673/sja.66636

 

Lisätietoa Kielipankissa olevista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mikko Kurimo

Mikko Kurimo
Kuva: Evelin Kask, Aalto-yliopisto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mikko Kurimo kertoo automaattiseen puheentunnistukseen liittyvästä tutkimuksestaan.

Kuka olet?

Olen puheen- ja kielenkäsittelyn professori ja puheentunnistuksen tutkimusryhmän johtaja Aalto-yliopiston signaalinkäsittelyn ja akustiikan laitoksella.

Mikä on tutkimuksesi aihe?

Kehitin 25 vuotta sitten väitöskirjatutkimuksessani neuroverkkoalgoritmeja, joilla opetin automaattista puheentunnistusta tarkemmaksi ja robustimmaksi. Äänteiden tilastollisten mallien opettamiseen tarvitaan suuria puheaineistoja, joissa äänteet on etukäteen kohdistettu tekstiin. Sellaisia oli kuitenkin tuohon aikaan saatavilla hyvin vähän. Niinpä tutkimusryhmämme joutui käytännössä keräämään ja käsittelemään aineistot itse. Työmme helpottui, kun saimme kehitettyä automaattisia menetelmiä puheen ja tekstin kohdistamiseen keskenään, jolloin suomen puheentunnistimen opettamisessa päästiin hyödyntämään äänikirjoja sekä radio- ja televisiouutisia (esim. FBC – Suomalainen radio- ja tv-korpus).

Pelkällä yksittäisten äänteiden mallintamisella ei kuitenkaan päästä riittävään tarkkuuteen, koska puheessa äänteet eivät erotu selvästi eivätkä aina samanlaisina vaan mukautuvat sana- ja lauseyhteyteen. Siksi puheentunnistimelle opetetaan myös malli käytetystä kielestä. Kielimallin avulla tunnistin päättelee, mitä sanoja ja lauseita puheen sisältämät äänneyhdistelmät todennäköisesti edustavat. Kielimallin opettamista varten tarvitaan valtava määrä tekstejä, joissa kieltä käytetään mahdollisimman monipuolisesti. Suomenkielisen puheentunnistimen opettamiseen on käytetty esimerkiksi Kielipankissa olevaa Suomen kielen tekstikokoelmaa (FTC).

Kun ääneen lukemisen ja sanelupuheen muuntaminen tekstiksi onnistuu tarpeeksi hyvin, tätä teknologiaa voidaan tavallisen tekstin sanelun lisäksi käyttää monissa hyödyllisissä sovelluksissa, esimerkiksi valmisteltujen puheiden litteroinnissa ja esitysten ja televisio-ohjelmien sanelutekstityksessä. Vielä enemmän minua kiinnostaa kuitenkin luonnollinen ja spontaani puhe, jota me kaikki käytämme arkipäiväisissä keskusteluissa ja kertomuksissa. Koska vapaa puhe on ihmiselle tehokkain viestintätapa, sitä ymmärtävä puheentunnistus on avainasemassa myös silloin, kun kehitetään ihmisen kanssa kommunikoivaa tekoälyä.

Keskustelupuheen mallien opettamisen vaikeutena on yhtäältä puheen valtava variaatio ja toisaalta se, että tarkasti litteroituja luonnollisen puheen aineistoja on heikosti saatavilla puheentunnistuksen opettamista varten. Koska kirjoitettu kieli poikkeaa monin tavoin puhutusta kielestä, on kielimallien opettamiseen tarvittavat tekstiaineistotkin käytännössä tuotettava litteroimalla ne ensin puheesta.

Miten Kielipankki liittyy tutkimukseesi?

Ensimmäisen keskustelupuheen puheentunnistimen opettamiseen käytimme itse keräämämme DSPCON-aineiston lisäksi FinDialogue-korpusta. Kielimallit opetettiin suodattamalla em. aineistojen perusteella puhutun kielen kaltaisia osia tekstimuotoisista keskusteluista.

Parhaillaan valmistelemme julkaistaviksi kahta uutta vapaan puheen korpusta, Eduskunnan täysistuntokeskustelujen laajennusta ja Lahjoita Puhetta -kampanjassa kerättyä aineistoa. Kummassakin on puhetta noin 4000 tuntia – siis merkittävästi enemmän kuin kaikissa aiemmin julkaistuissa suomenkielisissä puheentunnistuksen opettamiseen soveltuvissa puhekorpuksissa yhteensä. Uskon, että uusien aineistojen avulla voimme merkittävästi parantaa myös Aallon puheentunnistinta (Aalto-ASR), jonka uusin versio (Aalto-ASR 2.1) on tällä hetkellä käytettävissä Kielipankin kautta.

Kielipankkiin liittyviä julkaisuja

Mikko Kurimo (1997). Using Self-Organizing Maps and Learning Vector Quantization for Mixture Density Hidden Markov Models. PhD thesis, Helsinki University of Technology, Espoo, Finland.

Mikko Kurimo, Vesa Siivola, Teemu Hirsimäki, Janne Pylkkönen, Reima Karhila, Peter Smit, Seppo Enarvi, André Mansikkaniemi, Matti Varjokallio, Ulpu Remes, Heikki Kallasjoki, Sami Keronen, Katri Leino, Ville T. Turunen & Kalle Palomäki (tekijän nimet eivät ole missään erityisessä järjestyksessä, paitsi projektin johtaja mainitaan ensimmäisenä). 2000 –2016. AaltoASR – rajoittamattoman sanaston jatkuvan puheen automaattinen tunnistin avoimella lähdekoodilla, Aalto-yliopisto.

Seppo Enarvi & Mikko Kurimo (2013). Studies on Training Text Selection for Conversational Finnish Language Modeling. In Proceedings of the 10th International Workshop on Spoken Language Translation (IWSLT), Heidelberg, Germany, s. 256–263. Saatavilla: http://urn.fi/URN:NBN:fi:aalto-201708036342.

André Mansikkaniemi, Peter Smit & Mikko Kurimo (2017). Automatic Construction of the Finnish Parliament Speech Corpus. Proceedings of Interspeech 2017, Vol. 8, s. 3762–3766. Saatavilla: https://doi.org/10.21437/Interspeech.2017-1115

Juho Leinonen, Sami Virpioja & Mikko Kurimo (2021). Grapheme-Based Cross-Language Forced Alignment: Results with Uralic Languages. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). Linköping University Electronic Press. Saatavilla: http://hdl.handle.net/10138/330758

Peter Smit, Sami Virpioja & Mikko Kurimo (2021). Advances in subword-based HMM-DNN speech recognition across languages. Computer Speech & Language,Vol. 66. Saatavilla: https://doi.org/10.1016/j.csl.2020.101158

 

Lisätietoa Kielipankissa olevista kielivaroista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Veronika Laippala

Veronika Laippala
Kuva: Matti Honka-Hallila

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Veronika Laippala kertoo suuriin kieliaineistoihin ja laskennallisiin menetelmiin liittyvästä tutkimuksestaan.

Kuka olet?

Olen Veronika Laippala ja toimin digitaalisen kielentutkimuksen professorina Turun yliopiston kieli- ja käännöstieteiden laitoksella ja TurkuNLP-tutkimusryhmässä.

Mikä on tutkimuksesi aihe?

Suurin osa tutkimuksestani liittyy tavalla tai toisella kielenkäyttöön: suuriin, useimmiten internetistä koostettuihin aineistoihin ja laskennallisiin menetelmiin. Lisäksi olen ollut mukana kehittämässä suomenkielistä kieliteknologiaa, kuten Turku Dependency Treebank -puupankkia ja Turku NER -nimientunnistusjärjestelmää.

Tällä hetkellä meillä on käynnissä useita hankkeita, joissa työstetään internetpohjaisia kieliaineistoja tarkastelemalla niissä käytettäviä tekstilajeja ja kehittämällä koneoppimismenetelmiä, jotka tunnistavat tekstilajeja automaattisesti. Tällaisista menetelmistä ja välineistä hyötyisivät sekä internetin käyttäjät ylipäätään että internetpohjaisia kieliaineistoja käyttävät tutkijat.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankin laaja aineistovalikoima antaa mahdollisuuksia vaikka mihin! Eniten olen luultavasti käyttänyt Suomi 24-aineistoa, joka on laajuudessaan ainutlaatuinen. Lisäksi puupankkimme pohjalta kehitettyä syntaksijäsennintä käytetään Kielipankin aineistojen jäsentämiseen. Ja tietysti opetan kursseillani Korp-käyttöliittymän käyttöä.

Kielipankkiin liittyviä julkaisuja

Liina Repo, Valtteri Skantsi, Samuel Rönnqvist, Saara Hellström, Miika Oinonen, Anna Salmela, Douglas Biber, Jesse Egbert, Sampo Pyysalo & Veronika Laippala (2021). Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight Monolingual Classification of Registers. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop, pp. 183–191. Saatavilla: https://aclanthology.org/2021.eacl-srw.24.

Veronika Laippala, Jesse Egbert, Douglas Biber & Aki-Juhani Kyröläinen (2021). Exploring the role of lexis and grammar for the stable identification of register in an unrestricted corpus of web documents. Language Resources and Evaluation, Vol. 55, pp. 757–788. DOI: 10.1007/s10579-020-09519-z.

 

Lisätietoa Kielipankissa olevista kielivaroista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Juho Leinonen

Juho Leinonen
Kuva: Petteri Haapaniemi

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Juho Leinonen kertoo puheen automaattiseen tunnistamiseen ja kohdistamiseen sekä chattibotteihin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Juho Leinonen ja opiskelen tekniikan tohtoriksi Mikko Kurimon johtamassa puheentunnistusryhmässä Aalto-yliopistossa. Aloitin jatko-opintoni vuonna 2017 työskenneltyäni sitä ennen pari vuotta teollisuuden palveluksessa.

Mikä on tutkimuksesi aihe?

Diplomityöni aiheena oli saamenkielinen puheentunnistus, josta saatua kokemusta pystyn soveltamaan myös jatko-opinnoissa. Nykyisessä chattibotteja ja puheen kohdistamista koskevassa työssäni tarvitaan kielimalleja ja akustisia malleja, joita käytetään myös automaattisessa puheentunnistuksessa. Siinä missä kielimallit auttavat puheentunnistinta tunnistamaan epäselvästi lausuttuja sanoja, tutkimani chattibotit tuottavat kielimallien avulla uutta tekstiä. Kielimalleja voidaan käyttää myös esimerkiksi chattibotin tuottaman tekstin laadun arvioimiseen. Näin syntyy kehä: Jotta tekstin laadun arviointi toimisi luotettavasti, pitäisi ensin ymmärtää, mitä laadukas teksti on, mutta samaa ymmärrystä tarvittaisiin toisaalta myös tekstin tuottamiseen chattibotilla. Ongelma onkin oikeastaan sekä insinööritieteellinen että filosofinen.

Perinteisessä puheentunnistuksessa kohteena olevalle ääninäytteelle pyritään etsimään teksti, joka vastaa näytettä mahdollisimman hyvin. Kun puheentunnistinta kehitetään, tarvitaan ns. akustisia malleja varten kuitenkin ensin koulutusdataa, jossa teksti on kohdistettu puheeseen. Tekstin ja puheen kohdistaminen onkin puheentunnistuksessa rutiinia. Kohdistaminen olisi kuitenkin tarpeellista myös muiden alojen tutkijoille, eivätkä kaikki voi ryhtyä puheentunnistuksen ammattilaisiksi ennen kuin pääsevät alkuun omassa tutkimuksessaan. Kuluneen vuoden aikana olen paketoinut ryhmämme käyttämiä tunnistus- ja kohdistustyökaluja kokonaisuudeksi, joka olisi mahdollisimman helposti jaettavissa. Koetan myös etsiä hyviä mittareita, joiden avulla puheen ja tekstin kohdistuksen laatua voitaisiin arvioida. Tavoitteenani on selvittää, mitkä akustiset mallit tai piirteet tuottavat parhaan kohdistuksen ja millaisissa tilanteissa valtakielille tehtyjä malleja voisi tai kannattaisi käyttää myös muiden, harvinaisempien kielten kohdistamiseen. Tämä tutkimus on myös avannut minulle kielitieteilijöiden maailmaa, kun yritän tehdä työkalusta heillekin mahdollisimman hyödyllisen.

Miten Kielipankki liittyy tutkimukseesi?

Hetken päähänpistosta tulin kokeilleeksi suomenkieliselle puheelle kehitettyä puheentunnistintamme saamenkielisen Giellagas-aineiston (Pohjoissaamen näytekorpus) kohdistamiseen, jolloin syntyi viimeisimmässä julkaisussani (Leinonen, Virpioja & Kurimo, 2021) kuvattu idea kielten välisestä kohdistuksesta. Yhdelle kielelle kehitettyä kohdistustyökalua voi siis mahdollisesti käyttää myös muiden kielten puheen ja tekstin kohdistamiseen, jos kielten äänne- ja kirjoitusjärjestelmät ovat riittävän samankaltaisia. Pyrin jatkossa hyödyntämään muitakin Kielipankissa olevia puheaineistoja, joissa on mukana puheeseen kohdistetut tekstit. Tutkimuksessa käyttämäni kohdistin on nykyään myös muiden tutkijoiden käytettävissä osana Aalto-yliopiston automaattista puheentunnistinta (Aalto-ASR v.2), joka on valmiiksi asennettu CSC:n Puhti-laskentaympäristöön.

Chattibottien opettamiseen käytän myös Kielipankin Suomi24-aineistoa. Voi tuntua nurinkuriselta, että tällaista kieltä käytetään ”opetustarkoituksessa”. Kielimalleja varten tarvitaan kuitenkin valtavasti tekstiä ja sopivaa aineistoa on vaikea löytää tarpeeksi suurta määrää.

Kielipankkiin liittyviä julkaisuja

Leinonen, J., Smit, P., Virpioja, S., & Kurimo, M. (2017). New baseline in automatic speech recognition for Northern Sámi. In International Workshop on Computational Linguistics for the Uralic Languages (pp. 89-99). https://doi.org/10.18653/v1/W18-0208

Leino, K., Leinonen, J., Singh, M., Virpioja, S., & Kurimo, M. (2020). FinChat: Corpus and evaluation setup for Finnish chat conversations on everyday topics. In Interspeech (pp. 429-433). International Speech Communication Association. https://doi.org/10.21437/Interspeech.2020-2511

Leinonen, J., Virpioja, S., & Kurimo, M. (2021, May). Grapheme-Based Cross-Language Forced Alignment: Results with Uralic Languages. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). Linköping University Electronic Press. http://hdl.handle.net/10138/330758

 

Lisätietoa Kielipankissa olevista kielivaroista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Okko Räsänen

Okko Räsänen
Kuva: Jonne Renvall/Tampereen yliopisto

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Okko Räsänen kertoo lapsen puheenkehityksen laskennalliseen mallintamiseen liittyvistä tutkimuksistaan.

Kuka olet?

Olen Okko Räsänen, tenure track –professori ja akatemiatutkija Tampereen yliopistossa tietotekniikan yksikössä, jossa johdan Puheen ja kognition tutkimusryhmää. Ennen siirtymistäni Tampereelle työskentelin pitkään Aalto-yliopiston signaalinkäsittelyn ja akustiikan laitoksella, jossa toimin edelleen puheenkäsittelyn dosenttina.

Mikä on tutkimuksesi aihe?

Tutkimukseni päälinja keskittyy lapsen varhaisen kielenoppimisen laskennalliseen mallinnukseen sekä lapsen kuuleman puheen tutkimukseen. Tavoitteena on ymmärtää kielenoppimisen taustalla olevia informaationkäsittelyn periaatteita: mitä kaikkea puhesignaalille täytyy tapahtua ihmisen aivoissa tai miten sitä olisi käsiteltävä tekoälyjärjestelmissä, jotta puheen sisältöä voidaan oppia ymmärtämään? Tutkimme esimerkiksi sitä, minkälaisia kielen rakenteita puheesta ja muusta lapsille tarjolla olevasta aisti-informaatiosta on omaksuttavissa kieliriippumattomalla tavalla, ja toisaalta sitä, mitä oppimismekanismeja ja ennakko-oletuksia malleihin on sisällytettävä, jotta oppiminen voi onnistua. Taustalla on myös kysymys siitä, millaista kielisyötettä ja muuta moniaistista informaatiota lapset ylipäätään kuulevat ja havaitsevat varhaisen kielenkehityksensä aikana, ja missä määrin puheen määrä, laatu ja moniaistisuus tukevat kielen rakenteiden (esim. äänteiden ja sanojen) omaksumista.

Jotta voisimme paremmin ymmärtää lasten kuuleman puheen ominaisuuksia, olemme laskennallisten mallien lisäksi kehittäneet myös käytännön analyysityökaluja suurten lapsikeskeisten ääniaineistojen automaattiseen analyysiin. Kyseiset aineistot koostuvat tyypillisesti päivän mittaisista nauhoituksista, jotka on tallennettu päälle puettavia mikrofoneja käyttäen lasten luonnollisissa ääni- ja kieliympäristöissä. Esimerkiksi äskettäin päättyneessä kansainvälisessä yhteistyöhankkeessa Analyzing Child Language Experiences around the World analysoimme noin 14 000 tunnin edestä lapsikeskeisiä ääniaineistoja, joiden avulla kartoitimme lasten varhaisia kielikokemuksia erilaisissa kieli- ja kulttuuriympäristöissä. Seuraavana tavoitteenamme on jatkojalostaa nämä analyysit julkaisuiksi asti.

Kielenoppimisen laskennallinen tutkimus on monitieteistä ja kiinnostavaa mutta toisaalta haastavaakin työtä. Puhesignaalien kanssa toimiminen ja ihmisen oppimisprosessien mallintaminen vaatii signaalinkäsittelyn ja koneoppimisen menetelmien syvällistä hallintaa. Samalla täytyy kuitenkin ymmärtää fonetiikkaa, varhaista kielenkehitystä ja ihmisen kognition toimintaa, jotta mallit ja menetelmät voidaan sovittaa yhteen kielenkehityksen tutkimuksen ja empiirisen datan kanssa.

Kielenoppimisen tutkimuksen ohella tutkimusryhmäni kehittää erilaisia puheen analyysimenetelmiä, kuten puhujan terveydentilan ja tunnetilojen arviointia puheen perusteella. Ryhmäni on myös mukana kehittämässä vauvojen älyvaatteita aivojen ja motoriikan kehityksen kliinistä arviointia ja seurantaa varten (osana Suomen akatemian Tieteellä terveyteen -tutkimusohjelmaa). Työskentelen monien muidenkin puheteknologian, kognitiotieteen, ja koneoppimiseen pohjautuvan signaalianalytiikan teemojen parissa, sillä usein puheteknologiassa käytetyt signaalinkäsittelyn ja koneoppimisen menetelmät soveltuvat lähes sellaisinaan hyvin monenlaisen aikasarjadatan käsittelyyn.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt tutkimuksessani Kielipankkiin tulossa olevaa FinDialogue-korpusta ja moni muukin Kielipankin aineisto on minulle ennalta tuttu. Odotan innolla Lahjoita puhetta –kampanjassa kerätyn puheaineiston julkaisua. Mielestäni Kielipankki on myös varteenotettava julkaisukanava mahdollisille uusille aineistoille, joita tutkimuksemme saattaa tulevaisuudessa tuottaa.

Kielipankkiin liittyviä julkaisuja

Khorrami, K. & Räsänen, O. (2021). Can phones, syllables, and words emerge as side-products of cross-situational audiovisual learning? – A computational investigation. Language Development Research, https://doi.org/10.34842/w3vw-s845

Räsänen, O., Seshadri, S., Lavechin, M., Cristia, A., & Casillas, M. (2021). ALICE: An open-source tool for automatic measurement of phoneme, syllable, and word counts from child-centered daylong recordings. Behavior Research Methods, 53,  818–835, https://doi.org/10.3758/s13428-020-01460-x.

Räsänen, O., Doyle, G., & Frank, M. C. (2018). Pre-linguistic segmentation of speech into syllable-like units. Cognition, 171, 130–150, https://doi.org/10.1016/j.cognition.2017.11.003.

Kakouros, S., Salminen, N. & Räsänen, O. (2018). Making predictable unpredictable with style — Behavioral and electrophysiological evidence for the critical role of prosodic expectations in the perception of prominence in speech. Neuropsychologia, 109, 181–199, https://doi.org/10.1016/j.neuropsychologia.2017.12.011.

Räsänen, O., Kakouros, S. & Soderstrom, M. (2018). Is infant-directed speech interesting because it is surprising? — Linking properties of IDS to statistical learning and attention at the prosodic level. Cognition, 178, 193–206, https://doi.org/10.1016/j.cognition.2018.05.015.

Rasilo H. & Räsänen O. (2017). An online model of vowel imitation learning. Speech Communication, 86, 1–23, https://doi.org/10.1016/j.specom.2016.10.010.

Räsänen, O. & Rasilo, H. (2015). A joint model of word segmentation and meaning acquisition through cross-situational learning. Psychological Review, 122(4), 792–829, https://doi.org/10.1037/a0039702.

 

Lisätietoa aineistoista Kielipankissa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Olli Kuparinen

Olli Kuparinen
Kuva: Ilona Lehtonen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Olli Kuparinen kertoo suomen kielen variaatioon ja muutokseen liittyvästä tutkimuksistaan, joissa hän on käyttänyt mm. Helsingin puhekielen pitkittäiskorpusta (1970, 1990, 2010) , Suomen kielen näytteitä -korpusta ja Lauseopin arkiston murrekorpusta.

Kuka olet?

Olen suomen kielen alan tohtori Olli Kuparinen. Väittelin kesäkuussa 2021 Helsingin puhekielen muutoksesta ja muutoksen kuvaamiseen käytetyistä teorioista. Väitöskirjani kirjoitin monitieteisessä Kippo-hankkeessa, jota rahoitti Koneen Säätiö.

Mikä on tutkimuksesi aihe?

Tutkin suomen kielen variaatiota ja muutosta sekä sosiolingvistiikassa hyödynnettyjä teorioita. Tutkimukseni on pitkälti ollut otteeltaan tilastollista.

Väitöstutkimukseni käsitteli Helsingin puhekielen muutosta 1970-luvulta 2010-luvulle. Kolmen aikapisteen reaaliaika-aineisto mahdollisti sekä Helsingin puhekielen konkreettisen muutoksen tarkastelun että erilaisten, yleensä yhden tai kahden aikapisteen aineistojen perusteella luonnosteltujen teorioiden testaamisen kolmessa aikapisteessä. Tutkimus osoitti, että kolmen aikapisteen tarkastelu kyseenalaistaa esimerkiksi William Labovin kehittämien muutosmallien kuvausvoimaa.

Väitöksenjälkeisessä tutkimuksessa tarkastelen suomen murteissa esiintyvää vaihtelua ja vaihtelun kommentointia aikalaistutkimuksissa.

Miten Kielipankki liittyy tutkimukseesi?

Väitöstutkimuksessani tarkastelin Helsingin puhekielen pitkittäiskorpusta (1970, 1990, 2010), joka sisältää syntyperäisten helsinkiläisten haastatteluja 1970-, 1990- ja 2010-luvulta. Kielipankissa on haastattelujen nauhoitteiden lisäksi niihin kohdistettuja litteraatteja. Omassa tutkimuksessani olen hyödyntänyt pääosin aineiston litteroitua osaa.

Jo väitöstutkimuksen aikana olen hyödyntänyt myös Suomen kielen näytteitä -korpusta erilaisten laskennallisten mallien testiaineistona. Aion jatkaa aineiston hyödyntämistä myös väitöksenjälkeisessä tutkimuksessa, jossa tarkastelen suomen murteiden vaihtelua. SKN-korpuksen yleiskielistys mahdollistaa esimerkiksi murrehaastattelujen aihesisällön tarkastelun koneoppimisen menetelmin.

Väitöksenjälkeisessä tutkimuksessa aion hyödyntää SKN-korpuksen täydennyksenä myös Lauseopin arkiston murrekorpusta.

Kielipankkiin liittyviä julkaisuja

Kuparinen, Olli 2018: Infinitiivien variaatio ja muutos Helsingissä. – Virittäjä 122 s. 29 – 52. https://doi.org/10.23982/vir.65310

Kuparinen, Olli 2021: Muutoksen mekanismit. Kolmen aikapisteen reaaliaikatutkimus Helsingin puhekielestä. Tampereen yliopiston väitöskirjat 428. Tampere: Tampereen yliopisto 2021. http://urn.fi/URN:ISBN:978-952-03-1990-8 

Kuparinen, Olli – Mustanoja, Liisa – Peltonen, Jaakko – Santaharju, Jenni – Leino, Unni 2019: Muutosmallit kolmen aikapisteen pitkittäisaineiston valossa. – Sananjalka 61 s. 30–56. https://doi.org/10.30673/sja.80056

Kuparinen, Olli – Peltonen, Jaakko – Mustanoja, Liisa – Leino, Unni – Santaharju, Jenni 2021: Lects in Helsinki Finnish: a probabilistic component modeling approach. – Language Variation and Change. https://doi.org/10.1017/s0954394521000041

Lisätietoa aineistojen uusimmista versioista Kielipankissa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Karita Suomalainen

Karita Suomalainen
Kuva: Heidi Suomalainen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Karita Suomalainen kertoo vuorovaikutustilanteiden kieliopillisiin rakenteisiin ja vihapuheeseen liittyvistä tutkimuksistaan, joissa hän on käyttänyt mm. Suomenkielisten arkikeskustelujen morfosyntaktista tietokantaa (Arkisyn), Lauseopin arkiston murrekorpusta ja Suomi 24 -korpusta.

Kuka olet?

Olen suomen kielen tohtori Karita Suomalainen ja toimin tällä hetkellä Turun yliopistossa yliopisto-opettajana. Väittelin joulukuussa 2020 Turun yliopistosta. Lukuvuodeksi 2021–2022 olen menossa vierailevaksi post doc -tutkijaksi Aarhusin yliopistoon Tanskaan apurahalla, jonka sain Suomalaiselta Tiedeakatemialta Säätiöiden post doc -poolin kautta.

Mikä on tutkimuksesi aihe?

Tutkimuksessani olen erityisen kiinnostunut siitä, millaisia erilaisten vuorovaikutustilanteiden kieliopilliset rakenteet ovat ja kuinka ihmiset käyttävät niitä yhteisymmärryksen rakentamiseen.

Väitöskirjani käsittelee yksikön 2. persoonan erilaisia käyttötapoja suomenkielisissä arkikeskusteluissa. Osoitin, että puhekumppaniin viittaamisen lisäksi yksikön 2. persoonaa voidaan käyttää osana muodoltaan ja käytöltään kiteytyneitä, vuorovaikutusta ohjaavia ilmauksia (esim. tietsä). Sen avulla voidaan myös luoda ns. avoimia, osanottajien kesken jaetuksi oletettuja kokemuksia tai puhua yleistävästi (esim. jos sä nielaset hammastahnaa ni sul menee vatsa sekasin) – tällaista sinä-muodon käyttöä kutsutaan toisinaan myös sä-passiiviksi.

Tuleva post doc -hankkeeni käsittelee suomen persoonaa ilmaisevien verbikonstruktioiden (esim. kato, kuule, arvaa; emmätiä) kieliopillistumiskehitystä puhutussa kielessä. Hankkeen tavoitteena on kuvata ilmiötä suomen kielen osalta ja verrata suomen ilmauksia tanskan kielen vastaaviin tapauksiin. Aiemmin olen tutkinut myös muunlaisia viittaavia ilmauksia ja niiden käyttöä vuorovaikutusaineistoissa, muun muassa puhutun kielen se että -rakennetta Ritva Lauryn ja Anna Vatasen kanssa. Lisäksi olen tutkinut verkon vihapuheen kielellisiä piirteitä yhdessä Simo Määtän ja Ulla Tuomarlan kanssa.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt kaikissa tutkimuksissani aineistokokoelmia, jotka ovat myös osa Kielipankin aineistoja. Tein väitöskirjani osana Koneen Säätiön rahoittamaa hanketta ”Arkikeskustelujen morfosyntaktinen tietokanta Arkisyn”, jossa rakennettu morfosyntaktisesti koodattu Arkisyn-korpus on saatavilla myös Kielipankissa (Suomenkielisten arkikeskustelujen morfosyntaktinen tietokanta, Helsinki-Korp-versio). Arkisyn on laaja ja melko monipuolinen puhutun kielen aineisto, joka taipuu moneen. Kielipankin Korp-palvelun kautta aineistosta on helppo tehdä hakuja sananmuodon tai tietyn ilmauksen kieliopillisten piirteiden avulla, ja olenkin rakentanut hakuominaisuuden perusteella kätevästi erilaisia aineistokokoelmia tutkimustani varten. Kielipankin puhutun kielen aineistoista käyttänyt myös Lauseopin arkiston murrekorpusta, josta on tietyin reunaehdoin mahdollista tarkastella vanhempaa puhuttua kieltä. Arkiston nauhoitteita voi myös kuunnella suoraan haun yhteydessä, mikä on erittäin hyvä ominaisuus puhutun kielen tutkijan näkökulmasta. On muutenkin hienoa, että puhutun kielen aineistoja on saatavilla helposti Kielipankin kautta, vaikkakin olen huomannut, ettei esimerkiksi kieliopillinen koodaaminen tällaisissa aineistoissa ole aina yksiselitteistä.

Vihapuheeseen liittyvässä tutkimuksessamme Simo Määttä, Ulla Tuomarla ja minä olemme analysoineet erästä Kielipankissa olevaan Suomi24-aineistoon kuuluvaa keskusteluketjua. Aiheesta vuonna 2020 julkaistu tutkimuksemme on laadullinen tapaustutkimus. Vihapuhetta sisältäviä keskusteluketjuja olisi hyvä tarkastella laajemminkin, mutta tutkimuksemme osoitti, että näytteitä vihapuheesta on vaikeaa kerätä kattavasti millään tietyillä leksikaalisilla tai kieliopillisilla hakukriteereillä. Mahdollisen tulevan tutkimuksen kannalta olisi pohdittava, miten laajemman aineiston kerääminen olisi järkevää toteuttaa.

Kielipankkiin liittyviä julkaisuja

Suomalainen, Karita (2020): Kuka sinä on? Tutkimus yksikön 2. persoonan käytöstä ja käytön variaatiosta suomenkielisissä arkikeskusteluissa. Annales Universitatis Turkuensis C 499. Doctoral dissertation. http://urn.fi/URN:ISBN:978-951-29-8238-7

Suomalainen, Karita – Vatanen, Anna – Laury, Ritva (2020): The Finnish se että initiated expressions: NPs or not? In Sandra Thompson & Tsuyoshi Ono (eds.), The ‘Noun Phrase’ across Languages. An emergent unit in interaction, 12–41. Typological Studies in Language 128. Amsterdam: John Benjamins. https://doi.org/10.1075/tsl.128.02suo

Määttä, Simo – Suomalainen, Karita – Tuomarla, Ulla (2020): Maahanmuuttovastaisen ideologian ja ryhmäidentiteetin rakentuminen Suomi24-keskustelussa. Virittäjä 124 (2), 190–216. https://doi.org/10.23982/vir.81931

Lisätietoa aineistojen uusimmista versioista Kielipankissa

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mila Oiva

Mila Oiva
Kuva: Mila Oiva

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mila Oiva kertoo kulttuurihistoriaan liittyvästä tutkimuksestaan, jonka myötä on syntynyt myös Yves Montand Neuvostoliitossa -haastatteluaineisto.

Kuka olet?

Nimeni on Mila Oiva. Olen kulttuurihistorioitsija ja työskentelen vanhempana tutkijana CUDAN Open Labissa Tallinnan yliopistossa. CUDAN on Horizon2020 -rahoitteinen kulttuuridata-analytiikan hanke, jossa tutkitaan kulttuurin ilmiöitä yhdistäen laadullista ja määrällistä tutkimusta humanistisilta ja yhteiskuntatieteellisiltä aloilta, verkostotieteestä ja esimerkiksi kompleksisuusteorioista.

Mikä on tutkimuksesi aihe?

Tutkin kuinka tieto ja käsitykset kiertävät eri aikoina ja kuinka käytetyt kommunikaatiovälineet vaikuttavat siihen kuinka tieto liikkuu ja muodostuu. Olen esimerkiksi tutkinut uutisten maailmanlaajuista leviämistä 1800-luvun sanomalehdissä lennättimen ja uutistoimistojen avulla (https://oceanicexchanges.org/) ja populaarien historiakäsitysten kiertoa 2010-luvun venäjänkielisissä verkkokeskusteluissa (https://sites.utu.fi/pseudohistoria/). Lisäksi olen pureutunut aiheeseen tarkastelemalla ranskalais-italialaisen laulaja-näyttelijä Yves Montandin Neuvostoliiton kiertueen (1956-57) rakentumista ja vastaanottoa kylmän sodan ajan Euroopassa. Yhdessä muiden tutkijoiden kanssa tekemissäni tutkimuksissa tulee kiinnostavalla tavalla esiin kuinka käsityksemme rakentuvat yhtä aikaa maailmanlaajuisina ilmiöinä ja paikallisina tulkintoina niistä.

Miten Kielipankki liittyy tutkimukseesi?

Olen julkaisemassa Yves Montand in the USSR. Cultural Diplomacy and Mixed Messages -kirjaamme (Palgrave Macmillan 2021) varten kokoamani haastatteluaineiston Kielipankissa tutkimus- ja opetuskäyttöön. Aineistojen jakaminen on vielä verrattain harvinaista historiantutkijoiden keskuudessa, mutta koen, että aineistosta voisi olla hyötyä laajemmin Neuvostoliiton populaarikulttuurin muistamisen tapoja tutkiville henkilöille. Lisäksi tänä vuonna tulee kuluneeksi sata vuotta Yves Montandin syntymästä, joten tämä aineisto osaltaan juhlistaa sitä!

Kielipankkiin liittyviä julkaisuja

Oiva, Mila, Hannu Salmi, and Bruce Johnson. Yves Montand in the USSR: Cultural Diplomacy and Mixed Messages. Palgrave Macmillan, 2021. https://doi.org/10.1007/978-3-030-69048-9.

Fridlund, Mats, Mila Oiva, and Petri Paju, eds. Digital Readings of History. History Research in the Digital Era. Helsinki: Helsinki University Press, 2020. https://doi.org/10.33134/HUP-5.

Oiva, Mila, Asko Nivala, Hannu Salmi, Otto Latva, Marja Jalava, Jana Keck, Laura Martínez Domínguez, and James Parker. “Spreading News in 1904. The Media Coverage of Nikolay Bobrikov’s Shooting.” Media History 25, no. 3 (August 11, 2019): 1–17. https://doi.org/10.1080/13688804.2019.1652090.

 

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Gwenaëlle Bauvois

Gwenaëlle Bauvois
Kuva: Gwenaëlle Bauvois

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Gwenaëlle Bauvois kertoo Kielipankissa olevaan Eduskunnan täysistuntojen ladattavaan versioon 1 ja muihin media-aineistoihin liittyvästä tutkimuksestaan.

Kuka olet?

Olen tutkija etnisten suhteiden ja nationalismin tutkimuskeskuksessa (CEREN) Helsingin yliopiston Svenska social- och kommunalhögskolanissa (Soc&kom). Olen sosiologian tohtori.

Mikä on tutkimuksesi aihe?

Minua kiinnostavat oikeistopopulismi, vastamedia, uusinformaatio, hybridimedia ja totuudenjälkeisyys. Todellisen kipinän näihin ilmiöihin sain vuonna 2015 Charlie Hebdo -tapahtumien jälkeen, ja siitä saakka olen työskennellyt kyseisten aiheiden parissa.

Niko Pyrhönen; photo: Niko Pyrhönen
Niko Pyrhönen
Tuukka Ylä-Anttila; photo: Ilkka Vuorinen
Tuukka Ylä-Anttila

Vuosina 2016–2019 työskentelimme kollegoideni Niko Pyrhösen ja Tuukka Ylä-Anttilan kanssa tutkimushankkeessa nimeltä Mobilizing ’the Disenfranchised’ in Finland, France and the United states. Post-truth public stories in the transnational hybrid media space. Tutkimme sitä, kuinka vastamedia voi saada liikkeelle sellaisten ihmisten yhteisön, joka on menettämässä luottamuksensa valtamediaan ja kokee, ettei saa ääntään kuuluville. ’Vastamedialla’ tarkoitamme tiettyjen asioiden ajamiseen sitoutunutta mediaa, joka näkee itsensä perinteisen median ja vallitsevan järjestelmän vastavoimana. Hankettamme varten keräsimme aineistoa suomalaisista, ranskalaisista ja yhdysvaltalaisista verkkomedioista.

Julkaisimme joitakin tutkimushankkeemme tuloksia yhteisjulkaisussamme Politicization of migration in the countermedia style: A computational and qualitative analysis of populist discourse (2019). Artikkelissa tarkastelimme sitä, käytetäänkö vastamedian tyyliä myös ’korkean tason politiikassa’ – tässä tapauksessa Suomen eduskunnassa – ja mikäli käytetään, kuinka ja mitkä tahot näin tekevät. Helsingin Sanomiin, MV Lehteen (vuodet 2015-2017) ja Eduskunnan täysistuntoihin (v. 2015-2016)  perustuva laskennallinen ja laadullinen analyysimme osoitti, että vastamedian tyyliin kuuluvia ilmauksia todellakin käytettiin eduskuntakeskustelussa. Kyseisiä tyylikeinoja suosi erityisesti populistinen oikeistopuolue Perussuomalaiset ns. ”pakolaiskriisiä” koskevan väittelyn aikana.

Miten Kielipankki liittyy tutkimukseesi?

Yhtenä tämän tutkimuksen aineistona käytimme Kielipankissa olevaan Eduskunnan täysistuntojen ladattavaan versioon 1 sisältyviä pöytäkirjoja vuosilta 2015-2016. Valitsemamme osa-aineisto sisälsi 183 täysistunnon ja kaikkiaan 6819 puheen transkriptiot, joita analysoitiin sekä laskennallisesti että laadullisesti.

Kielipankkiin liittyviä julkaisuja

Tuukka Ylä-Anttila, Gwenaëlle Bauvois & Niko Pyrhönen (2019). Politicization of migration in the countermedia style: A computational and qualitative analysis of populist discourse. Discourse, Context & Media 32: 1–8. Saatavilla: https://doi.org/10.1016/j.dcm.2019.100326.

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Heikki Rasilo

Heikki Rasilo, photo: Jessie Dupont
Kuva: Jessie Dupont

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Heikki Rasilo kertoo puheentuottoon liittyvästä tutkimustyöstään, jossa hän on hyödyntänyt Kielipankissa olevaa Aalto-yliopiston DSP-kurssin keskustelukorpusta.

Kuka olet?

Olen Heikki Rasilo, postdoc-tutkija Vrije Universiteit Brussel -yliopiston Artificial Intelligence -laboratoriossa Brysselissä, Belgiassa. Valmistuin tekniikan tohtoriksi Aalto-yliopiston ja VUB:n yhteistutkinnolla vuonna 2017. Työskenneltyäni pari vuotta yksityisellä sektorilla sain Ulla Tuomisen säätiöltä Säätiöiden post doc -poolin kautta apurahan tutkimukseni jatkamiseen.

Mikä on tutkimuksesi aihe?

Jatko-opintojeni alusta asti pääasiallinen tutkimusaiheeni on ollut puheen fyysinen tuottaminen ja sen oppiminen. Kuinka ihmislapset oppivat artikuloimaan ja matkimaan esimerkiksi vanhempiensa puhetta omilla hyvin erikokoisilla ja -muotoisilla ääntöväylillään? Aikuisen ja lapsen puheen akustiset ominaisuudet ovat myös hyvin erilaisia, ja heidän tuottamiensa äänteiden suora vertaileminen on hankalaa. Lapset kuitenkin oppivat artikuloimaan äidinkieltään, ja minua kiinnostaa, vaikuttaako artikulaation oppimisprosessi myös puheen kuulemiseen ja ymmärtämiseen. Kenties me ihmiset ymmärrämme puhetta paremmin kuin koneet, koska tunnemme myös sen fyysisen tuottomekanismin, jolla akustinen puhe syntyy.

Tutkin, voisiko puheen artikuloinnin oppimisessa syntyviä akustisia esitysmuotoja käyttää myös hyväksi automaattisessa puheentunnistuksessa. Parhaimpien puheentunnistimien koulutus vaatii nykyään niin paljon äänitettyä puhedataa, ettei ihmislapsi koskaan kuule tällaisia puhemääriä. Puheen ymmärtäminen on siis mahdollista oppia pienemmillä datamäärillä, joten fyysisellä artikulaatiolla voi olla oma osuutensa oppimisessa.

Miten Kielipankki liittyy tutkimukseesi?

Viime vuonna julkaistussa tutkimuksessa koulutin neuroverkon tunnistamaan puheesta samanaikaisesti sekä puheen äänteitä että fyysistä artikulaatiota. Hypoteesina oli, että artikulaation opettelu muokkaisi verkon oppimaa puheen esitystapaa, ja tämä uusi esitystapa voisi vahvistaa myös äänteiden tunnistusta. Tarvitsin kokeeseen sekä äänitettyä puhetta että siihen liittyvän artikulatorisen esitystavan. Kielipankista löytämäni aineisto (Aalto-yliopiston DSP-kurssin keskustelukorpus) sisälsi riittävästi suomenkielistä puhemateriaalia ja sen lisäksi puheen transkription, jonka avulla pystyin tuottamaan koko aineistolle karkeaa syntetisoitua artikulatorista dataa käyttämällä suomenkielistä puhesyntetisaattoria. Kokeen tulokset olivat lupaavia: artikulaation oppiminen muokkasi puheen esitysmuotoa haluttuun suuntaan.

Aiemmassa tutkimuksessani olen käyttänyt myös CAREGIVER-korpusta (saatavilla ELRAn kautta), joka koostuu yksinkertaisista lauseista ja niiden ortografisista transkriptioista. Akatemiatutkija Okko Räsäsen kanssa olemme korpuksen avulla tutkineet algoritmeja, jotka mahdollistavat sana-merkitysparien, sanojen segmentoinnin sekä sanojen akustisten hahmojen oppimista.

Kielipankkiin liittyviä julkaisuja:

Rasilo, H. (2020). Phonemic learning based on articulatory-acoustic speech representations. Teoksessa S. Denison., M. Mack, Y. Xu, & B.C. Armstrong (Eds.), Proceedings of the 42nd Annual Conference of the Cognitive Science Society (pp. 2203–2209). Cognitive Science Society. Saatavilla: https://cogsci.mindmodeling.org/2020/papers/0512/index.html

Rasilo, H. & Räsänen, O. (2017), An online model for vowel imitation learning. Speech Communication, 86, 1-23. Saatavilla: https://doi.org/10.1016/j.specom.2016.10.010

Räsänen, O. & Rasilo, H. (2015), A joint model of word segmentation and meaning acquisition through cross-situational learning. Psychological Review, 122(4), 792–829. Saatavilla: https://psycnet.apa.org/doi/10.1037/a0039702

Rasilo, H. & Räsänen, O. (2015), Weakly-supervised word learning is improved by an active online algorithm. Proceedings of the 16th Annual Conference of the International Speech Communication Association (Interspeech 2015), Dresden, Germany, pp. 1561-1565. Saatavilla: https://www.isca-speech.org/archive/interspeech_2015/i15_1561.html

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Emmi Lahti

Emmi Lahti, photo: Julius Jaakola
Kuva: Julius Jaakola

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Emmi Lahti kertoo retoriikkaan ja diskurssintutkimukseen liittyvästä tutkimustyöstään, jossa hän on hyödyntänyt Kielipankissa olevaa Suomi 24 -korpusta (2016H2).

Kuka olet?

Olen Emmi Lahti, apurahatutkija Helsingin yliopistossa. Väittelin suomen kielestä vuonna 2019. Kiinnostukseni kohteita ovat erityisesti argumentointi ja retoriikka sekä kriittinen diskurssintutkimus. Minua kiehtoo loputtomasti sen pohtiminen, millä kaikilla tavoin kieli osallistuu sosiaalisen todellisuuden rakentamiseen.

Mikä on tutkimuksesi aihe?

Väitöskirjatutkimuksessani analysoin maahanmuuttokeskustelujen retoriikkaa. Aineistona käytin Suomi24:n maahanmuuttoaiheisia keskusteluja vuodelta 2015. Tutkimuksessani tarkastelin erityisesti sitä, miten eri ryhmiä kielellisesti rakennetaan, millaisia argumentteja ja argumentointistrategioita keskusteluissa käytetään sekä miten niissä ilmaistaan eri- ja samanmielisyyttä toisten keskustelijoiden kanssa.

Tutkimuksen tulokset osoittavat erityisesti, miten samanmieliset, maahanmuuttoa vastustavat keskustelijat osoittavat toisilleen solidaarisuutta ja tukea sekä rakentavat yhteistä maailmankuvaa ja yhteistä argumentaatiota.

Miten Kielipankki liittyy tutkimukseesi?

Väitöskirjatutkimuksessani hyödynsin Kielipankin Suomi24-aineistoja. Suomi 24 virkkeet -korpusta (2016H2) voi käyttää Kielipankin Korp-käyttöliittymän kautta ja vastaavan sisällön voi myös ladata itselleen tutkimuskäyttöön Suomi 24 -korpus (2016H2) -nimisestä aineistoversiosta. Tutkimustani varten päädyin valitsemaan ladattavan aineiston, josta poimin 117 keskusteluketjua analyysiani varten.

Kielipankkiin liittyviä julkaisuja:

Lahti, Emmi (2019). Maahanmuuttokeskustelun retoriikkaa. Väitöskirja. Helsinki: Helsingin yliopisto. http://urn.fi/URN:ISBN:978-951-51-5707-2

 

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mats Fridlund

Mats Fridlund
Kuva: Mats Fridlund

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Professori Mats Fridlund kertoo digitaaliseen historiaan liittyvästä tutkimustyöstään, jonka tukena ovat työkalut ja aineistot sekä suomalaisessa Kielipankissa että Ruotsin Språkbankenissa.

Kuka olet?

Olen Göteborgin yliopiston aate- ja oppihistorian (idé- och lärdomshistoria) apulaisprofessori ja digitaalisten ihmistieteiden keskuksen varajohtaja. Koulutukseltani olen teknillisen fysiikan diplomi-insinööri ja teknologian historian tohtori Tukholman KTH:sta. Vuosina 2013-2018 työskentelin Aalto-yliopistossa Suomessa teollistumisen historian apulaisprofessorina.

Mikä on tutkimuksesi aihe?

Tieteen, teknologian ja innovaatioiden historian tutkijana ja kehkeytyvänä digitaalisena historioitsijana mielenkiintoni kohdistuu infrastruktuurien historiaan ja teknologian poliittiseen historiaan.

Aloitin infrastruktuurien historian tutkimukseni tarkastelemalla käyttäjien roolia sähköenergia- ja televiestintäjärjestelmien kehityksessä, mutta parin viime vuoden kuluessa olen laajentanut tutkimiskohteitani digitaalisiin infrastruktuureihin. Tutkin erityisesti sitä, kuinka akateemiset käyttäjät, mm. historian tutkijat, ovat muuttaneet ammatillisia käytänteitään voidakseen hyödyntää esimerkiksi sellaisia uusia digitaalisia infrastruktuureja joita Kielipankin kautta tarjotaan. Tähän liittyy myös viimeaikainen kiinnostukseni digitaalisia ihmistieteitä kohtaan.

Vuodesta 2012 alkaen olen ollut mukana useissa suomalaisissa ja ruotsalaisissa hankkeissa, joissa on kehitetty digitaalisia ihmistieteitä ja eritoten digitaalista historiaa. Olen ollut vastuullisena tutkijana kahdessa Koneen Säätiön rahoittamassa hankkeessa, joissa on kehitetty ja vahvistettu suomalaista digitaalista historiaa (ks. Paju et al. 2020). Vuodesta 2019 olen toiminut Göteborgin yliopiston ihmistieteiden keskuksen varajohtajana ja sitä kautta minulle tarjoutuu tilaisuuksia kehittää yhdessä kieliteknologien ja insinöörien kanssa uusia digitaalisia infrastruktuureja humanisteille, yhteiskuntatieteilijöille ja laajemmallekin yleisölle.

Tämänhetkinen poliittisen teknologiahistorian tutkimukseni keskittyy terrorismin globaaliin teknologiahistoriaan myöhäisestä 1700-luvusta aina nykypäivään saakka. Johdan kahta terrorismin historiaan liittyvää tutkimushanketta: Things for living with terror: a global history of the materialities of urban terror and security, jota rahoittaa Ruotsissa Riksbankens Jubileumsfond, sekä laajaa hanketta nimeltä Terrorism in Swedish politics (SweTerror): A multimodal study of the configuration of terrorism in parliamentary debates, legislation and policy networks in Sweden 1968–2018. Jälkimmäinen on osa Ruotsin hallituksen käynnistämää digitaalisten ihmistieteiden DIGARV-tutkimusohjelmaa ja sitä rahoittavat Vetenskapsrådet, Riksbankens Jubileumsfond sekä Kungliga Vitterhets Historie och Antikvitets Akademien. SweTerror-hankkeessa tuomme saataville Ruotsin valtiopäivien poliittisia keskusteluja digitaalisina teksti- ja ääniaineistoina yhteistyössä Ruotsin Språkbankenin kanssa.

Miten Kielipankki liittyy tutkimukseesi?

Osana terrorismin historian tutkimustani käytän erilaisia laajoja digitaalisia tekstikorpuksia. Analysoin niistä mediadiskursseja ja pyrin jäljittämään terrorismin ilmaantumista poliittisena ja kulttuurisena ilmiönä. Olen tällä hetkellä mukana mm. yhteisprojektissa Ruotsin kansallisen kielipankin (Språkbanken) kieliteknologien kanssa Swe-Clarinin tuella. Analysoimme ruotsinkielisiä historiallisia sanomalehtikorpuksia, joita on tarjolla kahden kansallisen CLARIN B-keskuksen, Ruotsin Språkbankenin ja suomalaisen Kielipankin kautta. Aineistojen avulla pyrimme määrittämään, kuinka moderni terrorismin käsite syntyi 1700-luvulta alkaen.  Tämä tutkimus on osa Swe-Clarinin hanketta, jonka tavoitteena on edistää aitoa tieteidenvälistä yhteistyötä humanististen tieteiden ja kieliteknologian välillä ja hyödyntämällä sähköisiä tutkimustyökaluja laajamittaisiin korpustutkimuksiin. Projektissa siis yhdistetään historian alan tietämystä ja kieliteknologian asiantuntemusta, jolloin aiempia ruotsalaisessa ja suomalaisessa kontekstissa esiintyvän terrorismin historiallisiin merkityksiin liittyviä tieteellisiä väitteitä voidaan arvioida ja laajentaa.

Ensisijaisesti haluamme testata hypoteesia, jonka mukaan valtioiden sisäisen terrorismin käsite ei ollut vielä 1800-luvulla vakiintunut nykymerkitykseensä vaan rajoittui lähinnä venäläiseen terrorismiin. Soveltamalla valtioiden rajat ylittävää vertailevaa lähestymistapaa voimme tarkastella terrorismiin liittyviä päällekkäisiä kansallisia diskursseja. Sekä Ruotsin Språkbankeniin että Suomen Kielipankkiin asennetulla Korp-työkalulla olemme pystyneet tehokkaasti tutkimaan terrorismiin liittyviä sanoja ja niiden historiallisia konteksteja. Näin olemme paljastaneet monimutkaisemman kuvan terrorismin historiasta Pohjoismaissa ja erityisesti suurvaltojen sisäisten etnisten osien terrorismin muodoista, joita ovat suomalainen terrorismi Venäjän alaisuudessa, makedonialainen terrorismi ottomaanien alaisuudessa ja intialainen terrorismi brittiläisen imperiumin alaisuudessa. Suomalaisten historian tutkijoiden ja kieliteknologien kanssa olemme suunnitelleet laajentavamme analyysia suomalaisen kontekstin osalta tutkimalla vastaavia suomenkielisiä sanomalehtiä, jotka löytyvät Kielipankista. Lisäksi voimme kehittää rajat ylittävän vertailevan tutkimuksen konkreettisia toteutustapoja hyödyntämällä Swe-Clarinin ja FIN-CLARINin laajaa korpusvalikoimaa. Humanisteille ja kieliteknologeille tarjoutuu hienoja mahdollisuuksia tehdä monitieteistä, vertailevaa big data -tutkimusta verkossa saatavilla olevien kansallisten sanomalehtiaineistojen avulla.

Tarjoamiensa työkalujen lisäksi Kielipankki on ollut muutenkin tärkeä pyrkiessäni edistämään digitaalisten ihmistieteiden tutkimusta Suomessa. Vuonna 2018 järjestin roadshow’n Oulun, Jyväskylän, Itä-Suomen, Turun, Tampereen ja Helsingin yliopistoissa osana Koneen Säätiön rahoittamaa hanketta ”From Roadmap to Roadshow: A collective demonstration & information project to strengthen Finnish digital history”. Jokaisessa kuudessa yliopistossa järjestimme yksipäiväisen digitaalisen historian menetelmätyöpajan, joka koostui luennoista ja työpajasessioista kokeneiden suomalaisten, ruotsalaisten ja yhdysvaltalaisten digitaalisen historian, kieliteknologian ja informaatioteknologian asiantuntijoiden vetäminä. Heidän joukossaan oli myös Kielipankin sovellusasiantuntija Tero Aalto, joka piti kiinnostavan esityksen digitaalisista kielentutkimusmenetelmistä. Luentojen synnyttämä valtaisa innostus suomalaisten historian tutkijoiden keskuudessa johtikin hankkeen ennakoimattomaan laajenemiseen ja jatkoon. Toukokuussa 2018 minä ja kaksi jatko-opiskelijaani, Mila Oiva ja Petri Paju, järjestimme työpajan, jossa digitaalisista ihmistieteistä kiinnostuneet historioitsijat, kieliteknologit ja informaatioteknologian asiantuntijat kohtasivat yhteisten tutkimushankkeiden merkeissä. Joulukuussa 2020 useat näistä hankeideoista päätyivät vertaisarvioituina artikkeleina yhteen Helsinki University Press -tiedekustantamon ensimmäisistä Open Access -kirjoista, Digital Histories: Emergent Approaches in the New Digital History, jonka toimitin yhdessä Mila Oivan ja Petri Pajun kanssa.

Kielipankkiin liittyviä julkaisuja:

Mats Fridlund, Leif-Jöran Olsson, Daniel Brodén & Lars Borin, 2019 ”Trawling for Terrorists: A Big Data Analysis of Conceptual Meanings and Contexts in Swedish Newspapers, 1780–1926,” in Melvin Wevers, Mohammed Hasanuzzaman, Gaël Dias, Marten Düring, & Adam Jatowt, eds. Proceedings of the 5th International Workshop on Computational History (HistoInformatics 2019) co-located with the 23rd International Conference on Theory and Practice of Digital Libraries (TPDL 2019) Oslo, Norway, September 12th, 2019, CEUR-WS  vol. 2461 (Aachen: CEUR-WS.org, 2019), 1-10, http://ceur-ws.org/Vol-2461/paper_5.pdf.

Mats Fridlund, Leif-Jöran Olsson, Daniel Brodén & Lars Borin, 2020 ”Trawling the Gulf of Bothnia of News: A Big Data Analysis of the Emergence of Terrorism in Swedish and Finnish Newspapers, 1780–1926”, in Costanza Navarretta & Maria Eskevich, eds. Proceedings of CLARIN Annual Conference 2020 (Virtual edition: CLARIN, 2020), 61-65. https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf

Mats Fridlund, Mila Oiva, & Petri Paju, eds., 2020 Digital Histories: Emergent Approaches within the New Digital History (Helsinki: Helsinki University Press, 2020), 3-18. https://doi.org/10.33134/HUP-5

Mats Fridlund, 2020 “Digital History 1.5: A Middle Way between Normal and Paradigmatic Digital Historical Research”, in Mats Fridlund, Mila Oiva, & Petri Paju, eds., Digital Histories: Emergent Approaches within the New Digital History (Helsinki: Helsinki University Press, 2020), 69-87. https://doi.org/10.33134/HUP-5

Paju, Petri & Mila Oiva. ”Digitaalisen historiantutkimuksen opetuskiertue”, Historiallinen Aikakauskirja 1/ 2019, pp 89-94.

Petri Paju, Mila Oiva & Mats Fridlund, 2020 “Digital and Distant Histories: Emergent Approaches within the New Digital History”, in Mats Fridlund, Mila Oiva, & Petri Paju, eds., Digital Histories: Emergent Approaches within the New Digital History (Helsinki: Helsinki University Press, 2020), 3-18. https://doi.org/10.33134/HUP-5

 

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Tommi Jauhiainen

Tommi Jauhiainen
Kuva: Heidi Jauhiainen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Parivuotista post doc-kauttaan parhaillaan aloitteleva Kielipankin projektisuunnittelija Tommi Jauhiainen kertoo Kielipankin palveluihin ja aineistoihin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Tommi Jauhiainen ja toimin tällä hetkellä Kielipankissa projektisuunnittelijana. Vuodenvaihteessa 2020-21 siirryn post doc-tutkijaksi Vaikuttavuussäätiön myöntämällä apurahalla.

Mikä on tutkimuksesi aihe?

Viimeisen hieman yli kymmenen vuoden aikana olen tutkinut erityisesti tekstin kielen automaattista tunnistamista. Kirjoitin aiheesta graduni 2010 ja väitöskirjani 2019. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai samankaltaisia menetelmiä voidaan käyttää myös tekstien lajitteluun esimerkiksi aihealueiden suhteen.

Tunnistamisen vaikeustaso vaihtelee hyvin paljon tilanteen mukaan. Tehtävä on helppo, jos valittavina on vain muutamia toisistaan selvästi eroavia kieliä, kuten vaikka suomi ja ruotsi, ja jos tekstit ovat kohtuullisen pitkiä, esimerkiksi useiden virkkeiden mittaisia. Mikäli kieliä on satoja, kielet ovat lähellä toisiaan (esim. kveeni ja meänkieli) ja/tai tekstit ovat lyhyitä (esim. vain yksittäisiä sanoja), niiden tunnistaminen saattaa olla hyvin vaikeaa.

Tekstien kielen automaattisesta tunnistuksesta kirjoittamamme laaja katsaus ilmestyi viime vuonna ”Journal of Artificial Intelligence”-lehdessä. Työstämme samasta aiheesta tällä hetkellä myös oppikirjaa, joka julkaistaan Morgan & Claypoolin ”Synthesis Lectures on Human Language Technologies”-sarjassa toivottavasti vuoden 2021 loppupuolella.

Olen osallistunut väitöstutkimukseni aikana ja sen jälkeen useisiin kansainvälisiin kilpailuihin (shared tasks), joissa on keskitytty etenkin lähellä toisiaan olevien kielten tai murteiden erottelemiseen toisistaan. Vuonna 2018 voitimme sveitsinsaksan murteisiin ja intialaisiin kieliin keskittyneet kilpailut ja viime vuonna mandariinikiinan eri versioihin keskittyneen kilpailun. Olen myös jäsenenä ”Muinaisen Lähi-idän imperiumit”-huippuyksikössä, jossa olen tutkinut, kuinka nuolenpäillä kirjoitetun akkadin ja sumerin eri murteita voisi erotella toisistaan. Järjestin tästä aiheesta viime vuonna kansainvälisen kilpailun, jonka voitti kanadalainen tutkimusryhmä syväoppimista käyttämällä.

Tulevassa Vaikuttavuussäätiön rahoittamassa ”Language Identification of Speech and Text”-hankkeessa siirryn tutkimaan erityisesti puheen kielen tunnistamista tekstin kielen tunnistamisen lisäksi. Puheen ja tekstin kielten tunnistamisen tutkimus on tähän saakka ollut hyvin eriytynyttä, ja tarkoitukseni on saada aikaan enemmän yhteistyötä näiden kahden tutkimusalan välille.

Miten Kielipankki liittyy tutkimukseesi?

Suurin osa väitöstutkimuksestani tehtiin Suomalais-ugrilaiset kielet ja internet -projektissa, joka toimi Kielipankkia ylläpitävän FIN-CLARIN-tutkimusryhmän osana. Projektissa etsimme internetistä pienillä uralilaisilla kielillä kirjoitettuja verkkosivuja, teimme niistä portaalisivuston ja koostimme niiden sisältämästä tekstistä virkekorpuksia. Keräyksen aikana ja virkekorpuksia luodessa käytimme automaattista kielentunnistusta. Portaalisivusto, Wanca, on nyt osana Kielipankin ylläpitämiä työkaluja ja Wanca 2016 -aineisto löytyy Kielipankista kolmena eri versiona. Wanca 2017 -aineisto on käytössä meneillään olevassa ULI (Uralic Language Identification) kilpailussa ja aineisto julkaistaan ensi vuoden aikana.

Kielipankkiin liittyviä julkaisuja:

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2015). The Finno-Ugric Languages and the Internet project. In First International Workshop on Computational Linguistics for Uralic Languages: Proceedings of the Workshop (Vol. 2, pp. 87–98). (Septentrio Conference Series; Vol. 2015, No. 2). Septentrio Academic Publishing. https://doi.org/10.7557/scs.2015.2

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2015). Language Set Identification in Noisy Synthetic Multilingual Documents. In Computational Linguistics and Intelligent Text Processing (Vol. Part I, pp. 633-643). (Lecture Notes in Computer Science; Vol. 9041). Springer International Publishing AG. https://doi.org/10.1007/978-3-319-18111-0_48

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2016). HeLI, a Word-Based Backoff Method for Language Identification. In Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects: VarDial3, Osaka, Japan, December 12 2016 (pp. 153-162). https://www.aclweb.org/anthology/W16-4820/

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2017). Evaluation of language identification methods using 285 languages. In 21st Nordic Conference of Computational Linguistics: Proceedings of the Conference (pp. 183-191). (Linkping Electronic Conference Proceedings; No. 31). Linköping University Electronic Press. https://www.aclweb.org/anthology/W17-0221/

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). Iterative Language Model Adaptation for Indo-Aryan Language Identification. In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 66-75). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-3907

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). HeLI-based Experiments in Swiss German Dialect Identification. In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 254-262). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-3929

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2019). Wanca in Korp: Text corpora for underresourced Uralic languages. In Proceedings of the Research data and humanities (RDHUM) 2019 conference : data, methods and tools (pp. 21-40). Studia Humaniora Ouluensia; No. 17. University of Oulu.

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2019). Language Model Adaptation for Language and Dialect Identification of Text. Natural Language Engineering, 25(5), 561-583. [135132491900038]. https://doi.org/10.1017/S135132491900038X

Jauhiainen, T. (2019). Language identification in texts. University of Helsinki. http://urn.fi/URN:ISBN:978-951-51-5131-5

Jauhiainen, T., Jauhiainen, H., Alstola, T., & Linden, K. (2019). Language and Dialect Identification of Cuneiform Texts. In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 89-98). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1409/https://www.aclweb.org/anthology/W19-1409/

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2019). Discriminating between Mandarin Chinese and Swiss-German varieties using adaptive language models. In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 178-187). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1419/

Jauhiainen, T., Lui, M., Zampieri, M., Baldwin, T., & Lindén, K. (2019). Automatic Language Identification in Texts: A Survey. Journal of Artificial Intelligence Research, 65, 675-782. https://doi.org/10.1613/jair.1.11675

Zampieri, M., Malmasi, S., Scherrer, Y., Samardžic, T., Tyers, F., Silfverberg, M. P., Klyueva, N., Pan, T-L., Huang, C-R., Ionescu, R. T., Butnaru, A., & Jauhiainen, T. S. (2019). A Report on the Third VarDial Evaluation Campaign. In Proceedings of the (pp. 1-16). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1401/

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2020). Building Web Corpora for Minority Languages. In Proceedings of the 12th Web as Corpus Workshop (pp. 23-32). The Association for Computational Linguistics. https://www.aclweb.org/anthology/2020.wac-1.4

Gaman, M., Hovy, D., Ionescu, R. T., Jauhiainen, H., Jauhiainen, T., Linden, K., Ljubešić, N., Partanen, N., Purschke, C., Scherrer, Y., & Zampieri, M. (Accepted/In press). A Report on the VarDial Evaluation Campaign 2020. In Proceedings of VarDial 2020

Jauhiainen, T., Jauhiainen, H., Partanen, N., & Linden, K. (Accepted/In press). Uralic Language Identification (ULI) 2020 shared task dataset and the Wanca 2017 corpora. In Proceedings of VarDial 2020 https://arxiv.org/pdf/2008.12169.pdf

Lindgren, M., Jauhiainen, T., & Kurimo, M. (2020). Releasing a toolkit and comparing the performance of language embeddings across various spoken language identification datasets. In Proceedings of Interspeech 2020 (pp. 467-471) http://www.interspeech2020.org/uploadfile/pdf/Mon-1-11-5.pdf

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Tommi Kurki

Tommi Kurki

Kuva: Kaisla Kurki

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Suomen kielen dosentti, yliopistonlehtori Tommi Kurki Turun yliopistosta kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin palveluita.

Kuka olet?

Olen suomen kielen dosentti Tommi Kurki, ja toimin Turun yliopistossa yliopistonlehtorina. Fennistinä ja sosiolingvistinä olen tarkastellut ja tarkastelen suomen kielen variaatiota ja muuttumista sekä alan metodiikkaa. Johdan parhaillaan Turun yliopiston kieli- ja käännöstieteiden laitoksessa monivuotista Digilang-aineistoinfrastruktuurihanketta, jossa koostetaan ja kehitetään laitoksen digitaalisia kieliaineistoja (ks. esim. Kurki & al. 2018).

Mitä aiheita tutkit ja miten tutkimuksesi liittyy Kielipankkiin?

Minulla on tutkimuksessa useita kiinnostuksen kohteita, joista useimmat ovat kytkeytyneet tavalla tai toisella kielen muuttumisen tarkasteluun. Varsinkin, kun aiheeni ovat liittyneet jo perustutkinto-opiskeluajoistani myös reaaliaikatutkimuksiin, ovat erilaiset ja eri-ikäiset suomen kielen aineistot ja varsinkin pitkittäisaineistot kiinnostaneet minua. Kielipankissa nykyisin saatavilla olevista aineistoista olen käyttänyt ainakin Murteenseuruukorpusta, Lauseopin arkiston murrekorpusta, Suomen kielen näytteitä ja Digitaalista muoto-opin arkistoa. Variaatiota tarkastellessani olen keskittynyt yleensä fonologisiin, morfofonologisiin ja morfologisiin piirteisiin, mutta viime vuosina olen pyrkinyt palaamaan opiskeluaikojeni kiinnostuksen kohteisiin kuuluneisiin prosodian ilmiöihin.

Urani aikana olen myös osallistunut erilaisten kieliaineistojen keräämiseen, koostamiseen ja käsittelyyn. 1990-luvulla pääsin harjoittelijaksi Kotuksesta johdettuun dialektologis-sosiolingvistiseen suomen murteiden seuruuhankkeeseen, jossa tein graduni (1998a) ja Kotuksen nuorena aloittelevana tutkijana kaksi osatutkimusta (1998b, 1999). Seuruuhankkeen aineistoista ja teemoista tein myös väitöskirjani (2005), jossa tarkastelin kielen muuttumista.

Puhuttuun kieleen ja kieliaineistoihin liittyvät tavalla tai toisella kaikki tähänastiset johtamani hankkeet. Nykyisistä hankkeistani SKR:n Satakunnan rahaston rahoittamassa sosiolingvistisessä Satakuntalaisuus puheessa -hankkeessa olemme koostaneet puhutun kielen korpuksen, johon on 2000-luvulla kerätty puhekieltä 16 paikkakunnalta ja yli 200 satakuntalaiselta. Hankkeessa on yli 250 tuntia äänitteitä, ja parhaillaan aineistoa lemmataan sekä annotoidaan morfologisesti ja syntaktisesti osana Digilang-hanketta. Tarkoituksena on, että korpus päätyy lähivuosina Kielipankkiin. Lauseopin arkiston murrekorpusta ja tätä uutta satakuntalaisaineistoa olemme käyttäneet tutkimusryhmämme artikkelissa (2011), jossa tarkastelimme nykysatakuntalaisen puhekielen nykyvariaatiota ja muutoksia.

FT Tommi Niemisen kanssa perustamassani ja Koneen säätiön rahoittamassa Suomen kielen prosodian alueellisen ja sosiaalisen variaation hankkeessa (ks. esim. Kurki & al. 2014) olemme puolestaan keränneet elisitoiduin tehtävin sosiofoneettista korpusta, jota segmentoidaan ja annotoidaan parhaillaan Digilang-rahoituksella. Tavoitteena on, että suomen prosodiaa päästäisiin aiempaakin paremmin tarkastelemaan niin, että huomioon tulisi myös myös alueellinen ja sosiaalinen variaatio. Tämäkin aineisto on päätymässä Kielipankkiin parin vuoden kuluessa.

Vaikka aivan viime vuosina ole julkaissut tutkimuksia, joissa olisin käyttänyt muita kuin edellä mainittuja kieliaineistoja, on Kielipankki liittynyt työhöni kiinteästi. Jo Lauseopin arkiston tutkijan tehtäviini kuului opiskelijoiden opastaminen myös Kielipankin aineistojen käytössä. Olen hyödyntänyt Kielipankin aineistoja myös paljon opetuksessani ja opiskelijoita ohjatessani. Johtamieni hankkeiden korpuksia on koostettu alusta asti sillä oletuksella, että niitä aikanaan jaellaan Kielipankista käsin.  Puheen- ja kielentutkimuksen asiantuntijana osallistun myös Vaken Lahjoita puhetta -hankkeen suunnitteluun yhdessä Aalto-yliopiston professori Mikko Kurimon ja Kielipankin edustajien kanssa.

Kielipankin aineistoihin liittyviä julkaisuja:

Kurki, Tommi 1998a: Kui Kuivlahdel puhuta? Eurajoen vanhan murteen ja puhekielen vertailua sekä ikäryhmittäisten ja sukupuolikohtaistan erojen tarkastelua. Pro gradu ja suomen murteiden seuruuhankkeen osatutkimus (118 sivua + 39 liitesivua). Turun yliopisto, suomen kieli.

Kurki, Tommi 1998b: Kielellinen vaihtelu ja muutos Alastaron murteessa. Kotimaisten kielten tutkimuskeskuksen seuruuhankkeen tutkimusraportti. (79 sivua + 35 liitesivua). Helsinki: Kotus.

Kurki, Tommi 1999: Kielellinen vaihtelu ja muutos Pälkäneen murteessa. Kotimaisten kielten tutkimuskeskuksen seuruuhankkeen tutkimusraportti.  (114 sivua + 51 liitesivua). Helsinki: Kotus.

Kurki, Tommi 2005: Yksilön ja ryhmän kielen reaaliaikainen muuttuminen. Kielenmuutosten seuraamisesta ja niiden tarkastelussa käytettävistä menetelmistä. SKST 1036. SKS, Helsinki.

Kurki, Tommi, Siitonen, Kirsti, Väänänen, Milja, Ivaska, Ilmari & Ekberg, Jari 2011: Ensi havaintoja Satakuntalaisuus puheessa ‐hankkeesta. Sananjalka 53, 83–108. DOI: https://doi.org/10.30673/sja.86706.

Kurki, Tommi – Nieminen, Tommi – Kallio, Heini & Behravan, Hamid 2014: Uusi puhesuomen variaatiota tarkasteleva hanke. Katse kohti prosodisia ilmiöitä. – Sananjalka 56 s. 186–195. URN: http://urn.fi/urn:nbn:fi:ele-1733815.

Kurki, Tommi – Inaba, Nobufumi – Kaivapalu, Annekatrin – Koponen, Maarit – Laippala, Veronika – Leblay, Christophe – Luutonen, Jorma – Mutta, Maarit – Nikulin, Markku & Reunanen, Elisa 2018: Digilang – Turun yliopiston digitaalisia kieliaineistoja kehittämässä. – Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods and Tools, p. 41–56. Studia Humaniora Ouluensia 17. Oulu: University of Oulu. URN: http://urn.fi/urn:isbn:9789526223216.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Saana Svärd

Kuva: Lauri Laine

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston muinaisen Lähi-idän tutkimuksen apulaisprofessori Saana Svärd kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin palveluita.

Kuka olet?

Olen Saana Svärd, muinaisen Lähi-idän tutkimuksen apulaisprofessori ja Suomen Akatemian rahoittaman huippuyksikön ”Muinaisen Lähi-idän imperiumit” johtaja.

Mikä on tutkimuksesi aihe?

Alunperin olen assyriologi, mikä tarkoittaa sitä että tutkin erilaisia historiallisia ilmiöitä alkukielisten lähteiden avulla, eli muinaisen Lähi-idän nuolenpäätekstien perusteella. Olen tutkinut erityisesti sitä, mitä näistä lähteistä voidaan päätellä naisten asemasta muinaisessa Mesopotamiassa. Tämä tutkimus jatkuu yhä, mutta viimeisen neljän vuoden aikana olen keskittynyt enemmän digitaalisten ihmistieteiden kehittämiseen alallani. Muinaisesta Lähi-idästä on säilynyt meille satojatuhansia tekstejä, ja vaikka vain osa niistä on digitoitu, tutkimusaineistoa on paljon.

Johtamassani tiimissä (huippuyksikön tiimi 1) olemme tehneet monenlaista tutkimusta yhdistäen kieliteknologisia menetelmiä assyriologiaan. Tämän tyyppinen kieliteknologinen tutkimus on uutta muinaisen Lähi-idän tutkimuksessa ja siinä on paljon tutkimuspotentiaalia. Viimeisin artikkelimme liittyy pelkoon. Miten nuolenpääkirjoituksissa kuvaillaan pelkoa? Tarkemmin sanottuna muodostimme semanttisen kentän viidestä pelkoon liittyvästä verbistä ja niiden johdannaisista. Tulokset osoittavat muun muassa sen, että pelkoa kuvaava sanasto oli tässä muinaisessa seemiläisessä kielessä (nimeltään akkadi) hyvin eriytynyttä. Eri tekstigenreissä käytettiin erilaista pelkosanastoa ja osa pelkosanoista oli varattu hyvinkin erikoistuneeseen käyttöön. Esimerkiksi sana pirittu ”pelko” esiintyy lähes pelkästään tietyntyyppisessä rukouksessa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki liittyy olennaisesti tutkimukseeni. Digitoidut nuolenpäälähteemme ovat peräisin Open Richly Annotated Cuneiform Corpus -portaalista, mutta ovat saatavilla Kielipankissa (oracc). Kielipankin Korp-työkalun avulla olemme voineet tutkia kiinnostavia sanaesiintymiä tehokkaasti. Kehittämillämme kieliteknologisilla välineillä saamme kiinnostavia tuloksia vaikkapa yksittäisen sanan semanttisista ulottuvuuksista, mutta niitä pitää sitten tarkemmin tutkia kontekstissaan ja tämä on helposti mahdollista Korpin kautta. Korppiin on myös lisätty linkit kuhunkin tekstiin emoprojekteissaan, Open Richly Annotated Cuneiform Corpus -portaalissa joten tutkija pääsee halutessaan vaikka valokuvaan asti kustakin tekstistä.

Kielipankin aineistoon liittyviä julkaisuja:

Svärd, Saana, Tero Alstola, Heidi Jauhiainen, Aleksi Sahala, and Krister Lindén. Fear in Akkadian Texts. In S.-W. Hsu and J. Llop-Radua (eds.), The Expression of Emotions in Ancient Egypt and Mesopotamia. Culture and History of the Ancient Near East (CHANE), 116. Brill. Ilmestyy joulukuussa 2020 (https://brill.com/view/title/57151)

Tero Alstola, Shana Zaia, Aleksi Sahala, Heidi Jauhiainen, Saana Svärd, Krister Linden. 2019. “Aššur and His Friends: A Statistical Analysis of Neo-Assyrian Texts” Journal of Cuneiform Studies 71, pp. 159-180. https://doi.org/10.1086/703859

Saana Svärd, Heidi Jauhiainen, Aleksi Sahala, Krister Lindén 2018 ”Semantic Domains in Akkadian Texts” in Vanessa Juloux, Amy Gansell, & Alessandro di Ludovico, (eds.) CyberResearch on the Ancient Near East and Neighboring Regions: Case Studies on Archaeological Data, Objects, Texts, and Digital Archiving. Digital Biblical Studies 2. Brill: Leiden, pp 224-256. DOI: https://doi.org/10.1163/9789004375086_009

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Tuomo Hiippala

Kuva: Veikko Somerpuro

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston englannin kielen ja digitaalisten ihmistieteiden apulaisprofessori Tuomo Hiippala kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin palveluita.

Kuka olet?

Olen Tuomo Hiippala, englannin kielen ja digitaalisten ihmistieteiden apulaisprofessori Helsingin yliopiston Kielten osastolla, jossa olen työskennellyt vuodesta 2018 lähtien.

Mikä on tutkimuksesi aihe?

Tutkin multimodaalisuutta, jolla tarkoitetaan sitä kuinka ihmisten välinen viestintä ja vuorovaikutus pohjautuvat usean ilmaisukeinon tarkoituksellisille yhdistelmille. Tämä ilmiö käsitetään nykyään luonnolliseksi osaksi viestintää ja vuorovaikutusta. Esimerkiksi kasvokkainen vuorovaikutus hyödyntää jatkuvasti puhutun kielen, eleiden, katseen ja kehon asennon koordinoituja yhdistelmiä, kun taas arkipäiväiset sivupohjaiset tekstit yhdistelevät saumattomasti kirjoitettua kieltä, valokuvia, diagrammeja, sommittelua ja muita ilmaisukeinoja viestiäkseen lukijalle.

Mitä ilmaisukeinoja yhdistellään ja miten riippuu pitkälti tilanteesta, jossa viestintä tapahtuu. Ihmiset kohtaavat päivittäisessä elämässään erittäin laajan joukon erilaisia viestintätilanteita, joihin he osallistuvat usein melko vaivattomasti. Minua kiinnostavat ne periaatteet, jotka ohjaavat eri ilmaisukeinojen kirjoa ja yhdistelmiä, ja mahdollistavat päivittäisen toimintamme eri viestintätilanteissa. Näiden periaatteiden kuvaus ja ymmärrys edellyttää empiiristä tutkimusta, jota hidastaa tällä hetkellä laajojen ja yksityiskohtaisten aineistojen puute. Tästä syystä olen tällä hetkellä erittäin kiinnostunut laskennallisista menetelmistä ja niiden sovelluksista multimodaalisen viestinnän empiiriseen tutkimukseen.

Miten Kielipankki liittyy tutkimukseesi?

Olen julkaissut Kielipankissa kaksi multimodaalista korpusta, joista toinen liittyy väitöskirjaani (GeM-HTB) ja toinen viimeaikaiseen tutkimushankkeeseeni (AI2D-RST). Kielipankki on mielestäni erittäin hyödyllinen palvelu korpusten pitkäaikaissäilytykseen ja jakeluun. Aion jakaa myös kehittämäni multimodaaliset korpukset myös jatkossa Kielipankin kautta.

Kielipankin aineistoon liittyviä julkaisuja:

Tuomo Hiippala (2016) Helsingin kaupungin matkailuesitteiden multimodaalinen korpus. Terra 128(2): 75-85.

Tuomo Hiippala, Malihe Alikhani, Jonas Haverinen, Timo Kalliokoski, Evanfiya Logacheva, Serafina Orekhova, Aino Tuomainen, Matthew Stone, John A. Bateman (2020) AI2D-RST: A multimodal corpus of 1000 primary school science diagrams. arXiv: arXiv:1912.03879

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Jenny Tarvainen

Jenny Tarvainen - kuva: Inka Huuskonen
Kuva: Inka Huuskonen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jyväskylän yliopiston tutkimusavustaja Jenny Tarvainen kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoa Kansainvälinen oppijansuomen korpus, ICLFI.

Kuka olet?

Olen Jenny Tarvainen. Valmistuin vuoden 2019 tammikuussa Jyväskylän yliopistosta maisteriksi suomen kieli pääaineenani. Tällä hetkellä teen töitä maahanmuuttajien suomen kielen opettajana, mutta tarkoituksenani on hakeutua jatko-opintoihin lähitulevaisuudessa. Ajauduin korpustutkimuksen maailmaan jo kandidaattivaiheessa, eikä loppua vielä näy. Kielipankki on siis tullut vuosien varrella varsin tutuksi.

Mikä on tutkimuksesi aihe?

Maisterintutkielmani (Tarvainen 2018) oli vertaileva korpustutkimus SAADA-verbin fraseologisista piirteistä natiivi- ja oppijansuomessa. Tavoitteenani oli kontrastiivisen oppijankielen analyysin (CIA) avulla selvittää, kuinka suomenoppijoiden SAADA-verbin käyttö eroaa natiivipuhujien tavasta käyttää kyseistä verbiä. Tarkastelin eroja verbistä käytettyjen muotojen sekä verbiä ympäröivien merkitysten kautta. Tarkastelin myös näiden muotojen ja merkitysten välistä suhdetta tilastollisin menetelmin. Mielenkiintoista oli, että suomea vieraana kielenä opiskelevien käytössä muotojen ja merkitysten välillä oli vahvempi yhteys kuin natiivien kirjoittamissa teksteissä, eli SAADA-verbin tietty muoto esiintyi oppijankielessä kiinteämmin kontekstin tietyn merkityksen kanssa: esimerkiksi verbimuodon saavat ympärillä puhutaan todennäköisesti perheestä tai yleisesti ihmisistä, kun taas perusmuodon saada ympärillä teemoja ovat paikka, suunta ja tila.

Lisäksi opintojen aikana sekä valmistumisen jälkeen olen tehnyt tutkimusavustajan työtä Jyväskylän yliopiston suomen kielen professori Jarmo Jantusen tutkimusprojekteissa. Näissä tutkimuksissa on tarkasteltu muun muassa sitä, kuinka homo- ja heteroseksuaaleista puhutaan mediassa (Jantunen 2018) ja millaisia diskursseja nousee esiin pääkaupunkiseudun eri kaupungeista puhuttaessa (tulossa). Näiden tutkimusprojektien aikana olen tutustunut muun muassa korpusavusteiseen diskurssintutkimukseen (CADS). Parhaillani työstän väitöskirjan tutkimussuunnitelmaa syksyn jatko-opinto-oikeushakua varten. Korpukset pysyvät osana tutkimustani: aion koneoppimisen avulla tarkastella pääkaupunkiseutuun liittyviä diskursseja Suomi24 -korpuksesta.

Miten Kielipankki liittyy tutkimukseesi?

Maisterintutkielmaani varten keräsin oppijankielen aineiston Kansainvälisestä oppijansuomen korpuksesta, ICLFI:stä. Kyseiseen korpukseen on kerätty suomea vieraana kielenä opiskelevien tekstejä, jotka on luokiteltu taitotasoittain. Itse käytin edistyneiden opiskelijoiden tekstejä, koska vertailuaineistona oli äidinkielisten suomen puhujien tuotoksia. Korpuksen monipuolisten tekstien vuoksi (esseet, referaatit, mielipidekirjoitukset, sähköpostiviestit, työhakemukset…) aineistolla pääsi todella tutkimaan oppijankieltä laajasti siten, ettei tullut tutkineeksi vain tietyn genren piirteitä tai tietyn äidinkielen vaikutusta.

Muissa tutkimuksissa on käytetty Suomi24 -korpusta. Laajasta korpuksesta on ollut mahdollista kerätä pienempiä osakorpuksia hakutulosten perusteella, kuten homo- ja hetero-korpukset ja pääkaupunkiseudun eri kaupunkien osakorpukset. Näistä on ollut mahdollista päästä kiinni osakorpuksissa ilmeneviin diskursseihin.

Kielipankin aineistoon liittyviä julkaisuja:

Tarvainen, Jenny 2018: SAADA-verbin fraseologiaa: vertaileva korpustutkimus oppijan- ja natiivikielestä. Maisterintutkielma. Jyväskylän yliopisto. https://jyx.jyu.fi/handle/123456789/59273?show=full

Jantunen, Jarmo H. 2018: Homot ja heterot Suomi24:ssä: analyysi digitaalisista diskursseista. Puhe ja kieli, 38(1), 3–22. https://doi.org/10.23997/pk.65488

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Sam Hardwick

Sam Hardwick - kuva: Bess Hardwick
Kuva: Bess Hardwick

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston projektitutkija Sam Hardwick kertoo, miten hän on ollut mukana tuottamassa Kielipankin työkaluja.

Kuka olet?

Olen freelance-konsultti, -tutkija ja -ohjelmoija. Urani kieliteknologian parissa alkoi Helsingin yliopistolla HFST-projektissa, jossa kehitettiin ohjelmistoja morfologian mallintamiseen ja sovelluskehitykseen. Niitä on käytetty mm. taivuttaviin käännössanakirjoihin ja oikeinkirjoitustyökaluihin kielille, joissa on rikas morfologia (kuten suomi, saamelaiskielet ja grönlanti). Sittemmin olen vastannut erilaisten akateemisten hankkeiden teknisestä puolesta sekä konsultoinut yksityisellä sektorilla.

Mikä on työsi aihe?

Tällä hetkellä olen tekemässä sentimenttikorpusta, eli kokoelmaa sosiaalisesta mediasta kerättyjä tekstinpätkiä, joiden tunneilmaisu (positiivinen, neutraali, negatiivinen) arvioidaan ihmisten toimesta. Näiden arvioiden pohjalta kehitetään myös automaattinen sentimenttitunnistin, joka on työkaluna itsessäänkin tarpeellinen ja jolla voidaan tulevaisuudessa annotoida uusissa aineistoissa ilmaistua tunnesävyä virke virkkeeltä.

Olen myös mukana ANEE-hankkeessa tekemässä puupankkia Akkadin kielelle, sekä tähän liittyvää automaattista analysointityökalua, jolla toivottavasti saadaan tämän muinaiskielen aineistoja analysoitua lisää automaattisesti.

Miten Kielipankki liittyy tutkimukseesi?

Olen tehnyt monenlaista kehitystyötä suoraan Kielipankkia varten – tällä hetkellä suunnitteilla on mm. ohjelmallinen rajapinta, jolla Kielipankin aineistoja voisi käyttää suoraan ohjelmakoodista. Nykyään kieliteknologisten työkalujen kehitys on yhä enemmän koneoppimisen yleisosaajien kiinnostuksen kohteena, ja monia kiinnostaa päästä käsiksi dataan – mitä enemmän ja mitä rikastetumpaa, sen parempi.

Kielipankin aineistoon liittyviä julkaisuja:

Käytimme E-Thesis -aineistoa, eli opinnäytetöitä, etsimään automatisoidusti tieteellisiä termejä Tieteen Termipankkia varten:

Hardwick, S., Enqvist, E. J., Onikki-Rantajääskö, T. A., & Linden, B.K. J. (2018). Tieteen kansallinen termipankki (TTP) ja tiedonlouhinnan apuneuvot. Posterin esittämispaikka: Kielitieteen päivät, Helsinki, Finland.

Sen toiminta näyttää tältä: https://www.kielipankki.fi/tools/demo/termipankki/matemaattis.html.

Olen julkaissut erilaisia aineistoja käyttäviä työkaluja sivulla https://www.kielipankki.fi/tools/demo/.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Anna Puupponen

Anna Puupponen - kuva: Tapio Laitinen
Kuva: Tapio Laitinen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jyväskylän yliopiston tutkijatohtori Anna Puupponen kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoja Suomalaisen viittomakielen korpus ja ProGram-aineisto, lumiukko- ja sammakkotarinat.

Kuka olet?

Olen Anna Puupponen ja työskentelen tutkijatohtorina Jyväskylän yliopiston viittomakielen keskuksessa. Sain väitöskirjani valmiiksi toukokuussa 2019 ja nyt teen väitöksen jälkeistä tutkimusta suomalaisesta viittomakielestä.

Mikä on tutkimuksesi aihe?

Väitöstutkimukseni aihe oli viittomakielilingvistiikassa hieman vähemmän huomiota saanut osa: pään ja kehon liikkeet. Tarkastelin väitöskirjassa viittojien tuottamia pään ja kehon liikkeitä sekä sitä, millainen rooli näillä liikkeellä on kielen rakenteessa, vuorovaikutuksen etenemisessä ja merkitysten välittymisessä.

Tällä hetkellä teen tutkimusta viittomakielen keskuksen projekteissa, joissa tarkastellaan kehollista kuvailua viitotuissa tarinoissa ja keskusteluissa, aikuisten ja lasten viittomisessa ilmeneviä yhtäläisyyksiä ja eroja, viittomisen prosessoinnista aivokuvantamalla paljastuvia piirteitä sekä äidinkielisten viittojien ja viittomakielen oppijoiden viittomisen sujuvuutta.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankissa on julkaistu suomalaisesta viittomakielestä kerättyjä multimodaalisia aineistoja, joita olen ollut rakentamassa sekä hyödyntänyt tutkimuksessani. Vuonna 2016 julkaistiin viitotuista tarinoista koostuva ProGram-aineisto, lumiukko- ja sammakkotarinat (Snowfrog) ja vuonna 2019 ensimmäinen osakokonaisuus Suomalaisen viittomakielen korpuksesta (Corpus FinSL). Viittomakielten lingvistisessä tutkimuksessa korpusaineistoilla voidaan ajatella olevan erityisen tärkeä rooli. Viittomakielet ovat vähemmistökielinä usein heikossa yhteiskunnallisessa asemassa, niiltä puuttuu pitkälle kehittyneitä, institutionaalisia standardeja, ja niiden periytyminen sukupolvelta toiselle on keskeytynyttä. Viittomakielten kuvauksia ja kielioppeja tehtäessä laajojen kieliaineistojen ja niissä esiintyvän variaation tarkastelu on tärkeää. Korpukset ovat myös tärkeässä roolissa viittomakielten opetuksen kehittämisessä.

Tämä aineistolähtöinen lähestymistapa oli olennaisessa roolissa väitöskirjaprojektissani. Käytin Kielipankissa julkaistuja viittomakieliaineistoja tutkimuksissa, joissa tarkastelin päällä ja keholla tuotettuja liikekokonaisuuksia ja niiden semioottisia piirteitä viitotuissa tarinoissa ja keskusteluissa. Kielipankissa julkaistut viittomakieliaineistot mahdollistivat myös suomalaisen ja ruotsalaisen viittomakielen välisen vertailun väitöskirjassani, sillä Snowfrog-aineisto ja Suomalaisen viittomakielen korpus ovat keruuperiaatteiltaan hyvin pitkälti samanlaisia kuin vastaavat ruotsalaisesta viittomakielestä julkaistut korpusaineistot.

Tällä hetkellä käytän Suomalaisen viittomakielen korpuksen aineistoa tutkimuksessa, jossa tarkastellaan eri-ikäisten viittojien kuvailevaa kielenkäyttöä. Kielipankissa julkaistu osa Suomalaisen viittomakielen korpuksesta sisältää viitottuja tarinoita ja keskusteluja 21 viittojalta, jotka ovat iältään 18–89-vuotiaita. Tutkimuksessa analysoidaan kyseistä eri-ikäisiltä aikuisilta kerättyä aineistoa sekä Jyväskylän yliopiston viittomakielen keskuksen VIKKE-projektin kieliaineistoa, joka on kerätty viittovilta lapsilta.

Kielipankin aineistoon liittyviä julkaisuja:

Puupponen, A. (2019). Understanding nonmanuality: A study on the actions of the head and body in Finnish Sign Language. Väitöskirja. Jyväskylän yliopisto.
Puupponen, A. (2019). Towards understanding nonmanuality: A semiotic treatment of signers’ head movements. Glossa: a journal of general linguistics 4(1): 39. 1–39. DOI: https://doi.org/10.5334/gjgl.709
Jantunen, T.; Mesch, J.; Puupponen, A. & Laaksonen, J. (2016). On the rhythm of head movements in Finnish and Swedish Sign Language sentences. In Proceedings of Speech Prosody 2016 [organized at Boston University, May 31–June 3, 2016], pp. 850–853
Puupposen väitöskirjaa esittelevä väitöstiedote Jyväskylän yliopiston verkkosivuilla.

Suomalaisen viittomakielen korpuksen koostajan näkökulma esiteltiin kuukauden tutkija Juhana Salosen haastattelussa toukokuussa 2020.

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.