
Heini Kallio kertoo meille tutkimuksestaan, joka liittyy kielenoppimisen fonetiikkaan, puheen ymmärrettävyyteen ja puhutun vieraan kielen taitotason arviointiin.
Olen fonetiikan yliopistonlehtori Tampereen yliopistossa, jossa olen työskennellyt vuodesta 2023 lähtien. Väittelin 2022 Helsingin yliopistosta fonetiikan ja puhesynteesin tutkimusryhmästä. Olen ollut vierailevana tutkijana Slovakian tiedeakatemialla ja Nitran yliopistossa sekä työskennellyt useissa kielenoppimisen ja kielitaidon arvioinnin tutkimushankkeissa. Opiskeluhistoriani pitää sisällään fonetiikan pääaineena sekä sekalaisen kattauksen viestintää, psykologiaa, kieliä ja puhetieteitä.
Loputon aarreaittani tutkimuksen saralla on toisella ja vierailla kielillä puhumisen vaikeus ja helppous. Etsin puheesta akustisesti mitattavien piirteiden yhteyksiä ihmisten tekemiin arvioihin kielenoppijan taitotasosta tai esimerkiksi kokemukseen puheen ymmärrettävyydestä. DigiTala-hankkeessa tutkin suomalaisten lukiolaisten puhumaa ruotsia sekä maahanmuuttajien puhumaa suomea tarkoituksenani löytää akustisia parametreja, joiden avulla suullista kielitaitoa voisi arvioida automaattisesti. Väitöskirjani tutkimusaineistona oli DigiTala-aineiston lisäksi myös tšekin-, slovakin-, puolan- ja unkarinkielisten puhumaa englantia, jonka tutkiminen jatkui myös väitöksen jälkeen. Sittemmin olen päässyt tutkimaan myös suomenkielisten ranskanoppijoiden puheen prosodisia piirteitä.
Vuosina 2024–2025 johdin ensimmäistä omaa, Svenska Kulturfondenin rahoittamaa tutkimushankettani Suomenruotsin ääntäminen erikielisillä alkeisoppijoilla. Hankkeessa tutkimme maahanmuuttajien puhumaa ruotsia Suomessa. Analysoimme mm. kielitaustan vaikutusta ruotsinkielisen puheen akustisiin piirteisiin sekä kuulijakokemuksia alkeisoppijoiden puheesta.
Ennen nykyistä työtäni toimin tutkijana Suomen akatemian rahoittamassa DigiTala-hankkeessa, jossa kehitimme ensimmäisen suomen ja suomenruotsin suullisen kielitaidon eri osa-alueita automaattisesti arvioivan työkalun. Hankkeen lopputuloksena syntyi DigiTala Moodle-liitännäinen. Tämä kunnianhimoinen konsortiohanke koostui kielididaktiikan, kieli- ja puheteknologian sekä fonetiikan asiantuntijoista, joista moni jatkaa DigiTalassa aloitettua työtä mm. kehittämällä mobiilisovellusta suomen oppijoille (DigiTala Toiminnaksi) sekä tutkimalla suullisen vuorovaikutuksen automaattista arviointia AASIS-hankkeessa.
Automaattinen arviointi perustuu puheentunnistukseen ja koneoppimismalleihin, jotka puolestaan toimivat sitä paremmin, mitä laajempaa ja tarkoituksenmukaisempaa aineistoa niiden opetukseen käytetään. Siispä suunnittelimme ja keräsimme DigiTalassa laajan tutkimus- ja kehitysaineiston, joka sisältää mm. suomen ja ruotsin oppijoille suunnattuja suullisen kielitaidon tehtäviä, arviointikriteerit suullisen kielitaidon eri osa-alueille sekä kattavan puhe- ja arviointiaineiston. DigiTalan puhe- ja arviointiaineisto on saatavilla Kielipankista tieteelliseen tutkimuskäyttöön. Suulliset tehtävät, arviointikriteerit ja hankkeen tutkimuksissa käytetyt kyselylomakkeet puolestaan löytyvät DigiTalan Zenodo-kanavalta. DigiTalassa kerättyä suomenruotsin oppijoiden puheaineistoa päästiin tutkimaan myös Suomenruotsin ääntämisen erikielisillä oppijoilla -hankkeessa.
Heinonen, H. & Kallio, H. (painossa). Realiseringen av begriplighetsrelaterade uttalsdrag i finlandssvenska hos L2 talare från olika språkbakgrund. Svenskan i Finland 21.
Kallio, H. & Kaźmierski, K. (2024). Reduction of unstressed English vowels by EFL speakers with different language backgrounds. In International Symposium on Applied Phonetics (pp. 38 42). International Speech Communication Association (ISCA). doi: 10.21437/ISAPh.2024-8
Kallio, H. (2024). The contribution of speech timing, f0 change, and voice quality to perceived prosodic proficiency in L2: a cross lingual perspective. In Speech prosody (pp. 507 511). International Speech Communication Association (ISCA). doi: 10.21437/SpeechProsody.2024-103
von Zansen, A. & Kallio, H. (2024). DigiTala – Moodle sovellus suullisen kielitaidon automaattiseen arviointiin. (DigiTala – An online tool for automated assessment of oral language skills.) AFinLA teema, 17, pp. 91 116. doi: 10.30660/afinla.131465
Kallio, H., Kautonen.M. & Kuronen, M. (2023). Prosody and fluency of Finland Swedish as a second language: investigating global parameters for automated speaking assessment. Speech Communication, Volume 148, pp. 66 80, 2023. doi: 10.1016/j.specom.2023.02.003
Lisähuomio: Valitettavasti DigiTalassa kehitetyt automaattiset arviointialgoritmit eivät ole yliopistojen rajallisen palvelintilan vuoksi yleisessä käytössä. Toisin sanoen Moodle-liitännäistä voi käytännössä hyödyntää suullisen harjoittelun ja opettajajohtoisen arvioinnin apuna.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Kalle Lahtinen kertoo meille tutkimuksestaan, jossa hän tarkastelee kielellistä affektia ja puhe-emootiota spontaanin suomen kielen kontekstissa.
Olen Kalle Lahtinen ja toimin väitöskirjatutkijana Tampereen yliopiston signaalinkäsittelyn tutkimuskeskuksessa. Ennen jatko-opintojani olen opiskellut tietotekniikkaa, signaalinkäsittelyä, akustiikkaa ja matematiikkaa. Väitöstyötäni ohjaavat professori Okko Räsänen ja vanhempi yliopistonlehtori Liisa Mustanoja Tampereen yliopistosta sekä vanhempi yliopistonlehtori Juraj Šimko Helsingin yliopistosta.
Väitökseni aihe on Kielellinen affekti ihmisen ja koneen tulkitsemana. Tutkin kielellistä affektia ja puhe-emootiota spontaanin suomen kielen kontekstissa. Spontaanilla tarkoitan ei-näyteltyä, ilmaisutyyliltään ohjaamatonta (arki)puhetta. Hyödynnän työssäni sekä puhuttua että kirjoitettua kieltä. Tarkastelen, miten puheen merkityssisältö (mitä sanottiin) ja vastaava akustinen signaali (miten sanottiin) vaihtelevat, liittyvät toisiinsa ja vaikuttavat ilmaisun tulkintaan kokonaisuutena.
Työssäni tarkastelen suuria kieliaineistoja signaalinkäsittelyn ja koneoppimisen avulla. Väitöstyö tuottaa uusia aineistoja ja menetelmiä kielellisen affektin analyysiin ja mallintamiseen niin, että huomioiduksi tulevat sekä puhekielen yksilöllinen että tilanteellinen vaihtelu. Tulokset vievät sekä kielentutkimusta että puheteknologista sovelluskehitystä eteenpäin.
Työni on osa Tampereen yliopiston poikkitieteellistä CONVERGENCE of Humans and Machines -hanketta, jonka rahoittajana toimii Jane ja Aatos Erkon säätiö.
Väitöstutkimukseni ensimmäisen vaiheen aikana koostettu spontaanin suomen kielen affektikorpus FinnAffect julkaistaan Kielipankissa. Korpus on koostettu Lahjoita puhetta, Helpuhe ja Tampuhe -aineistoista (jotka myös ovat joko jo saatavilla tai tulossa saataville Kielipankkiin). FinnAffect-korpus koostuu 1 474 728:sta 1–20 sekuntia pitkästä litteroidusta puhunnosta, joista 12 000 on annotoitu tunnesävyn ja virittyneisyyden suhteen. Aineistossa on tuhansien erilaisten ihmisten puhetta ja on siten kielellisen affektin tutkimisen suhteen ensimmäinen laatuaan Suomessa. FinnAffect-korpuksen koostamisen ja julkaisemisen mahdollistivat Kielipankkiin jo tallennetut laajat puhutun kielen aineistot sekä tietysti Kielipankin tarjoama asiantunteva palvelu.
Lahtinen, K., Vaaras, E., Mustanoja, L., Räsänen, O. (2025). Investigating affect mining techniques for annotation sample selection in the creation of Finnish affective speech corpus. Interspeech 2025, 3958-3962. DOI: https://doi.org/10.21437/interspeech.2025-687
Lahtinen, K., Mustanoja, L., Räsänen, O. (2025). FinnAffect: An affective speech corpus for spontaneous Finnish. Speech Communication 175, 103327–. DOI: https://doi.org/10.1016/j.specom.2025.103327
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Atte Huhtala kertoo meille tutkimuksestaan, jossa hän tarkastelee merkityslähtöisesti itämerensuomen ja permiläiskielten kielioppia.
Olen suomen kielen maisteri Atte Huhtala. Työskentelen suomalais-ugrilaisen kielentutkimuksen yhteisohjattuna väitöskirjatutkijana Turun ja Tarton yliopistoissa. Osallistun myös kahden tutkimusryhmän toimintaan: Tuomas Huumon johtamaan Suomen Akatemian rahoittamaan hankkeeseen Finnish relations: Changes in Finnish relational predicates from the 16th century to the present (FiRe) ja Karl Pajusalun johtamaan Viron tiedeneuvosto ETAGin rahoittamaan hankkeeseen From East to West: Typological shift in Estonian and the Southern Finnic languages against the background of Uralic (EstTyp).
Pääasiallinen tutkimusalani on merkityslähtöinen kieliopin tutkimus. Väitöstutkimukseni käsittelee itämerensuomen ja permiläiskielten approksimatiivista liikettä ilmaisevia kieliopillisia keinoja. Tutkimuksessani tarkastelen muun muassa suomen kielessä adverbeina ja postpositioina esiintyviä kieliopillisia sanoja luo ja tykö, jotka ilmaisevat jonkun tai jonkin läheisyyteen liikkumista, sekä kohdegrammeiksi kutsumiani kieliopillisia sanoja kohti ja päin. Suomen lisäksi tutkin ja vertailen vastaavantyyppisiä merkityksiä kuvaavien kielellisten elementtien käyttöä virossa sekä permiläisissä komin ja udmurtin kielissä. Muita minua kiinnostavia kielitieteen osa-alueita ovat suomen ja viron alueellinen variaatio, itämerensuomalaisten kielten vertaileva typologia, monitieteinen menneisyyden tutkimus ja uralilainen kielihistoria.
Kielipankki aineistoineen tuli minulle tutuksi jo suomen kielen perusopintojen aikana, jolloin osallistuin FIN-CLARINin järjestämälle korpuslingvistiikan johdantokurssille. Kandidaatintutkielmassani ja pro gradu -työssäni hyödynsin useita Kielipankin hallinnoimia aineistoja: Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielistä osakorpusta, verkkokeskustelugenreä edustavaa Suomi24-korpusta sekä Lauseopin arkiston murrekorpusta. Opintojeni aikana työskentelin myös Satakuntalaisuus puheessa -projektissa, jonka lopputuloksena syntynyt Sapu-korpus julkaistiin hiljattain Kielipankissa.
Väitöstutkimukseni suomenkielinen aineisto on aiempien opinnäytteitteni tavoin kirjoitetun nykykielen osalta peräisin Kansalliskirjaston aikakauslehtikokoelmasta, murreaineisto puolestaan Lauseopin arkiston murrekorpuksesta, Digitaalisesta muoto-opin arkistosta sekä Suomen kielen näytteitä -kokoelmasta.
Kielipankin monipuoliset aineistot ovat tarjonneet ideoita myös lukuisiin pienempiin tutkimuksiin ja katsauksiin. Eräs esimerkki tästä on kevään 2025 Kielitieteen päivillä pitämäni esitelmä, jossa tarkastelin tykö-sanan käyttöä vanhassa kirjasuomessa Mikael Agricolan teosten morfosyntaktisen tietokannan pohjalta.
Huhtala, Atte 2023. Kohti, päin ja vasten. Kohdegrammien semantiikkaa itämerensuomessa. Pro gradu -tutkielma. Kieli- ja käännöstieteiden laitos, Turun yliopisto. Saatavilla: https://www.utupub.fi/handle/10024/174949
Kurki, Tommi, Huhtala, Atte, Koivunen, Tomi ja Mäkitalo, Nelli 2022. Satakuntalaisuus puheessa-korpus ja siitä tehtyjä synkretismihavaintoja. AFinLA-teema 14. s. 103–134. Toim. Lotta Aarikka, Katri Priiki ja Ilmari Ivaska. Saatavilla: https://doi.org/10.30660/afinla.111247
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Suomeksi | In English | På finlandssvenskt teckenspråk
Språkbanken i Finland (Kielipankki) är en tjänst för forskare som använder språkresurser. Satu Siltaloppi berättar om sin forskning om finlandssvenskt teckenspråk.
Jag heter Satu Siltaloppi. Jag har min bakgrund i teckenspråkstolkning men har sedan dess studerat till filosofimagister inom nordiska språk och disputerat om det finlandssvenska teckenspråkets grammatik och därmed blivit filosofidoktor. Som bäst arbetar jag som forskardoktor vid teckenspråkscentret vid Jyväskylä universitet. Jag disputerade från Helsingfors universitet år 2023 och arbetade både före disputationen och efter det i ett treårigt projekt vid Tammerfors universitet. Jag började som forskardoktor vid Jyväskylä i januari 2025.
Jag forskar i finlandssvenskt teckenspråk, dess grammatik och användning. I min doktorsavhandling hade jag fokus i listkonstruktioner, hur de ser ut och hur de används, och i det projektet vid TAU som var finansierad av Svenska Litteratursällskapet i Finland (SLS) forskade jag hur teckenspråksanvändarna anpassar sitt teckenspråk i olika kontext som liknar användningen av lätt språk. Nu vid JYU har jag studerat frågekonstruktioner i korpusmaterialet – hur de finlandssvenska teckenspråkiga uttrycker frågor? Jag är intresserad av kommunikationen och interaktionen på teckenspråk och om allt som händer då två eller flera teckenspråkiga samtalar, hur de delar betydelser och förstår varandra.
Språkbanken har en stor betydelse för mitt arbete. I den nuvarande forskningen använder jag korpusen i det finlandssvenska teckenspråket (CFSTS) som material. En av de riktigt första sakerna jag tittade på var hur mitt doktorsavhandlingsämne, listkonstruktionerna, används som delad resurs i korpusen. Med delad resurs menar jag situationer där den ena informanten bygger upp en listkonstruktion och den andra tar den i bruk utan att bygga upp den utan bara som sådan. Mitt material för doktorsavhandlingen bestod av monologer så det här kunde jag inte ta upp då. Jag har också hunnit kolla hur frågekonstruktioner används i korpusmaterialet och kommit på väldigt många andra ämnen som går att forska i tack vare korpusmaterialet – det finns arbete! Samtidigt ser jag att det nuvarande korpusmaterialet inte kan ge svar på alla de saker vi är intresserade av och är i behov av att få forska i. Jag hoppas och ser det också möjligt att vi i framtiden samlar in mer material som går sedan att också publicera i Språkbanken.
Jag är oerhört tacksam över det grundläggande arbetet som har gjorts för annotering på teckennivå och för översättning av korpusmaterialet. Arbetet är dock inte klart för en del av videorna har inte alls annoterade ännu, men vi behöver också andra typer av annotationer. Som bäst håller jag på med en högskolepraktikant att göra CLU-annotationer för korpusmaterialet. CLU kommer från engelskans clause-like unit och det betyder att vi gör syntaktiska annotationer för enheter som liknar satser. CLU-annotationerna kommer att möjliggöra till exempel analyser av olika satstyper och, för att de görs på korpusens diskussionsmaterial, olika samtals- och interaktionsanalytiska studier.
”Månadens forskare: Satu Siltaloppi” på finlandssvenskt teckenspråk (video) | YouTube
Siltaloppi, Satu (2025). Anpassning av det finlandssvenska teckenspråket. I: C. Lindholm, M. Kivilehto & S. Siltaloppi (red.) Lätt svenska i Finland. Skrifter utgivna av Svenska litteratursällskapet i Finland, 150–168. SLS. Tillgänglig: https://www.sls.fi/publications/latt-finlandssvenska/
Valtasalmi, Idastiina, Satu Siltaloppi, Vilma Wacklin & Liisa Mustanoja (2025). Kymmenen havaintoa syrjimättömästä kielestä. I: K. Jänis & I. Salminen (red.), Kieli ja kirjallisuus muuttuvassa yhteiskunnassa. Äidinkielen opettajain liiton vuosikirja 2025, 99–129. Äidinkielen opettajain liitto.
Wilcox, Sherman, André Xavier & Satu Siltaloppi (2023). List Construction in Two Signed Languages. Language and Cognition. 1–36. doi: 10.1017/langcog.2023.19
Siltaloppi, Satu (2023). List construction in Finland-Swedish Sign Language. Doktorsavhandling, Helsingfors universitet. Tillgänglig: http://urn.fi/URN:ISBN:978-951-51-8955-4
Siltaloppi, Satu (2019). Finlandssvenskt teckenspråk. Listkonstruktion, koherens och konstruktionsgrammatik. I: M. Bianchi, D. Håkansson, B. Melander, L. Pfister, M. Westman & C. Östman (red.), Svenskans beskrivning 36. Förhandlingar vid trettiosjätte sammankomsten. Uppsala 25–27 oktober 2017. Uppsala: Institutionen för nordiska språk vid Uppsala universitet. 281–293. Tillgänglig: https://www.diva-portal.org/smash/get/diva2:1313414/FULLTEXT01.pdf
Språkbanken i Finland samordnas av det nationella FIN-CLARIN-konsortiet som består av finländska universitet med CSC – IT Center for Science och Institutet för de inhemska språken (Kotus). FIN-CLARIN hjälper forskare i Finland att använda, förbättra, bevara och dela med sig av sina språkresurser. Språkbanken i Finland är en samling tjänster som tillhandahåller språkmaterial och verktyg för forskarsamfundet.
Alla tidigare publicerade intervjuer med forskare från Språkbanken lagras i Månadens forskare arkivet. Den här artikeln publiceras också på webbplatsen för den humanistiska fakulteten vid Helsingfors universitet.
In English | På svenska | På finlandssvenskt teckenspråk
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Satu Siltaloppi kertoo meille tutkimuksestaan, joka liittyy suomenruotsalaiseen viittomakieleen.
Olen Satu Siltaloppi, viittomakielen tulkkitaustainen pohjoismaisten kielten maisteri ja suomenruotsalaisen viittomakielen kieliopista väitellyt filosofian tohtori. Työskentelen tällä hetkellä tutkijatohtorina Jyväskylän yliopiston viittomakielen keskuksessa. Väittelin Helsingin yliopistossa 2023 ja olen työskennellyt väitöstä odotellessa ja sen jälkeen Tampereen yliopistolla postdoc-tutkijana hankkeessa. Aloitin tutkijatohtorina Jyväskylässä tammikuussa 2025.
Tutkin suomenruotsalaista viittomakieltä, sen kielioppia ja käyttöä. Väitöskirjassani tutkin listakonstruktiota (sen muotoja ja käyttöä) ja tämän jälkeen tutkin Svenska Litteratursällskapet i Finlandin (SLS) rahoittamassa hankkeessa viittomakielen mukautettua käyttöä selkokielen kaltaisessa kontekstissa. Nyt viimeisimpänä olen tutkinut korpusaineistosta kysymyskonstruktioita – miten suomenruotsalaiset viittomakieliset ilmaisevat kysymyksiä? Olen kiinnostunut viittomakielisestä kommunikaatiosta ja siinä tapahtuvista asioista, merkitysten jakamisesta ja ymmärtämisestä.
Kielipankki on olennainen osa tutkimustani. Käytän nykyisessä tutkimuksessani aineistona suomenruotsalaisen viittomakielen CFSTS-korpusta ja ensimmäisten asioiden joukossa oli tarkistaa, miten väitöskirjani aihetta eli listakonstruktiota on käytetty korpuksessa jaettuna resurssina – väikkäriaineistoni koostui monologeista, joten jaettu käyttö jäi siltä osin dokumentoimatta. Tällä tarkoitan sitä, että toinen viittojista ensin luo listakonstruktion, jonka toinen viittoja ottaa osaksi omaa viittomistaan toistamatta listakonstruktion luomisvaihetta. Tämän lisäksi olen jo ehtinyt tutkia korpuksessa ilmeneviä kysymyskonstruktioita ja keksinyt monta, monta uutta aihetta, jonka tutkimisen korpusaineisto mahdollistaa. Työtä riittää vielä pitkäksi aikaa! Samalla tiedostan, että aineisto ei mahdollista kaikkea, joten ehkä vielä joskus saamme kerättyä lisääkin materiaalia, jonka voimme myös julkaista korpuksena Kielipankissa.
Olen kiitollinen siitä hyvästä pohjatyöstä, mitä aineiston viittomatason annotoinnin ja kääntämisen kanssa on tehty. Työ ei ole sen osalta valmis, osasta videoita puuttuu tämä vielä kokonaan, mutta meillä on tarvetta myös muille annotaatioille. Minulla onkin nyt korkeakouluharjoittelijan kanssa työn alla korpusaineiston CLU-annotoinnin aloittaminen. CLU-annotointi tulee englannin sanoista clause-like unit ja tarkoittaa syntaktisen tason annotointia lauseenkaltaisten yksiköiden osalta. Tämä mahdollistaa jatkossa esimerkiksi erilaisten lausetyyppien analysoinnin ja koska kyseessä on keskusteluaineisto, myös erilaiset kahdenkeskisen keskustelun- ja vuorovaikutusanalyyttiset tutkimukset.
Siltaloppi, Satu (2025). Anpassning av det finlandssvenska teckenspråket. Teoksessa C. Lindholm, M. Kivilehto & S. Siltaloppi (toim.) Lätt svenska i Finland. Skrifter utgivna av Svenska litteratursällskapet i Finland, 150–168. SLS. Saatavissa: https://www.sls.fi/publications/latt-finlandssvenska/
Valtasalmi, Idastiina, Satu Siltaloppi, Vilma Wacklin & Liisa Mustanoja (2025). Kymmenen havaintoa syrjimättömästä kielestä. Teoksessa: K. Jänis & I. Salminen (toim.), Kieli ja kirjallisuus muuttuvassa yhteiskunnassa. Äidinkielen opettajain liiton vuosikirja 2025, 99–129. Äidinkielen opettajain liitto.
Wilcox, Sherman, André Xavier & Satu Siltaloppi (2023). List Construction in Two Signed Languages. Language and Cognition. 1–36. doi: 10.1017/langcog.2023.19
Siltaloppi, Satu (2023). List construction in Finland-Swedish Sign Language. Väitöskirja, Helsingin yliopisto. Saatavissa: http://urn.fi/URN:ISBN:978-951-51-8955-4
Siltaloppi, Satu (2019). Finlandssvenskt teckenspråk. Listkonstruktion, koherens och konstruktionsgrammatik. Teoksessa M. Bianchi, D. Håkansson, B. Melander, L. Pfister, M. Westman & C. Östman (toim.), Svenskans beskrivning 36. Förhandlingar vid trettiosjätte sammankomsten. Uppsala 25–27 oktober 2017. Uppsala: Institutionen för nordiska språk vid Uppsala universitet. 281–293. Saatavissa: https://www.diva-portal.org/smash/get/diva2:1313414/FULLTEXT01.pdf
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Krista Ojutkangas kertoo meille aineistopohjaisesta suomen kielen tutkimuksestaan. Hänen tutkimuksensa yhdistää laadullisia ja määrällisiä havaintoja, minkä vuoksi molemmat metodologiset näkökulmat ovat merkityksellisiä.
Olen Krista Ojutkangas, suomen kielen dosentti ja yliopistonlehtori Turun yliopistossa. Teen tutkimusta Tuomas Huumon johtamassa Suomen Akatemian rahoittamassa hankkeessa Finnish relations: Changes in Finnish relational predicates from the 16th century to the present (FiRe).
Olen kiinnostunut kieliopista ja ennen kaikkea kielen rakenteiden ja semantiikan suhteesta. Olen tutkinut erityisesti spatiaalista semantiikkaa eli sitä, miten erilaisia sijainteja kuvataan kielellisesti, esimerkiksi paikallissijoilla tai postpositioilla. Olen kiinnostunut myös tällaisten elementtien kehityksestä, jota olen viimeksi pohtinut yhdessä Minna Jaakolan kanssa. Olen kiinnostunut myös vanhan kirjakielen ilmiöistä, esimerkiksi sanaparatagmoista eli sanarinnastuksista (hyvä ja lysti, juurtua ja itää, kuulla ja ymmärtää), joita olen tutkinut yhdessä Kirsi-Maria Nummilan kanssa. Viimeisin tutkimusaiheeni on transitiivisuus, jota olen tutkinut yhdessä Ilmari Ivaskan kanssa. Tämä tutkimus lähti liikkeelle viattomasta yhden artikkelin suunnitelmasta, mutta kolmatta ja neljättä tuotantokautta valmistellaan jo.
Olen aina tehnyt eri tavoin aineistoon perustuvaa tutkimusta ja olen kiinnostunut myös tällaisen tutkimuksen menetelmistä. Kielentutkimuksen menetelmiä käsittelevään kirjaan kirjoitin laadullista aineistopohjaista tutkimusta käsittelevän luvun yhdessä Milla Luodonpää-Mannin kanssa ja tässä kirjoituksessa avaan varsin konkreettisesti omaa tutkimusmenetelmääni esimerkkitapausten avulla. Luonnehdin omaa tutkimustani yleensä laadulliseksi, mutta käytännössä laadulliset ja määrälliset havainnot limittyvät keskenään, eikä jyrkkää rajaa menetelmällisten näkökulmien välille ole mielekästä vetää. Ilmari Ivaskan kanssa tekemässäni tutkimuksessa määrälliset menetelmät ovat lisäksi nousseet keskiöön Ilmarin asiantuntemuksen ansiosta. Tässä yhteistyössäkin päädyn silti aina myös lähilukemaan aineistoa ja olen aika sitkeä aineistoanalyysin naputtelija.
Kielipankin kautta käytettävistä aineistoista minulle läheisin on Lauseopin arkiston murreaineisto, jonka käytön bonuksena tulee näköala viime vuosisadan agraari-Suomeen: suurin osa sen aineistosta on 1960-luvulla tehtyjä murrehaastatteluja, ja liki kaikki haastatellut ovat syntyneet 1800-luvun puolella. Puhuttua tutkimusaineistoa edustaa myös Suomenkielisten arkikeskustelujen morfosyntaktinen tietokanta ArkiSyn, mutta eniten olen tutkinut eri-ikäistä kirjoitettua kieltä. Sanomalehti-, aikakauslehti- ja uutismateriaalia olen hyödyntänyt Suomen kielen tekstikokoelman, Kansalliskirjaston sanoma- ja aikakauslehtikokoelman (myös ruotsiksi) ja Ylen suomenkielisen uutisarkiston kautta. Kansalliskirjaston sanoma- ja aikakauslehtikokoelma yltää 1800-luvulle asti, ja syvemmälle historiaan olen päässyt Vanhan kirjasuomen ja Varhaisnykysuomen korpuksen kyydissä. Transitiivisuuden määrällisessä tutkimuksessa olemme käyttäneet myös Suomi24 virkkeet -korpusta, jota en sen sisällön aiheiden ja mielipiteiden kirjon vuoksi välttämättä itse valitsisi käsityömenetelmällä analysoitavaksi.
Kielipankin aineistojen selaaminen on kaltaiselleni kielentutkijalle kuin karkkikauppaan pääsisi. Monet aineistot ovat todella houkuttelevia ja herättävät uteliaisuutta ja tutkimusideoita. Vaikka en ole tekstintutkija, tutkimusmenetelmäni on sellainen, että arvostan aineistoissa pääsyä myös laajemman kontekstin äärelle. Esiintymien tarkka lähiluku hyötyy usein siitä, että näkee myös sen, mitä tekstissä on niiden edellä ja jäljessä.
Ivaska, I., & Ojutkangas, K. (2025). Suomen transitiiviset verbit ja verbien transitiivisuus: kvantitatiivinen tutkimus. Virittäjä 129(1), 4–30. https://doi.org/10.23982/vir.146123
Jaakola, M. & Ojutkangas, K. (2023). Readymade grammar: Why are Finnish postpositions an open class? Teoksessa M. Jaakola ja T. Onikki-Rantajääskö (toim.), The Finnish Case System: Cognitive Linguistic Perspectives, 325–354. Helsinki: Suomalaisen Kirjallisuuden Seura. https://doi.org/10.21435/sflin.23
Luodonpää-Manni, M. & Ojutkangas, K. (2020). Laadullinen aineistopohjainen kielentutkimus. Teoksessa M. Luodonpää-Manni, M. Hamunen, R. Konstenius, M. Miestamo, U. Nikanne ja K. Sinnemäki (toim.) Kielentutkimuksen menetelmiä I–IV, 412–441. Helsinki: Suomalaisen Kirjallisuuden Seura. https://doi.org/10.21435/skst.1457
Nummila, K.-M., & Ojutkangas, K. (2013). Pyytämättä ja yllätyksenä. Paratagmakonstruktiot 1500–1800‐luvun kirjasuomessa. Sananjalka 55, 73–99. https://doi.org/10.30673/sja.86722
Ojutkangas, K. (2017). Suomen mukana ja mukaan seuralaisuussuhteen ilmaisijoina: kiintopisteen ilmaisukeinot, konstruktiot ja osallistujien symmetriaero. Virittäjä 121(2), 176–212. https://doi.org/10.23982/vir.58707
Ojutkangas, K. (2023). Dynamic local cases in use. Expressing directional events in Finnish. Teoksessa M. Jaakola ja T. Onikki-Rantajääskö (toim.), The Finnish Case System: Cognitive Linguistic Perspectives, 299–324. Helsinki: Suomalaisen Kirjallisuuden Seura. https://doi.org/10.21435/sflin.23
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Dejan Porjazovski kertoo meille tutkimuksestaan, joka liittyy automaattiseen puhutun kielen ymmärtämiseen.
Olen Dejan Porjazovski. Tulin Suomeen vuonna 2018 opiskelemaan Aalto-yliopiston maisteriohjelmaan Machine Learning, Data Science, and Artificial Intelligence. Kiinnostukseni kieliteknologiaa kohtaan sai minut liittymään Aalto-yliopiston puheentunnistusryhmään, ensin kesäharjoittelijana ja sen jälkeen maisterintyötä tekemään ja tohtorikoulutettavaksi. Väittelin tohtoriksi toukokuussa 2025.
Valmistumiseni jälkeen siirryin koneoppimisinsinööriksi Aivot Labiin, jossa työskentelen puheesta-tekstiksi- ja tekstistä-puheeksi-järjestelmien sekä suurten kielimallien parissa rakentaakseni suomen kielellä keskustelevia tekoälyavustajia terveydenhuollon alalle.
Väitöskirjani käsitteli automaattista puhutun kielen ymmärtämistä. Keskityin tutkimuksessani kieliin, jotka ovat matalasti resursoituja eli niille on tarjolla kieliaineistoja ja kieliteknologista tukea vain vähänlaisesti. Puhutun kielen ymmärtäminen (eng. spoken language understanding, SLU) on kattotermi, joka kattaa erilaiset puhe- ja kieliteknologiat, joiden avulla tietokoneet voivat ymmärtää ihmisen puhetta.
Tarkastelin väitöstutkimuksessani erilaisia puheen upotuksen (eng. embedding) menetelmiä sekä sitä, miten datamäärä vaikuttaa menetelmien suorituskykyyn. Pyrin myös selvittämään, onko eri menetelmillä kieliriippumattomia ominaisuuksia, mikä on erittäin tärkeää varsinkin kielille, joille on tarjolla kieliteknologisia resursseja vain vähän.
Lisäksi vertasin kahta paradigmaa, joiden pohjalta voi rakentaa puhutun kielen ymmärtämisen järjestelmiä: modulaarista mallia ja end-to-end-mallia (E2E). E2E-mallit vaativat suuren määrän dataa tehtävän oppimiseen. Modulaariset järjestelmät ovat datatehokkaampia, mutta ne ovat myös monimutkaisempia. Nämä asiat selvisivät, kun vertailin E2E- ja modulaarisia järjestelmiä erilaisissa puhutun kielen ymmärtämisen tehtävissä, kuten nimettyjen entiteettien tunnistamisessa (eng. named entity recognition, NER) ja puheenaiheiden tunnistamisessa, keskittyen pääasiassa suomeen, mutta myös muihin kieliin.
Tutkimukseni viimeinen osa-alue liittyy E2E-mallien kykyyn tehdä yleistyksiä puhutun kielen ymmärtämiseen liittyvissä tehtävissä. Kun vuorovaikutukselliset handsfree-laitteet yleistyvät, on tärkeää, että niiden järjestelmät toimivat luotettavasti. Tämä korostuu etenkin tilanteissa, joissa järjestelmät kohtaavat dataa, jota ne eivät ole kohdanneet aiemmin koulutusvaiheensa aikana.
Käytin tutkimukseni aikana Aallon puheentunnistuskorpusta kehittääkseni modulaarisia ja E2E-menetelmillä rakennettuja NER-malleja puhutulle suomen kielelle.
Osallistuin myös Lahjoita puhetta (puhelahjat) -aineiston koostamiseen. Aineisto sisältää yli 3000 tuntia puhetta, johon on kerätty erilaisia metatietoja puhujista, kuten ikä, sukupuoli ja puheenaihe. Kehitin aineiston avulla spontaanisti puhutulle suomelle järjestelmän, jolla voi tunnistaa puheenaiheen sekä malleja, joilla voi poimia puheesta metatietoja. Tätä tutkimusta tein ollessani mukana LAREINA-hankkeessa.
Porjazovski, D., Grósz, T., & Kurimo, M. (2024). From raw speech to fixed representations: A comprehensive evaluation of speech embedding techniques. IEEE/ACM Transactions on Audio, Speech, and Language Processing. DOI: 10.1109/TASLP.2024.3426301
Porjazovski, D., Grósz, T., & Kurimo, M. (2023, September). Topic identification for spontaneous speech: Enriching audio features with embedded linguistic information. In 2023 31st European Signal Processing Conference (EUSIPCO) (pp. 396-400). IEEE. DOI: 10.23919/EUSIPCO58844.2023.10289822
Moisio, A., Porjazovski, D., Rouhe, A., Getman, Y., Virkkunen, A., AlGhezi, R., … & Kurimo, M. (2023). Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Language Resources and Evaluation, 57(3), 1295-1327. DOI: 10.1007/s10579-022-09606-3
Porjazovski, D., Leinonen, J., & Kurimo, M. (2021, August). Attention-based end-to-end named entity recognition from speech. In International Conference on Text, Speech, and Dialogue (pp. 469-480). Cham: Springer International Publishing. DOI: 10.1007/978-3-030-83527-9_40
Porjazovski, D., Leinonen, J., & Kurimo, M. (2020, October). Named entity recognition for spoken finnish. In Proceedings of the 2nd International Workshop on AI for Smart TV Content Production, Access and Delivery (pp. 25-29). DOI: 10.1145/3422839.3423066
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Inka Rantakallio kertoo meille suomalaisia räppääviä nais- ja muunsukupuolisia artisteja koskevasta tutkimuksestaan.
Olen Inka Rantakallio, FT, musiikintutkija ja tuntiopettaja Helsingin yliopiston musiikkitieteessä. Toimin heinäkuun 2025 loppuun tutkimusyhdistys Suoni ry:n hankkeessa ”Musiikintutkijat yhteiskunnassa”. Päätoimitan Nuorten Tiedeakatemian Mene ja tiedä -verkkolehteä ja olen yksi Musiikki-lehden kolmesta päätoimittajasta.
Toimin Suomen Akatemian tutkijatohtorina 2021–2024. Akatemiaprojektissani keskityin suomalaisiin räppääviin nais- ja muunsukupuolisiin artisteihin ja sukupuolen, feminismin, rodun ja valkoisuuden teemoihin. Olin kiinnostunut siitä, miten feminismi, sukupuoli ja rotu/etnisyys vaikuttavat artisti-identiteettiin ja taiteelliseen ilmaisuun sekä miten valkoisuuden normi vaikuttaa suomalaisessa rap-musiikissa. Kiinnostukseni kumpusi vahvasti omasta taustastani, sillä olen toiminut tutkijanuran ohella musiikkitoimittajana ja DJ:nä ja siten tutustunut ja esiintynyt yhdessä useiden nais- ja muunsukupuolisten räppäreiden kanssa.
Tutkimuksen aineisto koostui musiikista ja musiikkivideoista, osallistuvasta havainnoinnista konserteissa sekä artistihaastatteluista. Hankkeeni tuotti tietoa siitä, miten naiset ja ei-binäärit räppärit raivaavat tilaa varsin heteroseksistisessä ja miesvaltaisessa hiphop-genressä, sekä miten eri tavoin valkoiset ja ei-valkoiset artistit neuvottelevat rotuun ja sukupuoleen liittyvistä normeista suhteessa suomalaiseen ja kansainväliseen hiphop-kulttuuriin. Hankkeeni teki myös näkyväksi aiemmin hiphop-tutkimuksessa hyvin vähälle huomiolle jääneitä ei-miesartisteja sekä valkoisuusnormia. Reflektoin myös kriittisesti omaa positiotani ”sisäpiiriläisenä” hankkeesta julkaistuissa tutkimusartikkeleissani.
Akatemiaprojektini oli ensimmäinen suomalaisiin räppääviin naisiin ja muunsukupuolisiin keskittynyt hanke, joten halusin tallentaa siinä syntyneet haastatteluaineistot mahdollisia tulevia tutkimushankkeita varten. Kielipankki tarjoaa luotettavan pitkäaikaissäilytyksen haastattelulitteraatioille.
Rantakallio, Inka (2021). Femcees Finland, NiceRap ja vastatilojen voima: Suomiräpin naisten vertaisverkostojen historiaa. Etnomusikologian Vuosikirja 33: 67–93. DOI: https://doi.org/10.23985/evk.103019
Rantakallio, Inka (2023) Who Is Heard and Who Gets to Belong in Hip-Hop? The Counterspaces of Women and Gender Minority Rappers in Finland. Teoksessa P. Dale, P. Burnard, & R. Travis (toim.), Music for Inclusion and Healing in Schools and Beyond: Hip Hop, Techno, Grime, and More. Oxford: Oxford University Press, 356–382.
Rantakallio, Inka (2025). Researcher as Minority and Majority: Hip Hop Feminist Epistemologies. Teoksessa K. Ramstedt, S. Välimäki, K. Ahlsved, S. Mononen (toim.), Music, Research and Activism: Prospects and Projects in Northern Europe. Bristol: Intellect, 17–28.
Rantakallio, Inka & Andrea Dankić (2025). Ethnography and Researcher Positionality – Reflections on Feminist Fieldwork in Hip Hop Scenes in Sweden and Finland. IASPM@journal 15(1): 133–150. DOI: 10.5429/2079.387(2025)v15i1.9en
Rantakallio, Inka (2025). ‘Being a woman is the only thing considered questionable. But not the whiteness.’ Gender and race in normatively white hip hop scenes. Global Hip Hop Studies 6(1): 21–41. DOI: 10.1386/ghhs_00101_1
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Idastiina Valtasalmi kertoo meille tutkimuksestaan, jossa hän tarkastelee kielellistä affektia eli tunteiden ja asenteiden näkymistä kielessä. Tämä tutkimusaihe kumpusi hänen aiemmasta selkokieleen liittyvästä tutkimuksestaan.
Olen Idastiina Valtasalmi ja työskentelen suomen kielen postdoc-tutkijana Tampereen yliopistossa. Tällä hetkellä tutkin kielellistä affektia ja syrjimätöntä kieltä Koneen Säätiön rahoittamassa Tunteiden Tampere -hankkeessa. Aiemmin olen tehnyt suomen kielen alaan kuuluvan väitöskirjan, jossa tarkastelen selkokielen sanastoa teksti- ja käyttäjänäkökulmista. Selkokieli on yksinkertaistettu ja tilanteittain vaihteleva kielimuoto, jolla voidaan purkaa viestinnän saavutettavuuden esteitä.
Tutkin kielellistä affektia eli tunteiden ja asenteiden näkymistä kielessä. Tutkimukseni keskiössä on syrjimätön kieli, jolla eri ihmisryhmistä puhutaan inklusiivisesti, arvostavasti ja ihmisarvoa kunnioittavasti. Kääntöpuolena ovat syrjivät ilmaukset, sillä syrjimättömyyttä tarkastellaan suhteessa syrjivyyteen. Kieli myös muuttuu jatkuvasti, ja aiemmin neutraaleina pidetyt ilmaukset voivat ajan myötä muuttua sävyltään syrjiviksi. Syrjimätön suomen kieli on tärkeä tutkimusaihe, sillä aihetta on toistaiseksi tutkittu vain vähän ja käytännönläheisiin kirjoitusohjeisiin on otettu mallia englannin kielestä. Suomen ja englannin rakenteet ovat kuitenkin erilaisia, eivätkä englanninkieliset kirjoitusohjeet sovi sellaisinaan käytettäviksi suomessa.
Nykyiset tutkimusaiheeni liittyvät aiempiin siten, että jo väitöskirjassani tein havaintoja selkoteksteissä käytetyistä syrjimättömistä ilmauksista. Voidaankin sanoa, että nykyiset tutkimusaiheeni kumpusivat osittain väitöskirjan tutkimustuloksista.
Olen käyttänyt tutkimusmenetelminä korpustutkimusta, kyselyjä ja kielellisiä testejä. Kielipankin korpukset ovat olleet korpustutkimuksissa arvokkaita, sillä ne ovat laadukkaita ja helposti saatavilla. Korpuksista on ollut hyötyä myös esimerkiksi kyselyjen ja testien valmistelussa, kun olen valinnut niihin sanoja yleisyyden perusteella. Kielipankin korpuksista sydäntä lähellä ovat etenkin selkokielisiä ajankohtais- ja uutistekstejä sisältävät Leija, Selkosanomat/Selkouutiset ja Ylen suomenkielisen uutisarkiston selkouutiset, sillä näin laajat selkokieliset tekstikokoelmat ovat maailmanlaajuisestikin melko harvinaisia. Korpusten ansiosta selkosuomen tutkijoilla on siis erinomaiset mahdollisuudet tekstilähtöiseen tutkimukseen.
Valtasalmi, Idastiina – Siltaloppi, Satu – Wacklin, Vilma – Mustanoja, Liisa 2025: Kymmenen havaintoa syrjimättömästä kielestä. – Kaisa Jänis & Iiris Salminen (toim.), Kieli ja kirjallisuus muuttuvassa yhteiskunnassa s. 99–129. Äidinkielen opettajain liiton vuosikirja 2025. Äidinkielen opettajain liitto.
Valtasalmi, Idastiina 2024: Teksti- ja käyttäjänäkökulmia selkokielen sanastoon. Tampere: Tampereen yliopisto. https://urn.fi/URN:ISBN:978-952-03-3538-0.
Valtasalmi, Idastiina 2023: Essiivin funktiot ja käyttö perustason selkokielessä. Virittäjä, 127(1), s. 4–27. https://doi.org/10.23982/vir.111948.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Rea Peltola kertoo meille elollisuuden semantiikkaan liittyvästä tutkimuksestaan.
Olen Rea Peltola, Suomen kielen ja kulttuurin professori Caenin yliopistossa Normandiassa. Johdan siellä Pohjoismaiden tutkimuksen laitosta, ja teen tutkimusta CRISCO-tutkimusryhmässä. Olen myös Helsingin yliopiston suomen kielen dosentti.
Juureni ovat modaalisten merkitysrakenteiden, erityisesti niin sanotun postmodaalisuuden tutkimuksessa. Siinä tarkastellaan modaalisten merkitysten haipumista tai pikemminkin intersubjektiivista uudelleensuuntautumista. Luvan ja kyvyn ilmausten pohtiminen toi minut vähitellen elollisuuden semantiikan pariin. Minua alkoi kiinnostaa, miten kielioppi kuvaa elollisille olennoille tyypillisiä ominaisuuksia erityisesti kehollisuuden näkökulmasta. Olen tutkinut nyt jo yli kymmenen vuotta sitä, miten ihmiskieli käsittelee eläimenä olemista: Miten muista eläimistä ja niiden kehollisista kokemuksista puhutaan? Miten ihmiskieltä käytetään, kun toimitaan yhdessä toisen eläimen kanssa?
Tutkin Mika Simosen kanssa toimittamassamme lajienvälistä kielenkäyttöä käsittelevässä teemanumerossa eläinten sisäisen puheen referointia murreaineistossa. Kävin tuolloin kaikki Lauseopin arkiston itämurteiden alueen haastattelut läpi ja poimin kohdat, joissa puhujat sanallistivat toisenlajisten eläinten ajatuksia (esim. se kuuloo hirvi että tuolla se mennöö se vihamies, Suomussalmi). Näitä esiintyi erityisesti silloin, kun kerrottiin metsästyksen käytännöistä tai toisen eläimen (yleensä koiran tai hevosen) kanssa tehtävästä työstä. Yleensä näissä kohdin kuvattiin eläimen aistihavaintoon perustuvaa päättelyä.
Sittemmin olemme analysoineet Kielipankin aineistoja Outi Duvallonin kanssa, kun tutkimme sai kuin saikin -tyyppisen toistorakenteen modaalista merkitystä ja käyttöä eri-ikäisissä tekstikorpuksissa, erityisesti varhaisnykysuomen aineistoissa sekä toisaalta nykysuomessa Ylen uutisarkistossa ja Suomi24-keskusteluissa. Huomasimme esimerkiksi, että jo vanhemmissa aineistoissa esiintyvä, kenties vielä kiteytymässä olevan rakenteen episteeminen käyttö (esim. tässä minä sinun nuorin poikasi olen, kuin olenki, Salmelainen 1863) on saanut uutta pontta verkkokeskustelujen ketjumaisissa rakenteissa. Toistorakenteella voidaan vahvistaa toisen osallistujan aiemmassa viestissä esittämä kanta (esim. laulajalla on kuin onkin loistava ääni, Suomi24).
Viime aikoina olen tutkinut Arnaud Godet’n kanssa sellaisia modaalisia verbejä, jotka ilmaisevat melko spesifiä olosuhteisiin liittyvää pystymistä, esim. tarjeta, jaksaa, malttaa ja raaskia. Olemme kartoittaneet niiden kielioppia ja käyttöjä kirjallisuuden klassikoissa, 1990- ja 2000-luvun lehtiteksteissä sekä Muoto-opin ja Lauseopin arkistojen murrekorpuksissa. Pienen määrän aineistoa saimme myös Arkisyn-keskusteluista. Vertailemme valikoituja verbejä täydennysrakenteiden, persoonaviittausten ja kieltohakuisuuden kannalta, ja pyrimme valaisemaan niiden jaettua voimadynaamista perustaa. Toisaalta tavoitteena on ymmärtää näiden verbien keskinäisiä suhteita ja työnjakoa.
Duvallon, Outi & Peltola, Rea. 2025. La construction réduplicative finnoise V1 kuin V1=kin : une ressource modale et discursive. Études finno-ougriennes. Painossa.
Peltola, Rea. 2023. Verbalizing animal inner speech. Journal of Pragmatics 217, 109–122. DOI: 10.1016/j.pragma.2023.09.005.
Peltola, Rea. 2021. Unfolding constructions: Postmodal auxiliaries in mirative complement patterns. Teoksessa Hilpert, Martin & Cappelle, Bert & Depraetere, Ilse (toim.), Modality and Diachronic Construction Grammar, 149–184. Amsterdam: John Benjamins. DOI: 10.1075/cal.32.06pel.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jörg Tiedemann kertoo meille kieliresurssien parissa tekemästään kehittämistyöstä sekä OPUSista, joka on suurin avoimesti saatavilla oleva monikielinen rinnakkaisaineisto konekääntämistä varten.
Olen Jörg Tiedemann, Helsingin yliopiston kieliteknologian tutkimusryhmän johtaja. Ryhmämme on osa digitaalisten ihmistieteiden osastoa, jossa opiskelijoilla on mahdollista valita opintosuunnakseen Kielten kandiohjelma sekä Kielellisen diversiteetin ja digitaalisten ihmistieteiden maisterohjelma. Oma taustani on tietojenkäsittelytieteessä, josta tein perustutkinnon Saksassa sekä laskennallisessa kielitieteessä, josta valmistuin tohtoriksi Uppsalassa, Ruotsissa. Minut nimitettiin Helsingin yliopiston kieliteknologian professoriksi vuonna 2015 ja siitä lähtien minulla on ollut ilo olla mukana monitieteisessä ryhmässämme.
Tärkeimmät tutkimusintressini liittyvät monikieliseen luonnollisen kielen käsittelyyn (Natural Language Processing, NLP) ja sen eri näkökulmiin. Suuri osa työstäni on ollut erityisesti konekääntämisen sovelluksiin suuntautunutta tutkimusta. Kieliresurssien kehittäminen on ollut iso osa elämääni ja jo väitöstutkimusta tehdessäni käytin paljon aikaa suurten, monikielisten rinnakkaisaineistojen koostamiseen ja ryhmittelyyn. Olen ylläpitänyt yli kahden vuosikymmenen ajan OPUSia, maailman laajinta avoimesti saatavilla olevaa konekääntämisen rinnakkaisaineistoa, jolla on laaja kielikattavuus. Tämä kokoelma on ollut merkittävä lähde käännösteknologian kehittämistyölle maailmanlaajuisesti, ja sen kielikattavuus on ainutlaatuinen ja korvaamaton inklusiivisen NLP:n tutkimukselle.
Viime vuosina olemme panostaneet OPUS-ekosysteemin laajentamiseen, jotta se kattaisi kaikki konekääntämisen kehityksen osa-alueet datasta työkaluihin ja niiden käyttöönottoon. Esikoulutettuja käännösmalleja on saatavilla OPUS-MT:n kautta, ja olemme julkaisseet ohjelmistopaketteja datan muunteluun, kouluttamiseen ja tislaukseen sekä käännösmallien käyttöönottoon ja niiden arviointiin. Web-käyttöliittymät, sovellukset, ammattimaiset käännöstyökalukokoelmat, kuten OPUS-CAT, ja ohjauspaneelit tukevat tutkimusta, kehitystyötä ja käyttöä. Luomamme resurssit ovat kategoriansa suosituimpia Hugging Face -alustalla.
Toinen tutkimussuuntamme liittyy monikielisen ja kieltenvälisen NLP:n perustutkimukseen. ERC-hanke FoTran keskittyi selvittämään edustusoppimista laajalla monikielisellä aineistolla ja selvitimme suurten neurokäännösmallien siirto-oppimisvalmiuksia, modulaarisuutta ja tulkittavuutta. Toisessa tutkimushankkeessa tarkastelimme myös epävarmuuden mallintamista ja tällä hetkellä keskitymme muun muassa NLP:n tehokkuuteen kieliteknologian yhä kasvavan hiilijalanjäljen pienentämiseksi (ks. GreenNLP-hanke).
Lisäksi tutkimusryhmämme tekee työtä myös suurten kielimallien kehittämisen parissa osana eurooppalaisia HPLT- ja OpenEuroLLM-hankkeita. Työpanoksemme näihin hankkeisiin liittyy pääosin monikielisyyteen ja arviointiin, jotka ovat erittäin tärkeitä ja haastavia tutkimusaiheita tällä alalla. Tavoitteenamme on tukea paremmin aliedustettuja kieliä, parantaa monikielistä arviointia sekä vähentää generatiivisen tekoälyn ”hallusinaatioiden” vaikutuksia.
Suurin osa tutkimuksestamme on dataintensiivistä ja vahvasti riippuvaista datan keräämisestä, empiirisestä arvioinnista ja laskennallisesti raskaiden koneoppimismallien iteratiivisesta koulutuksesta. Kieliresurssit ovat välttämättömiä tässä prosessissa ja tutkimusryhmämme on Kielipankille sekä datan tarjoaja että käyttäjä. Vaikka suurin osa työstämme keskittyy koneoppimiseen ja mallien kehittämiseen, olemme kiinnostuneita myös siitä, että saamme resursseja jaettua ihmistieteiden tutkijoiden käyttöön. Monet koostamistamme aineistoista ovat sellaisenaan hyödyllisiä kieltentutkimuksessa tai esimerkiksi käännöstieteellisessä tutkimuksessa. Vastaavasti kieliresurssit ovat välttämättömiä neuroverkkopohjaisten kielimallien kouluttamiseen, hienosäätämiseen ja arvioimiseen. Tällaisista kielimalleista on muovautumassa tärkeitä työkaluja myös ihmistieteiden tutkimukselle, ja niiden vaikutus kasvaa tasaisesti myös kielitieteen, yhteiskuntatieteiden ja perinteisten humanististen tieteiden aloilla.
Tiedemann, J., Aulamo, M., Bakshandaeva, D. et al. 2024. Democratizing neural machine translation with OPUS-MT. In Lang Resources & Evaluation 58, 713–755 (2024). https://doi.org/10.1007/s10579-023-09704-w
Mikko Aulamo, Nikolay Bogoychev, Shaoxiong Ji, Graeme Nail, Gema Ramírez-Sánchez, Jörg Tiedemann, Jelmer van der Linde, and Jaume Zaragoza. 2023. HPLT: High Performance Language Technologies. In Proceedings of the 24th Annual Conference of the European Association for Machine Translation, pages 517–518, Tampere, Finland. European Association for Machine Translation. https://aclanthology.org/2023.eamt-1.61/
Jörg Tiedemann and Ona de Gibert. 2023. The OPUS-MT Dashboard – A Toolkit for a Systematic Evaluation of Open Machine Translation Models. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations), pages 315–327, Toronto, Canada. Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/2023.acl-demo.30
Tiedemann, J 2022, From open parallel corpora to public translation tools: The success story of OPUS. In E Volodina, D Dannélls, A Berdicevskis, M Forsberg & S Virk (eds.), LIVE and LEARN : Festschrift in honor of Lars Borin. Research Reports from the Department of Swedish, Multilingualism, Language Technology, Nro GU-ISS-2022-03, University of Göteborg, Göteborg, Sivut 133-138. http://hdl.handle.net/10138/351496
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Foto: Therese Lindström Tiedemann
Språkbanken i Finland (Kielipankki) är en tjänst för forskare som använder språkresurser. Daniela Piipponen berättar om sin forskning om språkhistoria och introducerar Digisvenska projektet.
Jag är Daniela Piipponen, doktorand i nordiska språk vid Helsingfors universitet.
Mycket av min egen forskning handlar om språkhistoria och den finländska svenskan under 1800-talet och tidigt 1900-tal, med fokus på frågor som angår standardiseringen av skriftspråket. I min avhandling undersöker jag ortografisk och morfologisk variation i Zacharias Topelius läsebok Boken om vårt land i förhållande till de samtida språknormerna.
Vid sidan av min avhandling har jag även forskat i (modern) inlärarsvenska, och jag har bl.a. deltagit i projektet Digisvenska (finansierat av Svenska kulturfonden 2022–2024), ett samarbete mellan pedagogiska och humanistiska fakulteten vid Helsingfors universitet (projektledare Raili Hildén; humanistiska fakultetens del leddes av Therese Lindström Tiedemann). Projektets övergripande syfte var att studera rättviseaspekter i studentexamensprovet i B-svenska (se även projektets blogg).
I min språkhistoriska forskning, inklusive delar av min avhandling, har jag ofta vänt mig till Språkbankens korpussamling Nationalbibliotekets tidningar och tidskrifter för att undersöka språket i de svenskspråkiga finländska tidningarna på 1800-talet. Tidningsspråket är en relativt standardenlig typ av text som kan undersökas över ett längre tidsperspektiv; dessutom finns det möjligheter till jämförelser med motsvarande sverigesvenska tidningskorpusar som upprätthålls av Språkbanken Text i Göteborg.
Inom Digisvenska-projektet har vi dessutom arbetat med att ta fram två korpusar i inlärarsvenska, Digisvenska-korpusen och Digisvenska Norm. Båda korpusarna kommer att bli tillgänglig också för andra forskare genom Språkbanken (användning kräver dock tillstånd av Studentexamensnämnden, SEN). Korpusarna är baserad på fria skrivprestationer från det digitala studentexamensprovet i B-svenska under åtta provomgångar mellan våren 2018 och hösten 2021. I Digisvenska-korpusen ingår samtliga skriftliga prestationer från provomgångarna, och innehåller totalt över 10 miljoner token. Digisvenska Norm är en mindre delkorpus bestående av totalt 96 texter från två provtillfällen, där texterna har normaliserats manuellt enligt standardspråkets normer. Den normaliserade korpusen har realiserats som en parallellkorpus, vilket gör det möjligt att jämföra den normaliserade texten med originalet.
Inom projektet har vi använt korpusarna för att den undersöka språklig bredden och exaktheten i texterna samt hur dessa relaterar till bedömningen. Till exempel har jag tillsammans med Therese Lindström Tiedemann analyserat verbböjningen i materialet för att se vilka tempusformer som används på olika färdighetsnivåer, samt om formerna använts normenligt. Jag har också tittat på ortografin och var den orsakar problem. I detta fall har jag även kunnat använda korpusen Studentsvenska 79/80 för att jämföra resultaten med äldre studentexamensprov i svenska. Slutligen hoppas vi även kunna fortsätta utveckla och använda materialet i framtiden. Vi utreder möjligheten till finansiering för vidare forskning, och har även arbetat för att införa korrektionsannotering på det normaliserade materialet för bättre analysverktyg.
Piipponen, Daniela. 2025. ”Låt din penna vara sig sjelf trogen” Variation och norm i Zacharias Topelius läsebok Boken om vårt land, med fokus på ortografi och morfologi. Helsingfors universitet. Doktorsavhandling. http://urn.fi/URN:ISBN:978-952-84-1317-2
Piipponen, Daniela, Lindström Tiedemann, Therese & Axelson, Erik. 2024. Digisvenska-korpusen: en inlärarkorpus baserad på studentprovet i B-svenska. I: Kolu m.fl (red.): Svenskan i Finland 20, s. 140–154. http://urn.fi/URN:ISBN:978-952-61-5327-8
Piipponen, Daniela. 2023. Herrarne och damerna. Variationen i den plurala definita substantivböjningen i Sverige och i Finland på 1800-talet. I: Språk och stil NF 33. S. 71–106. https://doi.org/10.61965/sos.33.2023.18946
Språkbanken i Finland samordnas av det nationella FIN-CLARIN-konsortiet som består av finländska universitet med CSC – IT Center for Science och Institutet för de inhemska språken (Kotus). FIN-CLARIN hjälper forskare i Finland att använda, förbättra, bevara och dela med sig av sina språkresurser. Språkbanken i Finland är en samling tjänster som tillhandahåller språkmaterial och verktyg för forskarsamfundet.
Alla tidigare publicerade intervjuer med forskare från Språkbanken lagras i Månadens forskare arkivet. Den här artikeln publiceras också på webbplatsen för den humanistiska fakulteten vid Helsingfors universitet.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Pekka Posio kertoo meille johtamastaan tutkimushankkeesta, jossa tutkitaan sukupuolen ja kielen välistä yhteyttä espanjankielisessä maailmassa. Hankkeen aikana koostettu laaja CoLaGe-aineisto tulee saataville Kielipankin kautta.
Olen Pekka Posio, iberoromaanisten kielten professori Helsingin yliopiston humanistisessa tiedekunnassa. Työskentelen erityisesti espanjan ja portugalin parissa ja tutkin sosiolingvistiikkaa, pragmatiikkaa ja kielen muutosta ja vaihtelua. Tällä hetkellä toimin portugalin, galegon ja baskin kielten tieteenalavastaavana.
Opiskelin Helsingin yliopistossa romaanisia kieliä ja yleistä kielitiedettä, josta väittelin tohtoriksi 2012. Väitöskirjassani käsittelin subjektipronominien ilmaisemista espanjassa ja portugalissa. Post doc -vaiheessa työskentelin Salamancassa, Berliinissä, Kölnissä ja Gentissä ja tutkin espanjan ja portugalin impersonaalirakenteita. Lisäksi työskentelin kolme vuotta Tukholman yliopistossa espanjan yliopistonlehtorina ennen kuin palasin Helsinkiin 2019 apulaisprofessoriksi. Vuonna 2024 minut vakinaistettiin professoriksi.
Tällä hetkellä tutkimukseni keskiössä on kieli ja sukupuoli espanjankielisessä maailmassa ja johdan Koneen säätiön rahoittamaa tutkimushanketta Gender, Society, and Language Use: Evidence from Mexico and Spain (2021–2025). Kieli ja sukupuoli on yksi vakiintuneista tutkimusaloista englanninkielisessä ja englantia käsittelevässä kielitieteessä, mutta espanjan tutkimuksessa aihe on jäänyt vähemmälle huomiolle.
Hankkeessa meitä kiinnostaa erityisesti se, minkälaiset mekanismit linkittävät yhteiskunnan ja sukupuolen kielenkäyttöön, ja onko sukupuolen ja kielen yhteys erilainen eri yhteiskunnissa, joissa käytetään samaa kieltä. Näitä kysymyksiä lähestytään hankkeessa sekä sosiolingvistiikan että sosiaalipsykologian keinoin. Olemme keränneet hankkeen puitteissa laajan aineiston, jossa on sekä puhuttua ja litteroitua kieltä että sosiaalipsykologista tietoa informanteistamme. Näitä aineistoja yhdistelemällä pystymme tutkimaan kielen ja sukupuolen yhteyksiä täysin uudella tavalla ja samalla uudistamaan sukupuolen käsitettä sosiolingvistisenä muuttujana. Perinteisen naisten ja miesten puheen vertailun lisäksi käytämme asteikollisia muuttujia kuten puhujien käsityksiä omasta maskuliinisuudestaan ja feminiinisyydestään sekä sukupuoleen liittyviä asenteita ja käsityksiä.
Tutkimme eri kielenkäytön ilmiöitä – esimerkiksi eri persoonamuotojen ja erilaisten vuorovaikutuskeinojen käytön yleisyyttä puheessa – kahdessa yhteiskunnassa, joissa puhutaan samaa kieltä, mutta jotka eroavat toisistaan sukupuoliroolien ja -normien osalta. Keräsimme tutkimusaineiston Meksikon Guadalajarassa ja Espanjan Valenciassa vuosina 2022–2023. Hankkeessa tuottamamme tutkimustieto auttaa laajentamaan ja monipuolistamaan käsitystä sukupuolesta ja sen ilmenemismuodoista erityisesti tutkimissamme yhteiskunnissa.
Hankkeen post doc -tutkijat ovat Gloria Uclés Ramada, Sven Kachel, Andrea Carcelén Guerrero ja Fien de Latte. Lisäksi hanke on työllistänyt lukuisia opiskelijoita aineiston kerääjinä, litteroijina ja koodaajina Suomessa, Espanjassa, Meksikossa ja Saksassa.
Olemme tuottaneet tutkimushankkeessa korpuksen nimeltä Corpus for the Study of Language and Gender in Mexico and Spain (CoLaGe), joka sisältää 111 tuntia ja yli miljoona sanaa äänitettyä ja litteroitua puhetta 127 informantilta. Aineisto jakautuu Valencian (CoLaGe-V) ja Guadalajaran (CoLaGe-G) alakorpukseen sekä Guadalajarassa kerättyyn pienempään CoLaGe-D(iversity) -aineistoon, jonka informantit edustavat sukupuoli- ja/tai seksuaalivähemmistöjä. Olemme pyrkineet aineiston keräämisessä mahdollisimman vertailukelpoisiin aineistoihin, joissa on puhujia kahdesta ikäryhmästä (30–40 ja 60–70) ja kahdesta maasta. Aineisto käsittää sosiolingvistisiä haastatteluita, konfliktitilanteita simuloivia roolipelejä ja foneettista tutkimusta varten elisitoitua aineistoa, jossa informantit kertovat näkemistään kuvista.
Aineiston keräämisessä johtoajatuksena on vertailtavuuden lisäksi ollut myös se, että koko laajan aineiston pitää olla myös muiden tutkijoiden käytettävissä, minkä vuoksi esimerkiksi pseudonymisointiin on kiinnitetty paljon huomiota. Suurin osa aineistosta on myös äänitetty studiolaitteistolla, joka mahdollistaa sen käytön myös foneettiseen analyysiin. Kielipankki on ollut alusta lähtien luonteva sijoituspaikka CoLaGe-korpukselle. Hankkeen sosiaalipsykologinen aineisto on myös tulossa tutkijoiden käyttöön Tietoarkistoon.
Carcelen Guerrero, A., Posio, P., Kachel, S. & Uclés Ramada, G. (Accepted 2025). CoLaGe: Corpus for the study of language and gender in two varieties of Spanish. Corpora. https://researchportal.helsinki.fi/files/328418218/CoLaGe-accepted.pdf
Uclés Ramada, G., Kachel, S. & Posio, P., 2025. Conflict, gender, and amount of talk: Gender differences in Spanish role play data. Pragmatics and Society. DOI: 10.1075/ps.23144.ucl
Posio, P., Kachel, S., & Uclés Ramada, G. 2024. Morphosyntactic stereotypes of speakers with different genders and sexual orientations: an experimental investigation. Linguistics. DOI: 10.1515/ling-2022-0143
Pekka Posion muut julkaisut: https://researchportal.helsinki.fi/en/persons/pekka-posio
Corpus for the Study of Language and Gender in Mexico and Spain (CoLaGe)
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Simo Määttä kertoo meille kääntämiseen, tulkkaukseen ja kriittiseen sosiolingvistiikkaan liittyvästä tutkimuksestaan.
Olen Simo Määttä, käännöstieteen apulaisprofessori Helsingin yliopiston humanistisessa tiedekunnassa. Olen käännöstieteen tutkimusyhteisön TRASTin johtaja, käännöstieteen tieteenalavastaava ja ranskan kielen dosentti. Opetan Helsingin yliopistossa kääntämisen ja tulkkauksen maisteriohjelmassa. Olen oikeustulkkirekisterilautakunnan puheenjohtaja.
Väittelin Kalifornian yliopistossa Berkeleyssä vuonna 2004 ja olen sen jälkeen työskennellyt useissa yliopistoissa Suomessa, vuodesta 2014 alkaen Helsingin yliopistossa.
Tutkimukseni taustalla on kääntämisen sosiologia, kriittinen sosiolingvistiikka ja kriittinen diskurssintutkimus. Minua kiinnostaa se, kuinka kielenkäyttöä ja muuta vuorovaikutusta representoidaan ja millaisia merkityksiä annetaan kielelliselle vuorovaikutukselle – erityisesti monikieliselle viestinnälle ja kielelliselle variaatiolle.
Yksi tärkeä tutkimusaiheeni on asioimis- ja oikeustulkkaus. Tarkastelen asioimis- ja oikeustulkkauksessa kieli-ideologioita, tulkkauksen tarkkuutta, multimodaalisuutta, tulkkaustilanteen osanottajien toimijuutta, empatian ilmaisemista ja kielellisten oikeuksien toteutumista. Erityisesti olen tutkinut lingua franca -tulkkausta, jossa sekä tulkki että vieraskielinen asiakas kommunikoivat kielellä, joka ei ole heidän vahvin kielensä. Ilmiö on tavallinen esimerkiksi silloin, kun turvapaikanhakija, maahanmuuttaja tai rikoksesta epäilty tai rikoksen uhriksi joutunut ulkomaalainen kommunikoi tulkin kanssa ranskaksi tai englanniksi.
Johdan Koneen Säätiön rahoittamaa hanketta Kääntäminen, maahanmuutto ja demokratia (2022‒2025), jossa analysoimme tutkimusryhmän kanssa käännöspolitiikkaa ja kääntämiskäytänteitä maahanmuuttajaväestölle suunnatussa monikielisessä viestinnässä. Tutkimus kohdistuu pääkaupunkiseudulla (Helsinki, Espoo ja Vantaa) ja Tallinnassa toimiviin organisaatioihin (mm. kunnat, järjestöt, yritykset, korkeakoulut, media). Projektissa yhdistetään funktionalistisen ja sosiologisen käännöstutkimuksen sekä kriittisen kielentutkimuksen teorioita ja menetelmiä.
Hankkeen taustalla on ajatus, että monikielisyys on demokratialle paitsi mahdollisuus, myös haaste: kielimuuri estää maahanmuuttajia osallistumasta yhteiskunnalliseen, kulttuuriseen ja poliittiseen elämään ja toimimasta paikallisyhteisön ja yhteiskunnan täysvertaisina jäseninä. Kääntämisen avulla pyritään edistämään maahanmuuttajien tiedonsaantia ja osallisuutta, mutta tieto ei tavoita kaikkia maahanmuuttajia. Kääntämistä lähestytään projektissa yhtenä hallinnan käytänteenä, jonka avulla käytetään ja tuotetaan valtaa. Yhtenä tavoitteena on ehdottaa uusia ratkaisuja yhdessä eri toimijoiden kanssa käännöspolitiikan ja kääntämiskäytänteiden laadun parantamiseksi.
Olen myös mukana EU:n Horizon-ohjelman rahoittamassa projektissa ARENAS (Analysis of and Responses to Extremist Narratives), jota koordinoi professori Julien Longhi (Cergy Paris Université). ARENAS-projektissa kansainvälinen, monitieteellinen konsortiomme analysoi Euroopan poliittiseen ja yhteiskunnalliseen elämään vaikuttavia ja niitä uhkaavia ekstremistisiä eli äärinarratiiveja. Tutkimme äärinarratiivien luonnetta ja pyrimme ymmärtämään erityisesti tiedettä, sukupuolta ja kansakuntaa koskevia ekstremistisiä narratiiveja. Tavoitteena on narratiivien toimintaa ymmärtämällä löytää keinoja äärinarratiivien vastustamiseen ja siten edistää Euroopan sopusointuista kehitystä.
Olen ARENAS-projektissa mukana ekstremististen narratiivien leviämistä (engl. circulation of extremist narratives) tutkivassa osaprojektissa (work package), jota koordinoi historioitsija Steven Forti Barcelonan autonomisesta yliopistosta. ARENAS-projektin Helsingin tiimiä johtaa Jean Monet -professori, poliittisen historian dosentti Katalin Miklóssy. Minun vastuullani on ”tehtävä” (task), jossa tehdään kvalitatiivista tutkimusta siitä, kuinka ekstremistiset narratiivit leviävät poliittisen diskurssin, perinteisen median ja uusien medioiden välillä. Tutkimuksen kvalitatiivisesti tarkasteltava aineisto valikoituu osaprojektin aiemmissa vaiheissa tuotetun ja analysoidun kvantitatiivisen aineiston perusteella.
Tutkin myös diskurssin, ideologian (erityisesti kieli-ideologian) ja performatiivisuuden teoriaa sekä vihapuhetta. Aiemmassa tutkimuksessani olen käsitellyt muun muassa sosiolingvistisen variaation kääntämistä kirjallisuudessa sekä alueellisia ja vähemmistökieliä koskevaa kielipolitiikkaa.
ARENAS-projektin osassa, joka on minun vastuullani, olemme hyödyntäneet Kielipankissa saatavilla olevia Suomen eduskunnassa pidettyjen puheiden aineistoa, erityisesti täysistuntojen osalta. Näiden aineistojen avulla olemme voineet tarkasti selvittää, kuinka perinteisessä ja uusissa medioissa keskustelunaiheeksi nousevat teemat vastaavat eduskunnassa käytävää poliittista keskustelua. Lisäksi tutkimuksessa on hyödynnetty ParlaMint-korpuksia ja projektia varten koottuja korpuksia, jotka koostuvat poliitikkojen sosiaalisen median viestinnästä eri maissa.
Kielipankin Suomi24-korpusta käytimme Yrjö Laurannon kanssa tehdyssä tutkimuksessa, jossa tarkastelimme sitä, kuinka nettikeskustelijat esittävät eriäviä ja myötämielisiä mielipiteitä sukupuoli- ja seksuaalivähemmistöistä. Lisäksi hyödynsimme Suomi24-aineistoja Ulla Tuomarlan ja Karita Suomalaisen kanssa kirjoitetuissa suomenkielisessä ja englanninkielisessä artikkeleissa, joissa analysoitiin maahanmuuttoon liittyviä keskusteluja.
Määttä, S. & Kinnunen, T. 2024. The Interplay between Linguistic and Non-verbal Communication in an Interpreter-mediated Main Hearing of a Victim’s Testimony. Multilingua: Journal of Cross-Cultural and Interlanguage Communication 43(3), 299–330. DOI: 10.1515/multi-2023-0153
Määttä, S., Kinnunen, T., Kuusi, P. & Probirskaja, S. 2024. Kohderyhmätietous monikielisen kriisiviestinnän asiantuntijatyössä koronapandemian aikana. Työelämän tutkimus 22(4), 555–587. https://journal.fi/tyoelamantutkimus/article/view/142675
Määttä, S. 2023. Linguistic and Discursive Properties of Hate Speech and Speech Facilitating the Expression of Hatred: Evidence from Finnish and French Online Discussion Boards. Internet Pragmatics 6(2), 156–172. DOI: 10.1075/ip.00094.maa
Määttä, S. & Wiklund, M. 2023. Resolving Comprehension Problems in a Telephone-interpreted Screening Interview. Teoksessa: E. de Boe, J. Vranjes & H. Salaets (toim.) Interactional Dynamics in Remote Interpreting: Micro-analytical Approaches. New York: Routledge, 42–65. https://www.routledge.com/Interactional-Dynamics-in-Remote-Interpreting-Micro-analytical-Approaches/Boe-Vranjes-Salaets/p/book/9781032213286
Määttä, S. & Hall, M. 2022. Ideology and Discourse: Convergent and Divergent Developments. Teoksessa: S. Määttä & M. Hall (toim.) Mapping Ideology in Discourse Studies. Boston & Berlin: De Gruyter Mouton, 1–20. DOI: 10.1515/9781501513602-001
Määttä, S. & Lauranto, Y. 2022. Eriävän ja myötämielisen mielipiteen esittäminen sukupuoli- ja seksuaalivähemmistöjä koskevissa Suomi24-keskusteluissa. Virittäjä 126(2), 205–230. https://journal.fi/virittaja/article/view/100240
Määttä, S., Puumala, E. & Ylikomi, R. 2021. Linguistic, Psychological, and Epistemic Vulnerability in Asylum Procedures: An Interdisciplinary Approach. Discourse Studies 23(1), 46–66. DOI: 10.1177/1461445620942909
Määttä, S., Suomalainen, K. & Tuomarla, U. 2021. Everyday Discourse as a Space of Citizenship: The Linguistic Construction of In-groups and Out-groups in Online Discussion Boards. Citizenship Studies 25(6), 773–790. DOI: 10.1080/13621025.2021.1968715
Vernet, S. & Määttä, S. 2021. Modalités syntaxiques et argumentatives du discours homophobe en ligne : chroniques de la haine ordinaire. Mots – Les langages du politique 125, 35–51. https://journals.openedition.org/mots/27943
Määttä, S., Suomalainen, K. & Tuomarla, U. 2020. Maahanmuuttovastaisen ideologian ja ryhmäidentiteetin rakentuminen Suomi24-keskustelussa. Virittäjä 124(2), 190–216. https://journal.fi/virittaja/article/view/81931
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Marko Jouste kertoo meille saamelaiseen kulttuuriin liittyvästä tutkimuksestaan ja työstään Giellagas-instituutin puhuttujen saamen kielten korpuksen parissa.
Olen Marko Jouste, yliopistonlehtori ja saamelaisen kulttuurin dosentti Oulun yliopiston Giellagas-instituutista, jossa olen työskennellyt 2010-luvun alusta saakka. Tutkimukseni liittyy saamelaiseen kulttuuriin, musiikkiin ja historiaan. Lisäksi toimin Giellagas-instituutin Saamelaisen kulttuuriarkiston kehittäjänä. Akateemisen työn ohella teen töitä muusikkona muun muassa musiikkiyhtyeissä Ulla Pirttijärvi & Ulda ja Suõmmkar.
Pääasiallinen tutkimuskohteeni on saamelainen musiikki, kulttuuri ja historia. Kiinnostukseni liittyy erityisesti historiallisiin ääniteaineistoihin. Tällä hetkellä johtamiani aktiivisia tutkimusprojekteja ovat Pohjoissaamelainen satukirja 1956 – Historiallisen arkistoaineiston palauttaminen yhteisölle ja avoimen käytön eettisten ja oikeudellisten käytäntöjen kehittäminen (Koneen säätiö), Skolt Saami Dance: The Transformative Journey of Tradition, Resilience, and the Arctic Quadrille yhdessä tanssitutkija Petri Hopun kanssa (Jenny ja Antti Wihurin säätiö) sekä Jaakko Sverloffin elämänkaari – Petsamon Suonikylästä maailmansotien kautta kolttasaamelaisten johtajaksi (Jenny ja Antti Wihurin säätiö).
Saamelaisiin kieliaineistoihin liittyi myös vuosina 2016–2018 toiminnassa ollut Suomen Akatemian kärkihanke Kolttasaamelainen muistipankki – Pilottihanke arkistoissa olevien kolttasaamelaisten musiikki-, kieli- ja kulttuuriaineistojen hallinnasta ja kulttuurirevitalisaatiosta. Näillä hankkeilla pyrin tukemaan yhteisön osallisuutta, edistämään eettisiä käytäntöjä arkistotyössä, ja edistämään saamelaisen kulttuuriperinnön elvyttämistä ja säilyttämistä.
Kielipankki liittyy työhöni pääasiallisesti arkistotyön kautta. Saamelaisella kulttuuriarkistolla on ollut jo 2010-luvulta saakka yhteistyötä Kielipankin kanssa saamen kieliaineistoihin liittyen ja niiden hyödyntämiseen sekä tieteellisessä tutkimuksessa että kieliyhteisöissä. Giellagas-instituutin puhuttujen saamen kielten korpus sisältää tällä hetkellä erityisesti kolmea Suomessa puhuttavaa saamea, pohjois-, inarin ja koltansaamea. Ensimmäinen Kielipankkiin liitetty osakorpus oli Pohjoissaamen näytekorpus ja keväällä 2025 tätä täydennetään inarinsaamen puhutun kielen korpuksella.
FIN-CLARIN-konsortio on myös rahoittanut Saamelaisessa kulttuuriarkistossa tehtävää korpustyötä vuosina 2014, 2019 ja 2022. Tämä yhteistyö parantaa merkittävästi saamenkielisen aineiston saatavuutta, säilyttämistä ja käytettävyyttä. Luonnollisesti käytän myös Korp-palvelua erityisesti liittyen omaan tutkimukseeni.
Petri Hoppu & Marko Jouste (2025). Skolt Saami Dance: The Transformative Journey of Tradition, Resilience, and the Arctic Quadrille. London: Bloomsbury. [Painossa]
Jouste, Marko (2022) ”Skolt Saami Leuʹdd. Tradition as a medium of individual and collective remembrance”. The Sámi World. Edited by Sanna Valkonen, Áile Aikio, Saara Alakorva and Sigga-Marja Magga. London: Routledge, pp. 53–71.
Jouste, Marko & Mettovaara, Jukka & Morottaja, Petter & Partanen, Niko (2022). Archive Infrastructure and Spoken Language Corpora for Saami Languages in Finland. The 6th Digital Humanities in the Nordic and Baltic Countries 2022 Conference (DHNB 2022), Uppsala, Sweden, March 15-18, 2022. CEUR Workshop Proceedings. Aachen: RWTH Aachen University, pp. 269–278. https://ceur-ws.org/Vol-3232/paper25.pdf
Jouste, Marko & Lehtola, Veli-Pekka & Juutinen, Markus & Tanhua, Sonja (2022). ”Jääkk Sverloff johtajana ja kulttuuritulkkina – Kolttasaamelaisten historian käänteitä 1900-luvulla”. [Jääkk Sverloff as a Leader and a Cultural Interpreter – Turning points of Skolt Saami history in 20th century]. Suomen rajaseutujen kolonialismi. [Colonialism of Finnish Borderlands]. Toim. Rinna Kullaa, Janne Lahti ja Sami Lakomäki. Helsinki: Gaudeamus.
Jouste, Marko (2020). ”Suonikylän kolttasaamelainen itkuperinne 1900-luvulla”. [The Skolt Saami Lament Tradition of Suonikylä in the 20th Century]. Etnomusikologian vuosikirja Vol 32. Toim. Janne Mäkelä, Kaj Ahlsved, Viliina Silvonen. Helsinki: Suomen etnomusikologinen seura, pp. 10–45. https://doi.org/10.23985/evk.90118
Marko Jouste, Markus Juutinen, Eino Koponen (2020). ”Kolttasaamelaisen Näskk Moshnikoffin leuʹdd-kielen idiolekti ”. [The Idiolect of leuʹdd Language of Skolt Saami Näskk Moshnikoff]. Kulttuurintutkimus Vol 37, 1–2, pp. 32–56. Toim. Janne Saarikivi, Pirjo Kristiina Virtanen. Joensuu: Kulttuurintutkimuksen seura ry. https://journal.fi/kulttuurintutkimus/article/view/98099
Taarna Valtonen, Kati Kallio, Marko Jouste (2019). ”Olaus Sirman runojen vertailevaa luentaa -runojen poetiikka suhteessa suullisiin ja kirjallisiin lähikulttuureihin”. [Comparative Reading of Poems by Olaus Sirma. The Poetics of Poems in Relation to Oral and Literal Cultures Nearby]. Suomalais-Ugrilainen Seuran Aikakauskirja 97. Helsinki: Suomalais-Ugrilainen Seura, pp. 109–152. https://doi.org/10.33340/susa.75266
Marko Jouste, Markus Juutinen, Miika Lehtinen (2019): ”Isak Saba ja Paččjogas 1919:s čohkejuvvon nuortalaš leuʹddat. Isak Saba og de skoltesamiske leuʹddene som ble samlet inn i Paččjokk i 1919”. [Isak Saba and the Skolt Saami Leuʹdds Collected in Paččjogg in 1919]. Optegnelser. Isak Sabas folkeminnesamling. Čállosat. Isak Saba álbmotmuitočoakkáldat, Norsk Folkeminnelags skrifter 173 Oslo: Skandinavian Academic Press, pp. 283–301.
Jouste, Marko (2017). ”Áillohaš ja uuden joiun synty”. [Nils-Aslak Valkeapää and the Birth of the New Yoik]. Minä soin. Mun čuojan: Kirjoituksia Nils-Aslak Valkeapään elämäntyöstä. Toim. Valtonen, Taarna; Valkeapää, Leena. Rovaniemi: Lapland university press, pp. 233–258.
Marko Jouste (2011). Tullâčalmaaš kirdâččij ’tulisilmill lenteli’ – Inarinsaamelainen 1900-luvun alun musiikkikulttuuri paikallisen perinteen ja ympäröivien kulttuurien vuorovaikutuksessa. [The One Who Flew with the Fire eyes – The Musical Culture of the Aanar Sámi People in the Interaction of the Local Tradition and the Neighbouring Cultures]. Acta Universitatis Tamperensis 1650. Tampere: Tampere University Press. https://urn.fi/urn:isbn:978-951-44-8551-0
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tamás Grósz kertoo meille puheteknologiaan liittyvästä tutkimuksestaan.
Nimeni on Tamás Grósz, ja työskentelen akatemiatutkijana Aalto-yliopiston informaatio- ja tietoliikennetekniikan laitoksen puheentunnistusryhmässä.
Väitöskirjatyöni aikana keskityin tutkimuksessani puheteknologiaan, erityisesti uusien syväoppimispohjaisten ratkaisujen kehittämiseen automaattista puheentunnistusta (ASR) varten. Vaikka akustinen mallintaminen olikin pääasiallinen kiinnostuksen kohteeni, olin aktiivinen myös muilla alueilla. Minua kiinnosti erityisesti paralingvistiikka, ja työskentelin erilaisten siihen liittyvien tehtävien parissa. Osallistuin säännöllisesti Interspeech ComParE -haasteisiin ja menestyin niissä parhaiten useita kertoja vuosien varrella. Kenties merkittävin järjestelmistämme on se, joka arvioi automaattisesti Parkinsonin tautia sairastavien potilaiden tilaa. Haastekilpailujen lisäksi olin mukana myös hankkeessa, jossa kehitettiin puhepohjaista ratkaisua lievän kognitiivisen heikentymisen varhaiseen havaitsemiseen. Opintojeni viimeisinä vuosina keskityin hiljaisen puheen käyttöliittymiin. Pääsin työskentelemään huipputason prototyyppien parissa ja kehittämään uusia järjestelmiä, jotka pystyivät tuottamaan puhetta ultraäänellä kuvatuista kielenliikevideoista.
Väitökseni jälkeen liityin Mikko Kurimon tutkimusryhmään post doc -tutkijaksi, jossa minulla oli mahdollisuus työskennellä muiden aiheiden, kuten kielen mallintamisen ja tekoälyn selitettävyyden, parissa. Aluksi työstin koneoppimispohjaisia kielimalleja agglutinatiivisille kielille, kuten unkarille ja suomelle. Kun työskentelin erilaisten mallien parissa, huomasin kurssioppimisen (engl. curriculum learning) merkityksen kielimallin koulutuksessa. Tästä eräänlaisen oheishankkeena olen alkanut tutkia erilaisia arviointitapoja harjoitusnäytteiden vaikeustason määrittämiseen sekä koota uusia kurssisuunnitelmia tekoälymallien kouluttamiseen.
Samoihin aikoihin työskennellessäni hankkeissa, kuten Teflon, AASIS ja Kielibuusti, opin lisää
automaattisesta lasten puheen tunnistuksesta, puheen arvioinnista ja työkaluista, jotka voivat auttaa kielenoppijoita. Parhaat mallimme on onnistuneesti integroitu mobiilisovellukseen, joka voi auttaa maahanmuuttajia suomen kielen oppimisessa.
Vuonna 2022 kehitimme järjestelmän, joka pystyy tunnistamaan erilaisia änkytyksen muotoja (esim. sanan/lausekkeen toistoa, pidentymistä, äänteiden toistoa), ja voitimme sillä INTERSPEECH 2022 Stefan Steidl Computational Paralinguistics Award -palkinnon. Myöhemmin tutkimme, miten puhujan tunnetila voidaan tunnistaa ei-verbaalisista ääni-ilmaisuista (kuten naurusta, itkusta, huokauksesta ja huudosta). Järjestelmämme saavutti molemmissa haastetehtävissä ensimmäisen sijan ACMMM CompParE -kilpailussa. Sittemmin olen työskennellyt myös multimodaalisten ratkaisujen parissa tunteiden ja huumorin tunnistamiseksi.
Nykyinen työni keskittyy pääasiassa itseohjautuvien perusmallien kouluttamiseen ja niiden ymmärtämiseen osana Extreme-scale LUMI– ja LAREINA-hankkeita. Selitettävä tekoäly (XAI) ja mallitulkinta ovat olleet pitkäaikaisia kiinnostuksen kohteitani, ja näiden uusien mallien ja laskennallisten resurssien myötä minulle tarjoutui mahdollisuus tutkia uusia tekniikoita. Viime aikoina olen kehittänyt menetelmiä siihen, kuinka suurten perusmallien sisältä voidaan löytää merkityksellisiä aliavaruuksia ja tutkia mallien valmistavan koulutuksen aikana löytämiä käsitteitä sekä ymmärtää hienosäätöprosessin aiheuttamia muutoksia. Näiden tekniikoiden avulla olemme pystyneet ymmärtämään mallejamme paremmin ja tämä on vienyt meitä eteenpäin uusien, parempien koulutusalgoritmien suunnittelussa.
Koska nykyaikaiset puheentunnistimet vaativat huomattavan määrän dataa, etusijalle nousi tähän soveltuvien korpusten kokoaminen ja annotoiminen. Vuonna 2020 liityin työryhmään, joka koosti Lahjoita puhetta -aineistot (puhelahjat). Tämä korpus, jossa on noin 3200 tuntia lahjoitettua puhetta, mahdollisti useita muita hankkeita, kuten FinW2V2-hankkeemme LUMIssa. Puhelahjat-aineiston ja Aallon eduskunnan istunnoista 2008-2020 kokoaman puheentunnistuskorpuksen avulla olemme vuosien varrella kehittäneet useita ASR-järjestelmiä suomen kielelle.
Tällä hetkellä olen mukana myös LAREINA-hankkeessa, jossa rakennetaan suuria puheperusmalleja ja tuodaan niitä myös yrityskumppaneiden käyttöön.
Getman, Y., Grósz, T., Hiovain-Asikainen, K. & Kurimo, M. (2024), Exploring adaptation techniques of large speech foundation models for low-resource ASR: a case study on northern Sámi, in Proc. of Interspeech. DOI: 10.21437/Interspeech.2024-479
Karakasidis, G., Kurimo, M., Bell, P. & Grósz, T. (2024), Comparison and analysis of new curriculum criteria for end-to-end ASR, Speech Communication p. 103113. DOI: 10.1016/j.specom.2024.103113
Moisio, A., Porjazovski, D., Rouhe, A., Getman, Y., Virkkunen, A., AlGhezi, R., Lennes, M., Grósz, T., Linden, K. & Kurimo, M. (2023), Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks, Language Resources and Evaluation 57(3), 1295–1327. DOI: 10.1007/s10579-022-09606-3
Phan, N., von Zansen, A., Kautonen, M., Grósz, T. & Kurimo, M. (2024), CaptainA a self-study mobile app for practising speaking, in Proc. of Interspeech. https://www.isca-archive.org/interspeech_2024/phan24b_interspeech.pdf
Virkkunen, A., Sarvas, M., Huang, G., Grósz, T. & Kurimo, M. (2024), Investigating the clusters discovered by pre-trained AV-Hubert, in Proc. of IEEE ICASSP 2024, pp. 11196–11200. DOI: 10.1109/icassp48485.2024.10447434
Getman, Y., Phan, N., Al-Ghezi, R., Voskoboinik, E., Singh, M., Grósz, T., Kurimo, M., Salvi, G., Svendsen, T., Strömbergsson, S. et al. (2023), Developing an AI-assisted low-resource spoken language learning app for children, in IEEE Access. DOI: 10.1109/access.2023.3304274
Grósz, T., Getman, Y., Al-Ghezi, R., Rouhe, A. & Kurimo, M. (2023), Investigating wav2vec2 context representations and the effects of fine-tuning, a case-study of a Finnish model, in Proc. of Interspeech. DOI: 10.21437/interspeech.2023-837
Grósz, T., Virkkunen, A., Porjazovski, D. & Kurimo, M. (2023), Discovering relevant sub-spaces of Bert, wav2vec 2.0, Electra and ViT embeddings for humor and mimicked emotion recognition with integrated gradients, in Proc. of the 4th Multimodal Sentiment Analysis Challenge and Workshop, pp. 27–34. DOI: 10.1145/3606039.3613102
Porjazovski, D., Getman, Y., Grósz, T. & Kurimo, M. (2023), Advancing audio emotion and intent recognition with large pre-trained models and Bayesian inference, in Proc. of the 31st ACM International Conference on Multimedia, pp. 9477–9481. DOI: 10.1145/3581783.3612848
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Sofoklis Kakouros kertoo meille tutkimuksestaan, joka keskittyy prosodian ja siihen liittyvien ilmiöiden ymmärtämiseen.
Olen Sofoklis Kakouros, tutkijatohtori Helsingin yliopiston digitaalisten ihmistieteiden laitokselta, fonetiikan ja puhesynteesin tutkimusryhmästä. Ennen tähän ryhmään liittymistä olen toiminut tutkimustehtävissä eri yliopistoissa ympäri Suomea sekä Alankomaissa, ja olen myös työskennellyt yksityisellä puolella puhetieteilijänä. Taustani liittyy signaalinkäsittelyyn, kognitiotieteeseen ja fonetiikkaan.
Tutkimukseni kohdistuu puheeseen ja kieleen, erityisesti prosodian ja siihen liittyvien ilmiöiden ymmärtämiseen. Prosodia ei niinkään käsittele sitä, mitä sanotaan, vaan pikemminkin sitä, miten jotakin sanotaan; se lisää sanojen yli ulottuvia merkityksiä. Prosodisia tekijöitä ovat muun muassa intonaatio ja ajoitus. Vuosien varrella olen tutkinut prosodian eri puolia keskittyen kyseisen alan informaatioteoreettisiin prosesseihin. Kaiken kaikkiaan työni lisää ymmärrystämme siitä, miten akustiset ja kielelliset vaihtelut ovat tilastollisesti järjestyneet prosodiaksi, jonka havaitsemme. Viime vuosina olen tehnyt tutkimusta Suomen Akatemian hankkeessa nimeltä ”Puheen prosodian laskennallinen mallinnus”, jonka tavoitteena on ymmärtää puheen akustiikan tilastollista järjestymistä ja sen yhteyksiä esimerkiksi prominenssin ja tunnesävyn kaltaisiin prosodisiin ulottuvuuksiin. Tätä tutkimusta voidaan soveltaa lukuisilla aloilla, kuten murteiden ja eduskuntapuheen prosodisessa analyysissa.
Jotta laskennallisia puhemalleja voitaisiin analysoida ja kouluttaa tehokkaasti, tarvitaan yhä enemmän dataa. Kielipankki tarjoaa monipuolisen alustan, jonka kautta on pääsy tutkimukseni kannalta välttämättömiin resursseihin, kuten puheen ja kielen tutkimusaineistoihin. Ryhmämme hiljattain toteuttamassa hankkeessa analysoin suomalaisten eduskuntapuheiden äänitteitä Kielipankin suomenkielisen ASR-korpuksen avulla.
Vainio, M., Suni, A., Šimko, J., and Kakouros, S. (2024). The Power of Prosody and Prosody of Power: An Acoustic Analysis of Finnish Parliamentary Speech. In Proceedings of the Conference of the Speech Prosody Special Interest Group (SProSIG) of the International Speech Communication Association – Speech Prosody (SpeechPro-2024), Leiden, The Netherlands, pp. 662–666. 10.21437/SpeechProsody.2024-134
Kakouros, S., Šimko, J., Vainio, M., and Suni, A. (2023). Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody. In Proceedings of the 12th ISCA Speech Synthesis Workshop (SSW-2023), Grenoble, France, pp. 127–133. 10.21437/SSW.2023-20
Kakouros, S. and O’Mahony, J. (2023). What does BERT learn about prosody? In R. Skarnitzl, & J. Volín (Eds.), Proceedings of the 20th International Congress of Phonetic Sciences (ICPhS-2023) (pp. 1454-1458). GUARANT International spol. s r.o.., Prague, Czechia. https://www.internationalphoneticassociation.org/icphs-proceedings/ICPhS2023/full_papers/622.pdf
Kakouros, S., Stafylakis, T., Mošner, L., and Burget, L. (2023). Speech-based emotion recognition with self-supervised models using attentive channel-wise correlations and label smoothing. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-2023), Rhodes, Greece, pp. 1–5. 10.1109/ICASSP49357.2023.10094673
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Katri Hiovain-Asikainen kertoo saamen kielten puhetta ja puhesynteesiä koskevasta tutkimuksestaan.
Olen Katri Hiovain-Asikainen ja työskentelen neljättä vuotta puheteknologina Divvun-ryhmässä Norjan arktisessa yliopistossa. Ryhmämme kehittää kieli- ja puheteknologiasovelluksia erityisesti saamelaiskielille, mutta myös muille vähemmistökielille. Vastaan työssäni puheteknologiaprojektien suunnittelusta ja toteutuksesta, missä olennaista on myös erilaisten ääniaineistojen kerääminen sekä puhekorpusten rakentaminen eri saamelaiskielille.
Ryhmämme on julkaissut tänä vuonna maailman ensimmäisen luulajansaamen puhesynteesin sekä nykyaikaistanut pohjoissaamen puhesynteesin. Vastikään lokakuun lopussa julkaisimme myös maailman ensimmäisen eteläsaamen puhesynteesin. Kaikki kehittämämme ohjelmat ja työkalut ovat ilmaisia ja helposti kaikkien saatavilla.
Taustani on kielitieteessä ja fonetiikassa, ja väittelin syksyllä 2023 Helsingin yliopistosta tohtoriksi. Väitöskirjani aiheena oli valtakielten vaikutus puhuttuun pohjoissaamen kieleen. Tutkimuksen tavoitteena oli selvittää prosodisten piirteiden, kuten kvantiteetin ja intonaation variaatioita pohjoissaamen alueellisissa kielimuodoissa, kun kontaktit valtakieliin (suomi ja norja) ovat hyvin tiiviit ja moniulotteiset.
Tällä hetkellä keskityn puhesynteesin ja automaattisen puheentunnistuksen kehittämiseen kolmelle saamelaiskielelle: pohjois-, luulajan ja eteläsaamelle, jotka ovat virallisia kieliä Norjassa. Näille on em. kielten puhujayhteisöissä erittäin suuri tarve, sillä saamen kirjakielet ovat melko uusia, eivätkä kaikki saamenpuhujat ole päässeet oppimaan kirjoitettua kieltä koulussa samalla tavalla kuin enemmistökielten kohdalla. Puheteknologia mahdollistaa vähemmistökielten suullisen käytön uusissa konteksteissa: esim. koulussa lukemisen apuna, ääntämisen opiskelussa, helppokäyttötoimintona lukihäiriöisille tai näkörajoitteisille sekä yleisesti vaikka uutisten kuuntelemiseen lukemisen sijaan. Myös äänikirjat ja muut puhutun kielen sisällöt yleistyvät kaiken aikaa, mikä mahdollistaa kirjojen kuuntelun samalla kun tekee käsillä jotakin muuta. Älykoti ja älykaiutin puhuvat tänä päivänä luulajansaamea kodissa, jossa perheen kotikielenä on luulajansaame. Tämä vahvistaa kielen asemaa ja tukee saamelaiskielten elvytystä uudella tasolla.
Puheentunnistin puolestaan mahdollistaa erilaiset puhekäyttöliittymät esimerkiksi autossa ja kotona, sekä luonnollisesti älylaitteilla. Pian on mahdollista sanella tekstejä saamelaiskielillä sekä esim. luoda automaattisia litteraatteja vanhoille arkistoäänitteille, jotta tutkijat pääsevät hyödyntämään niitä paremmin. Mahdollisuudet ovat rajattomat.
Varsinainen tutkimukseni liittyy vahvasti puheteknologiaan, ja olen tällä hetkellä vierailevana tutkijana Helsingin yliopiston Fonetiikan ja puhesynteesin tutkimusryhmässä. Yhteistyössä ryhmän muiden tutkijoiden kanssa olemme tutkineet mm. automaattista murteentunnistusta, jossa tavoitteena on tunnistaa puhujan murre automaattisesti mm. erilaisten prosodisten piirteiden perusteella. Lisäksi olen kiinnostunut erilaisista puhesynteesin arviointimenetelmistä ja esimerkiksi siitä, kuinka hyvin puhesynteesi oppii tuottamaan monimutkaisia ja harvinaisia prosodisia piirteitä, kuten kvantiteettia.
Valmistelemme Divvun-ryhmässä tällä hetkellä erilaisia saamen puheaineistoja julkaistavaksi Kielipankin kautta. Saamenkielisiä äänitteitä löytyy kyllä eri maiden arkistoista, mutta ne ovat suhteellisen hajanaisia, tai niitä ei ole välttämättä käsitelty julkaistavaksi, eikä niihin esimerkiksi aina löydy transkriptioita. Koemme, että olemassa olevien aineistojen käsittely saavutettavampaan muotoon auttaisi monia tutkijoita sekä puheteknologioiden kehittäjiä ilman, että tarvitsisi tehdä aina uusia äänitteitä.
Olen myös itse saanut tutkimuskäyttöön yhden pohjoissaamen puhekorpuksen (Giellagas), ja se on ollut monipuolisuutensa vuoksi suureksi hyödyksi etenkin automaattisen murteentunnistuksen tutkimisessa. Tavoitteenamme Divvunissa on lisätä vastaavia aineistoja saataville mahdollisimman pian. Alkuperäis- ja vähemmistökielten kohdalla kuitenkin aineistojen julkaisuun liittyy paljon huolellisuutta vaativia seikkoja, joita työssämme kunnioitamme.
Hiovain-Asikainen, K. (2023). Prosodic change and majority language influence in spoken North Sámi varieties. Helsingin yliopisto, Humanistinen tiedekunta, Digitaalisten ihmistieteiden osasto. Helsingin yliopisto. http://urn.fi/URN:ISBN:978-951-51-9406-0
Kakouros, S., & Hiovain-Asikainen, K. (2023). North Sámi dialect identification with self-supervised speech models. arXiv Preprint arXiv:2305.11864. In Proceedings of the 24th INTERSPEECH Conference (pp. 5306–5310). https://doi.org/10.48550/arXiv.2305.11864
Pirinen, F., Moshagen, S., & Hiovain-Asikainen, K. (2023, May). GiellaLT—a stable infrastructure for Nordic minority languages and beyond. In Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa) (pp. 643-649). https://aclanthology.org/2023.nodalida-1.63/
Hiovain-Asikainen, K., & de la Rosa, J. (2023). Developing TTS and ASR for Lule and North Sámi languages. In Proceedings of the 2nd Annual Meeting of the Special Interest Group on Under-resourced Languages (SIGUL). http://dx.doi.org/10.21437/SIGUL.2023-11
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Elina Vaahensalo kertoo meille verkkokeskusteluissa syntyvään vastakkainasetteluun ja toiseuteen liittyvästä tutkimuksestaan.
Olen Elina Vaahensalo, digitaalisen kulttuurin väitöskirjatutkija Turun yliopiston humanistisessa tiedekunnassa, digitaalisen kulttuurin, maiseman ja kulttuuriperinnön tutkinto-ohjelmassa. Lisäksi lokakuun alussa aloitan työskentelyn tutkijana Tampereen yliopiston koordinoimassa “Solidariteetit käytäntöön – Nuorten arkiyhteisöt tunnustuksen lähteenä ja ehkäisevän sosiaalityön areenana” -akatemiahankkeessa (SoliPro).
Käsittelen väitöskirjassani toiseutta tuottavaa verkkokeskustelua erityisesti anonyymien suomenkielisten verkkoyhteisöjen näkökulmasta. Olen kiinnostunut siitä, miten vastakkainasettelua, ulkopuolisuutta ja jopa väkivaltaista vihamielisyyttä rakennetaan suomenkielisissä verkkokeskustelukulttuureissa, ja millaisia erilaisia muotoja toiseus eri kulttuureissa ottaa. Toiseus on siitä hedelmällinen käsitteellinen lähtökohta verkkokeskustelujen tutkimukseen, että sen avulla voi moninaisesti hahmotella niin yhteisöllisyyden, ryhmäidentiteettien kuin myös ulkopuolisuuden ja huonommaksi arvotetun erilaisuuden kuvauksia. Toiseudella onkin suomenkielisissä verkkokeskusteluissa hyvin keskenään erilaisia – ja myös ristiriitaisia – muotoja: toinen voi olla väkivaltaisesti ja epäinhimillistävästi vastustettava vihollinen, mutta myös samaistuttava kohtalotoveri, jonka kanssa jaetaan yhteisiä, vertaistuellisia marginalisaation kokemuksia.
Lisäksi olemme kollegani Lilli Sihvosen kanssa tutkineet verkkokulttuureja media-arkeologisesta viitekehyksestä käsin. Olemme kiinnostuneita erityisesti siitä, mitä tapahtuu kun jokin verkkokulttuurinen ilmiö tai objekti – viraaliksi kasvanut meemi tai sosiaalisen median alusta – kuolee, ja millaista kuolemanjälkeistä elämää näihin voi liittyä. Kiinnostuksemme taustalla vaikuttaa havainto siitä, miten haavoittuvaisia digisyntyiset ilmiöt ovat. Näkökulmamme mukaan erityisen haavoittuvaisessa asemassa ovat esimerkiksi suomenkieliset verkkoilmiöt, jotka eivät useinkaan leviä maailmanlaajuisiksi, eivätkä siten tallennu kovinkaan laajalle verkkoon. Suomenkielisten verkkokulttuuristen ilmiöiden tallennuksessa Kielipankki onkin tehnyt kullanarvoista työtä tallentaen verkkokeskustelua sekä Suomi24-foorumilta että Ylilauta-kuvafoorumilta.
SoliPro-hankkeeseen sijoittuvassa tutkimuksessani tulen jatkamaan toiseuttamista käsittelevää työtäni, mutta vielä vankemmin yhteisöllisyyden ja solidariteettien näkökulmasta. Tavoitteeni on tarkastella nuorten sosiaalisessa mediassa jakamia yhteisöllisyyden, toiseuden ja solidariteetin kuvauksia.
Tuoreemmassa tutkimuksessani olen hyödyntänyt itse keräämiäni, laadullisia ja etnografisella otteella kerättyjä verkkokeskusteluaineistoja, mutta Kielipankin Suomi24-aineistolla on merkittävä rooli tutkijanurani alkamisen kannalta. Vuonna 2017 aloitin tutkimusavustajana Suomen Akatemian rahoittamassa, Kielipankin Suomi24-aineiston ympärille rakentuneessa “Citizen Mindscapes” -konsortiohankkeessa, jonka puitteissa kirjoitin myös pro gradu -tutkielmani. Kehittelin jo tuolloin toiseuttavan verkkokeskustelun käsitettä ja Suomi24-aineiston avulla testasin sen tunnistamista sekä määrällistä mittaamista. Korpuspohjaisen tutkimuksen kokeileminen oli tällaiselle kulttuuritutkijalle melkoinen sukellus tuntemattomaan. Se oli kuitenkin kaikkine haasteineen arvokas opetus siitä, miten hieno tilaisuus opinnäytetyö on kokeilla erilaisia tutkimuksen tekemisen työkaluja – myös oman mukavuusalueen ulkopuolelta.
Nykyään myös opetan jonkin verran digitaalisen kulttuurin opiskelijoita ja käsittelen opetuksessani erityisesti verkkokeskustelujen laadulliseen tutkimukseen liittyviä työkaluja ja menetelmiä. Pyrinkin aina kannustamaan opiskelijoita hyödyntämään Kielipankin verkkokeskusteluaineistoja, sillä ne ovat ainutlaatuisia kokonaisuuksia suomenkielisestä verkkokulttuurista sekä osoitus myös siitä, että verkossa käytetty kieli on tallentamisen ja muistamisen arvoista.
Vaahensalo, E., & Sihvonen, L. (2022). Elävät, kuolleet ja elävät kuolleet keskustelufoorumit: verkkoyhteisöjen elämänvaiheet ja niiden tutkiminen. In R. Mähkä, M. Ahonen, N. Heikkilä, S. Ollitervo, & M. Räsänen (Eds.), Kulttuurihistorian tutkimusmenetelmät (pp. 411-429). Turun yliopisto.
Vaahensalo, E. (2022). ”Uuniin siitä” – Väkivaltainen ja toiseuttava verkkokeskustelu Ylilaudalla. Lähikuva – audiovisuaalisen kulttuurin tieteellinen julkaisu, 35(3), 29–44. https://doi.org/10.23994/lk.121893
Vaahensalo, E. (2022). Organisaatiot ja toiseuttava verkkokeskustelu. In H. Kantanen & M. Koskela (Eds.), Procomma Academic 2022: Poikkeuksellinen viestintä. ProCom – Viestinnän ammattilaiset ry. https://doi.org/10.31885/2022.00001
Vaahensalo, E. (2021). Samanlaista toiseuttamista, erilaisia toisia: Toiseuttavan verkkokeskustelun muodot anonyymeissä suomenkielisissä keskustelukulttuureissa. Media & Viestintä, 44(3), 1–29. https://doi.org/10.23983/mv.111507
Vaahensalo, E. (2021). Kontekstualisointimalli sosiaalisen median lähdekritiikin avaimena. Informaatiotutkimus, 40(3), 110–141. https://doi.org/10.23978/inf.107897
Vaahensalo, E. (2021). Creating the other in online interaction: Othering online discourse theory. In J. Bailey, A. Flynn, & N. Henry (Eds.), Handbook on technology-facilitated violence and abuse: International perspectives and experiences (pp. 227-246). Emerald Studies on Digital Crime, Technology & Social Harms. https://doi.org/10.1108/978-1-83982-848-520211016
Suominen, J., Saarikoski, P., & Vaahensalo, E. (2019). Digitaalisia kohtaamisia: Verkkokeskustelut BBS-purkeista sosiaaliseen mediaan. Helsinki: Gaudeamus.
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aku Rouhe kertoo meille puheentunnistukseen liittyvästä tutkimuksestaan. Nykyisessä työssään hän muun muassa jatkokouluttaa suomeen ja pohjoismaisiin kieliin erikoistuneita, avoimesti saatavilla olevia suuria kielimalleja, joita on luotu onnistuneen tutkimus–yritys-yhteistyön myötä.
Olen Aku Rouhe. Väittelin tämän vuoden helmikuussa Aalto-yliopiston puheentunnistuksen tutkimusryhmästä. Väitökirjatyön jälkeen siirryin Silo AI:lle (nykyisin AMD:n omistuksessa), missä työskentelen suurten kielimallien jatkokoulutuksen kanssa, eli siirryin puheesta tekstin pariin. Kiinnostus kieleen värittää myös vapaa-aikaani, jota käytän luovaan kirjoittamiseen.
Väitöskirjani aiheena oli viime vuosina paljon huomiota saaneiden ns. kokonaismallien ja perinteisempien monen mallin yhdistelmien vertaileminen. Varsinkin puheentunnistuksessa sekä tutkimus että käytännön sovellukset ovat siirtyneet laajalti kokonaismalleihin, mutta työni osoitti, että monen mallin yhdistelmät ovat yhä varteenotettavia ratkaisuja esimerkiksi tunnistustarkkuuden osalta. Kokonaismallien keskeisin etu onkin todennäköisesti niiden yksinkertaisuus.
Kokonaismallit vaativat usein valtavia opetusaineistoja. Siksi oli tärkeää sivuta myös kokonaismallien soveltamista aliresursoiduilla kielillä.
Tällä hetkellä työni Silolla liittyy suurten kielimallien jatkokouluttamiseen, ja sovellan esimerkiksi suomeen ja pohjoismaisiin kieliin erikoistuneita Poro ja Viking -malleja, jotka on luotu yhteistyössä Silon ja TurkuNLP-ryhmän välillä.
Kokonaismallit janoavat dataa, joten suuret aineistot olivat tarpeen. Olin mukana kokoamassa sekä eduskunnan täysistunnoista kerättyä Aalto Finnish Parliament ASR Corpus 2008–2020 puheaineistoa että Lahjoita puhetta -projektissa, jossa kansalaisten lahjoituksista syntyi Puhelahjat-korpus. Pääsin yhdistämään nämä molemmat suuret puheaineistot artikkelissa, joka julkaistiin väitöskirjani loppumetreillä vaikuttaessani LAREINA-projektissa. Nykyään suomen puheentunnistusresurssit ovat kunnioitettavat näin harvan puhumalle kielelle.
Rouhe, A., Grósz, T., Kurimo, M. 2024. Principled Comparisons for End-to-End Speech Recognition: Attention vs Hybrid at the 1000-Hour Scale. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 623-638, 2024. doi: 0.1109/taslp.2023.3336517
Virkkunen, A., Rouhe, A., Phan, N. et al. 2023. Finnish parliament ASR corpus. Lang Resources & Evaluation 57, 1645–1670 (2023). doi: 10.1007/s10579-023-09650-7
Moisio, A., Porjazovski, D., Rouhe, A. et al. 2023. Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Lang Resources & Evaluation 57, 1295–1327 (2023). doi: 10.1007/s10579-022-09606-3
Rouhe, A., Virkkunen, A., Leinonen, J., Kurimo, M. 2022. Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0. Proc. Interspeech 2022, 3543–3547,
doi: 10.21437/Interspeech.2022-11318
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.
