In English

Kuukauden tutkija: Noora Hoffrén

Noora Hoffrén
Kuva: Essi Ekman

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Noora Hoffrén kertoo meille väitöskirjatutkimuksestaan, jonka aiheena on konstruoitu toiminta suomalaisessa viittomakielessä ja suomen kielessä.

Kuka olet?

Olen Noora Hoffrén, viittomakielen tulkki ja väitöskirjatutkija. Teen artikkeliväitöskirjaa Jyväskylän yliopiston Kieli- ja viestintätieteiden laitoksella, viittomakielen keskuksella (VKK).

Mikä on tutkimuksesi aihe?

Väitöskirjani aihe on eläytymällä näyttäminen eli konstruoitu toiminta. Kun puhuja tai viittoja eläytyy jonkin toisen hahmon rooliin ja näyttää tämän hahmon ajatuksia, puhetta, tunteita tai toimintaa, hän konstruoi toimintaa. Konstruoitu toiminta ei aina ole ilmeistä tai voimakasta. Usein – varsinkin viittomakielessä – se sulautuu niin tiiviisti osaksi muuta kieltä, ettei sitä aina erota paljaalla silmällä. Tutkin konstruoitua toimintaa sekä suomalaisessa viittomakielessä että suomen kielessä. Väitöskirjani kytkeytyy osaksi Jyväskylän yliopiston meneillään olevaa ShowTell-projektia.

Miten Kielipankki liittyy tutkimukseesi?

Käytän tutkimusaineistona Suomalaisen viittomakielen korpusta, josta osa on jo julkaistu ja ladattavissa Kielipankissa (CFINSL). Aineisto sisältää useista kuvakulmista kuvattujen videoiden lisäksi perustason annotaatioita ja metatietoja. Se, että tällainen korpusaineisto on ylipäätänsä olemassa, mahdollistaa konstruoidun toiminnan tutkimisen parhaalla mahdollisella tavalla.

Tavoitteenani on kerätä viittomakielisen aineiston rinnalle suomenkielinen videokorpus, joka myös tallennetaan Kielipankkiin. Suomenkielinen videokorpus kerätään pareittain kuudelta äidinkieleltään suomenkieliseltä puhujalta. Aineiston keräämisessä käytetään vastaavia menetelmiä kuin Suomalaisen viittomakielen korpuksen keruussa. Tämä tarkoittaa esimerkiksi useamman kameran käyttöä kuvaussessioissa ja samojen elisitointimateriaalien (mm. ”Lumiukko” ja ”Sammakko, missä olet?” –kuvakirjojen) käyttöä.

Julkaisuja

Hoffrén, Noora 2019. Kuvailevien viittomien ja konstruoidun toiminnan yhteispeli. Pro gradu -tutkielma. Jyväskylän yliopisto. Saatavilla: http://urn.fi/URN:NBN:fi:jyu-201910144419

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Maria Sarhemaa

Maria Sarhemaa
Kuva: K-Art Foto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Maria Sarhemaa kertoo meille tutkimuksestaan, jossa hän on selvittänyt etunimien appellatiivistumista. Verkkokeskustelut ovat hedelmällinen aineistolähde epämuodollisen, puhekielenomaisen kielen tutkimiseen.

Kuka olet?

Olen Maria Sarhemaa, väitöskirjatutkija Helsingin yliopiston suomen kielen oppiaineesta. Teen väitöskirjaa Koneen säätiön apurahalla.

Mikä on tutkimuksesi aihe?

Tutkin etunimien appellatiivistumista suomen kielessä eli sellaisia tyypillisesti kielen epämuodollisiin rekistereihin kuuluvia sanoja, joiden taustalla on jokin etunimi. Tällaisia ovat esimerkiksi ’oksennusta’ merkitsevä yrjö ja tietynlaista teinipoikaa merkitsevä jonne, mutta on myös yhdyssanoja, joiden osana on appellatiivistunut etunimi, esimerkiksi baarimikko. Väitöstutkimuksessani kartoitan appellatiivistumista kielenilmiönä suomen kielessä ja osajulkaisuissa tutkin appellatiivistuneen osan sisältäviä yhdyssanoja, ’tyhmää’ merkitseviä ilmauksia uuno, tauno ja urpo sekä jonnet ei muista -konstruktiota.

Miten Kielipankki liittyy tutkimukseesi?

Keräsin Kielipankin Suomi24-korpuksesta aineistoa uunoa, taunoa ja urpoa käsittelevään artikkeliini. Suomi24 on tutkimusaiheeni kannalta hedelmällinen aineistolähde, sillä appellatiivistuneita ilmauksia käytetään runsaasti etenkin epämuodollisessa kielessä ja Suomi24:ssä käytetty kieli on usein puhekielen omaista. Olen kerännyt samasta korpuksesta aineistoa myös tekeillä olevaan jonnet ei muista -konstruktiota käsittelevään artikkeliini sekä FT Lasse Hämäläisen kanssa tekemääni tutkimukseen jonne-appellatiivista.

Julkaisuja

Hämäläinen, Lasse & Sarhemaa, Maria 2022: Jonnen jäljillä: Appellatiivisen jonnen alkuvaiheet verkkokeskusteluaineistojen valossa. Sananjalka 64, 255–269. https://doi.org/10.30673/sja.114194

Sarhemaa, Maria 2021: Tavan tauno uunoilee urpokaupungissa: Nimien Uuno, Tauno ja Urpo appellatiivistuminen ja appellatiivien käyttö Suomi24-keskustelupalstalla. Sananjalka 63, 103–129. https://doi.org/10.30673/sja.107278

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Månadens forskare: Therese Lindström Tiedemann

Therese Lindström Tiedemann
Foto: Tove Tiedemann

Språkbanken i Finland (Kielipankki) är en tjänst för forskare som använder språkresurser. Therese Lindström Tiedemann berättar om sin forskning om svenska som andraspråk. Det finns ett klart behov av att fortsätta utveckla finlandssvenska korpusar för att säkerställa att kommande studier inte bara tar sverigesvenska i beaktande utan också inkluderar finlandssvenska.

Vem är du?

Jag heter Therese Lindström Tiedemann och jag är universitetslektor i svenska språket vid Helsingfors universitet. Förutom svenska språket intresserar jag mig också för allmän lingvistik. Min doktorsavhandling skrev jag om grammatikaliseringens historia som språkvetenskapligt koncept, dvs inom språkvetenskapens historia.

Vad är ditt forskningsområde?

De senaste åren har jag mest forskat om svenska som andraspråk och i min forskning använder jag mig mycket av korpuslingvistiska metoder. Dessutom har jag tillsammans med kollegor också testat att använda mig av crowdsourcing. Jag forskar också om andra ämnen såsom grammatikalisering, språkvetenskapens historia, grammatikdidaktik och metaspråklig kunskap.

Hur är din forskning relaterad till Språkbanken i Finland?

Det är främst i koppling till min forskning inom svenska som andraspråk och i samband med undervisning som jag kommit att använda mig av Språkbankens (Finland) resurser. Jag har bland annat använt mig av den svenska delen av Topling-korpusen, och för närvarande leder jag vår fakultets del av Digisvenska-projektet där vi skapar en korpus över texter från de digitala studentskrivningarna i medellång svenska för att kunna studera hur de digitala studentskrivningarna samspelar med läroplanen och rättvisan och transparensen i provresultaten. Vi kommer bland annat att studera hur den språkliga bredden i form av den lexikala variationen relaterar till poäng och vitsord i proven, men också verbböjningen och satsadverbialen samt den språkliga exaktheten i form av normenligheten.

Tidigare har jag gjort försök att studera ordet ’nog’ med hjälp av Sinebrychoffkorpusen tillsammans med Jan Lindström, men i slutänden behövde arbetet göras främst med en mer omfattande textversion av korpusen och inte genom den version som finns i Korp.

Svenskspråkiga resurser i Finland behöver utvecklas

Jag har också ett mer allmänt intresse för vilka svenskspråkiga resurser som finns tillgängliga i Språkbanken (Finland) eftersom jag själv forskar om svenska och undervisar studenter i nordiska språk och gör mycket utifrån korpusbaserade metoder. Det gör det viktigt att veta vad jag kan rekommendera att studerande kan göra med hjälp av korpusar. Det finns absolut ett behov av att fortsätta utveckla finlandssvenska korpusar för att se till att vi kan beskriva finlandssvenska på liknande sätt som vi kan sverigesvenska, och så att kommande studier inte bara tar sverigesvenska i beaktande utan också inkluderar finlandssvenska. I den finländska kontexten kan vi också se att det i vissa korpusar finns såväl finska som svenska och att det finns behov av att fundera på hur man på bästa sätt skulle kunna studera hur och när svenska används i dessa korpusar och om det här är representativt för hur svenska används i dessa kontexter i Finland. Det här gäller t.ex. korpusen över riksdagens plenarsessioner (Eduskunnan täysistunnot), där svenska ord i nuläget bara taggas som utländska ord vilket gör att forskningsmöjligheterna på den delen av datan försvåras. Men samtidigt gör detta att vi tydligt kan se att svenska ord toppar och dominerar listan över de ord som taggats som utländska ord i plenarsessionerna. Men det vore intressant att fundera över hur man skulle kunna hantera dessa delar som svenskspråkiga, samt om det på något vis kunde vara möjligt annotera svenskspråkiga delar som svenska och på så vis göra det lättare att studera dem utifrån ett svenskspråkigt perspektiv.

I koppling till mitt intresse för de svenskspråkiga resurserna har jag också ett intresse för interoperabilitet mellan olika korpusar och resurser, transparens för forskningsdata och jämförbarhet mellan olika källor för det svenska språket. Eftersom väldigt många korpusar för det svenska språket finns vid Språkbanken Text (Sverige) och vi har ett behov av att kunna jämföra med dessa så ser jag ett behov av information om hur jämförbara korpusarna är, om korpusar här på Språkbanken (Finland) har annoterats på samma vis osv. Det här är av vikt för att se till att finlandssvenska och svenska inlärningskorpusar som finns här i Finland ska kunna jämföras med de korpusar som finns i Sverige och på så vis ge finlandssvenska och andraspråkssvenska (L2-svenska) med finska som förstaspråk (L1) en tydlig och rättvis plats i forskning om svenska och L2-svenska i allmänhet.

Som del av mitt arbete med korpusar har jag tillsammans med kollegor också intresserat mig för att kontrollera hur väl den automatiska annoteringen fungerar, speciellt på material skrivet av andraspråksinlärare. Vi har kontrollerat annoteringen av kursbokstexter (skrivna av L1-talare men ämnade för, eller utvalda för, L2-inlärare), texter skrivna av L2-inlärare och texter skrivna av L2-talare som sedan ”normaliserats” (dvs. standardiserats i form av t.ex. stavning) för att underlätta annotering, sökningar och jämförelser. Resultaten visade att texter skrivna av inlärare ofta är något sämre annoterade men inte alltid. Lemmatisering, ordklasstaggning och betydelsedisambiguering visade sig fungera så pass bra att de kan användas i studier också av L2-svenska, även om betydelsedisambigueringen var mer problematisk. Det fanns större problem med dependensanalys (jfr satsanalys), samt även flerordsenheter visade sig vara problematiska speciellt i inlärartexter. Flerordsannoteringen var dock så pass bra ändå att vi drog slutsatsen att den var bra nog som grund för vårt arbete, men man bör vara medveten om att några kan missas och att flerordsannoteringen bygger på vilka flerordsenheter som finns i Saldo, samt hur de har beskrivits i Saldo. Det visade sig nämligen kunna variera huruvida det sågs som att en preposition var del av flerordsenheten eller inte.

När språkforskare använder sig av korpusar för att studera språkbruk, historiska förändringar eller inlärares språkutveckling så är det ytterst viktigt att det finns tydlig information om hur korpusen har samlats in och vilken metadata som finns tillgänglig. Jag har därför också intresserat mig för hur metadata om korpusar förvaras och kopplas till korpusar så att användare kan hitta information som kan vara av vikt för att t.ex. veta hur pass jämförbara data ur olika korpusar är och hur representativ en viss korpus kan anses vara. Det här är en viktig del av arbetet med att göra data inte bara tillgängligt men också vetenskapligt användbart. Finns det inte tillräckligt med information om korpusen så kan det vara att språkforskare inte kan använda den för att de kommer att kritiseras för att de inte kan beskriva urvalet de arbetat med. För ett pluricentriskt språk som svenska är det väldigt viktigt att data som samlas in i de olika länderna där språket talas är jämförbara och när man använder sig av korpusar innebär det här också att det är viktigt att veta hur datan har behandlats och annoterats.

Jag är väldigt glad att vi fått fler svenska korpusar i Språkbanken (Finland) under de senaste åren. Jag hoppas att det i framtiden ska komma ännu fler finlandssvenska korpusar i Språkbanken och att de ska annoteras såsom de svenska korpusarna vid Språkbanken Text (Sverige) och att information om datan ska ges så att studerande och forskare relativt enkelt kan hitta jämförelsebart material samt veta hur representativt materialet är för en viss typ av språk (t.ex. en dialekt, tidningsspråk).

Nyligen avslutade projekt och några framtida steg

Under de kommande åren ska jag arbeta på ett projekt om pseudonymisering av språkliga data (Mormor Karl är 27 år). Pseudonymisering innebär att man ändrar uppgifter såsom namn på personer, platser osv. till pseudonymer i datan, när uppgifterna är sådana att de riskerar att avslöja vem som skrivit texten. Inom projektet kommer vi att studera hur pseudonymisering påverkar lingvistiska data i form av läsbarhet och bedömning för att bidra till bättre möjligheter till pseudonymisering men också bättre kunskap om hur pseudonymisering påverkar forskningsdata inom humaniora vilket är ett viktigt led i att arbeta för öppna data som kan återanvändas så att resultat kan reproduceras och uppföljningsstudier kan göras på data som redan finns insamlade samtidigt som man skydda människors identitet.

I koppling till det projekt som jag precis har avslutat tillsammans med Elena Volodina, Göteborg (L2 profiler – Utveckling av lexikala och grammatiska kompetenser i invandrarsvenska) har vi släppt ett dataset med manuella morfologiska analyser av lexem som ingår i material riktade mot inlärare av svenska som andraspråk eller producerade av personer med svenska som andraspråk (CoDeRooMor). Den här resursen har nu uppdaterats en del och kommer att släppas som del av resursen Svenska L2-profiler under 2023. Svenska L2-profiler är en resurs där man kan söka på t.ex. ord, tempus, morfem eller ordbildningsmönster för att se hur dessa förekommer på olika färdighetsnivåer (enligt CEFR, Common European Framework of Reference for languages) i så väl kursböcker för svenska som andraspråk som inlärartexter på olika CEFR-nivåer. De resurser som vi skapat finns dock vid Språkbanken Text (Sverige), men är eller ska bli öppet tillgängliga.

Under åren har jag också varit involverad i utvecklingen av ett verktyg för annotering i koppling till forskning om svenska (Legato) och Lärka-plattformens användning för undervisning om satsdelar, ordklasser och semantiska roller. CALL-plattformen Lärka har jag använt i min egen grammatikundervisning och på så vis kunnat återkoppla kring till utvecklarna. Tillsammans med Volodina har jag också använt plattformen till att samla in anonyma data om vad studerande ofta gör rätt och fel när de övar på dessa kategorier, vilket kan användas till forskning om metaspråklig kunskap och förmåga att analysera svenska språket grammatiskt.

Förutom hur min forskning kopplar till Språkbankens resurser och intresseområden är jag också projektledare för Finland Swedish Online (FSO), en onlinekurs i finlandssvenska som skapats på Helsingfors universitet utifrån en isländsk modell (Icelandic Online). FSO ingår numera i SAFMORIL som är ett av CLARIN:s K-Centrum. Min förhoppning har varit att FSO inte bara skulle vara ett sätt att stöjda andras språkinlärning men också en möjlighet att studera språkinlärning genom att se om det kunde vara möjligt att följa inlärares utveckling i deras användning av FSO om de gav tillstånd till detta. (Inom Icelandic Online har forskning kring språkinlärning gjorts utifrån deras data.)

Referenser

Alfter, D., Borin, L., Pilán, I., Lindström Tiedemann, T. & Volodina, E. 2019a. Lärka: From Language learning platform to infrastructure for research and language learning. I: Selected papers from the CLARIN Annual Conference 2018. Linköping: Linköping university press. 14s. http://www.ep.liu.se/ecp/159/001/ecp18159001.pdf

Alfter, D., Lindström Tiedemann, T. & Volodina, E. 2019b. LEGATO: A flexible lexicographic annotation tool. I: Hartmann, M. & Plank, B. (red.), The 22nd Nordic Conference on Computational Linguistics (NoDaLiDa): Proceedings of the conference. Linköping: Linköping University Electronic Press. s. 382–388. http://hdl.handle.net/10138/306297

Alfter, D., Lindström Tiedemann, T. & Volodina, E. 2021. Crowdsourcing Relative Rankings of Multi-Word Expressions: Experts vs Non-Experts. Northern European Journal of Language Technology, 7 (1): 35s. https://doi.org/10.3384/nejlt.2000-1533.2021.3128

Arnbjörnsdóttir, B., Friðriksdóttir, K., & Bédi, B. 2020. Icelandic Online: twenty years of development, evaluation, and expansion of an LMOOC. CALL for widening participation: short papers from EUROCALL 2020, 13.

Borin, L., Forsberg, M. & Lönngren, L. 2013. SALDO: a touch of yin to WordNet’s yang. Language Resources and Evaluation, 47(4): 1191–1211. https://doi.org/10.1007/s10579-013-9233-4

Council of Europe. 2001. Common European Framework of Reference for Languages: Learning, teaching and assessment. https://rm.coe.int/1680459f97

Council of Europe. 2018. Common European Framework of Reference for Languages: Learning, teaching and assessment. Companion Volume with new descriptors. https://rm.coe.int/cefr-companion-volume-with-new-descriptors-2018/1680787989

Council of Europe. 2020. Common European Framework of Reference for Languages: Learning, teaching and assessment. Companion volume. https://rm.coe.int/common-european-framework-of-reference-for-languages-learning-teaching/16809ea0d4

Friðriksdóttir, K. 2021. The effect of tutor-specific and other motivational factors on student retention on Icelandic Online. Computer Assisted Language Learning, 34(5-6), 663-684.

Lenardič, J., Lindström Tiedemann, T. & Fišer, D. 2018. Overview of L2 corpora and resources. CLARIN report. CLARIN ERIC. https://office.clarin.eu/v/CE-2018-1202-L2-corpora-report.pdf

Lindström, J. & Lindström Tiedemann, T. 2020. ”Ni minnes nog hvilka jag menar”: Subjektiva och intersubjektiva aspekter av modaladverbet nog. I: Lehti-Eklund, H. & Silén, B. (red.), Handel med konst. Språk och dialog i Paul Sinebrychoffs brevsamling från sekelskiftet 1900. Helsingfors: Svenska litteratursällskapet. s. 293–323. http://hdl.handle.net/10138/315043

Lindström, J. & Lindström Tiedemann, T. 2018. Subjektivt och intersubjektivt nog: Om grammatikalisering och bruk i ljuset av Paul Sinebrychoffs brevväxling kring 1900. I: Lönnroth, H, Haagensen, B., Kvist, M. & Sandvad West, K. (red.) Studier i svensk språkhistoria 14. Vasa: Vasa universitet. s. 180–197. http://hdl.handle.net/10138/243079

Lindström [Tiedemann], T. 2004. The History of the Concept of Grammaticalisation. Opubliserad doktorsavhandling, University of Sheffield. https://etheses.whiterose.ac.uk/1437/

Lindström Tiedemann, T., Alfter, D. & Volodina, E. 2022. CEFR-nivåer och svenska flerordsuttryck. I: Björklund, S., Haagensen, B., Nordman, M. & Westerlund, A. (red.), Svenskan i Finland 19. Vasa: Svensk-österbottniska samfundet. s. 218–233. https://urn.fi/URN:ISBN:978-952-69650-5-5

Lindström Tiedemann, T., Lenardič, J. & Fišer, D. 2018. L2 learner corpus survey: towards improved verifiability, reproducability and inspiration in learner corpus research. CLARIN annual conference, Pisa.
https://office.clarin.eu/v/CE-2018-1292-CLARIN2018_ConferenceProceedings.pdf

Lindström Tiedemann, T., Volodina, E. & Jansson, H. 2016. Lärka – ett verktyg för träning av språkterminologi och grammatik. LexicoNordica, 23: 161–181. https://tidsskrift.dk/lexn/article/view/111823

Prentice, J., Håkansson, C, Lindström Tiedemann, T., Pilán, I. & Volodina, E. 2021. Language learning and teaching with Swedish FrameNet++: two examples. I: Dannélls, D., Borin, L. & Friberg Heppin, K. (red.), The Swedish FrameNet++: Harmonization, integration, method development and practical language technology applications. Amsterdam: Benjamins. s. 303–329. https://doi.org/10.1075/nlp.14.12pre

Stemle, E. W., Boyd, A., Jansen, M., Lindström Tiedemann, T., Mikelić Preradović, N., Rosen, A., Rosén, D. & Volodina, E. 2019. Working together towards an ideal infrastructure for language learner corpora. I: Abel, A., Glaznieks, A., Lyding, V. & Nicolas, L. (red.) Widening the Scope of Learner Corpus Research: Selected papers from the fourth leaner corpus research conference. Louvain-la-Neuve: Presses universitaires de Louvain.
http://hdl.handle.net/10138/311309

Volodina, E., Alfter, D., Lindström Tiedemann, T., Lauriala, M.S. & Piipponen, D. H. 2022. Reliability of Automatic Linguistic Annotation: Native vs Non-native Texts. I: Monachini, M. & Eskevich, M. (red.), Selected papers from the CLARIN Annual Conference 2021. Linköping: Linköping University Electronic Press. s. 151–167.
https://doi.org/10.3384/ecp18914

Volodina, E., Mohammed, Y. A. & Lindström Tiedemann, T. 2021. CoDeRooMor: A new dataset for non-inflectional morphology studies of Swedish. Proceedings of the 23rd Nordic conference on computational linguistics (NoDaLiDa). Linköping. s. 178–189. http://hdl.handle.net/10138/339476

Volodina, E. & Lindström Tiedemann, T. 2014. Evaluating students’ metalinguistic knowledge with Lärka. Swedish Language Technology Conference, Uppsala. http://hdl.handle.net/10138/347397

Svenska språkresurser

Språkbanken i Finland samordnas av det nationella FIN-CLARIN-konsortiet som består av finländska universitet med CSC – IT Center for Science och Institutet för de inhemska språken (Kotus). FIN-CLARIN hjälper forskare i Finland att använda, förbättra, bevara och dela med sig av sina språkresurser. Språkbanken i Finland är en samling tjänster som tillhandahåller språkmaterial och verktyg för forskarsamfundet.

Alla tidigare publicerade intervjuer med forskare från Språkbanken lagras i Månadens forskare arkivet. Den här artikeln publiceras också på webbplatsen för den humanistiska fakulteten vid Helsingfors universitet.

 

Kuukauden tutkija: Marja-Liisa Helasvuo

Marja-Liisa Helasvuo
Kuva: Lyyra Virtanen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Marja-Liisa Helasvuo kertoo meille, millaisia digitaalisia kieliaineistoja Turun yliopistossa on tuotettu. Yhteistyökuvioiden myötä korpusten parissa tehtävä työ on laajentunut kokonaiseksi aineistoinfrastruktuuriksi.

Kuka olet?

Olen Marja-Liisa Helasvuo. Toimin suomen kielen professorina Turun yliopistossa. Aikoinaan lähdin opiskelemaan suomen kieltä ja yleistä kielitiedettä Helsingin yliopistoon, ja väittelin kielitieteestä Kalifornian yliopistossa Santa Barbarassa. Olen aina ollut erityisen kiinnostunut puhutusta kielestä, ja väitöskirjanikin käsitteli puhuttua suomen kieltä kieltenvälisen tutkimuksen näkökulmasta.

Mikä on tutkimuksesi aihe?

Tutkimukseni on keskittynyt kielioppiin ja ihmisten väliseen vuorovaikutukseen. Olen tarkastellut tutkimuksessani hyvin erilaisia aineistoja: arkikeskusteluja aikuisten välillä tai aikuisen ja lapsen kesken, verkkokeskusteluja ja muuta tietokonevälitteistä vuorovaikutusta sekä kirjoitettuja tekstejä vanhimmista suomenkielisistä teksteistä uudempiin kirjoituksiin. Olen tutkinut näiden aineistojen perusteella monenlaisia kieliopin kysymyksiä.

Työskentelen suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa Turun yliopistossa. Meillä on tuotettu useita digitaalisia korpuksia alkaen Lauseopin arkiston murrekorpuksesta, jonka teko aloitettiin 1967. Se on ensimmäinen suomen kielen korpus, joka on suoraan tehty koneluettavaan muotoon.

Murrekorpuksen jälkeen on tullut useita muita: Agricola-korpus, joka sisältää kaikki Mikael Agricolan teokset 1500-luvulta, Edistyneiden suomenoppijoiden korpus (LAS2) ja Akateemisen suomen korpus (LAS1). Nämä kaikki ovat kieliopillisesti koodattuja, ja ne ovat saatavissa Kielipankin kautta (LAS1 tulossa saataville lähiaikoina). Lisäksi meillä on tuotettu useita suomalais-ugrilaisten kielten aineistoja. Nämä aineistot on koottu Suomen ja sen sukukielten arkistoon. Kun yhteisössämme on tuotettu paljon kieliaineistoja, meillä on myös paljon tutkijoita, jotka ovat kiinnostuneita korpuspohjaisesta tutkimuksesta. Jos esimerkiksi en tiedä, miten jonkin asian saisi parhaiten selville, tai en keksi, mitä korpusta kannattaisi käyttää tietyn asian tutkimiseen, voin aina kysyä työkaverilta.

Olemme viime aikoina tehneet lisääntyvässä määrin yhteistyötä TurkuNLP-ryhmän kanssa. Perustimme UTU-Digilang-aineistoinfrastruktuurin, jossa ovat mukana meidän Suomen ja sen sukukielten arkiston lisäksi Digilang-aineistoportaali, Digilang-pitkäaikaistallennus ja TurkuNLP-ryhmä ja sen kieliaineistot ja aineistotyökalut. Tämä yhteistyö on ollut tosi antoisaa, ja olen oppinut siitä paljon. Haluaisin tulevaisuudessa lisätä yhteistyötä.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt lähes kaikissa tutkimuksissani korpuksia, joista monet ovat Kielipankin kautta saatavissa.

Olen itsekin ollut tekemässä Kielipankin kautta saatavissa olevaa Arkisyn-korpusta. Saimme hankkeelle Koneen Säätiön rahoituksen, jonka avulla rakensimme morfosyntaktisesti koodatun korpuksen. Siitä pystyy helposti hakemaan vaikkapa tietyn sanan kaikki esiintymät (esim. ajatella-verbi kaikissa eri muodoissaan) tai tietyn muodon kaikki esiintymät (esim. kaikki menneen ajan muodot).

Viime aikoina olen tutkinut erityisesti erilaisia kiteytyneitä ilmauksia, jotka esiintyvät taajaan ja useimmiten samassa muodossa. Esimerkiksi ajatella-verbi on hyvin yleinen verbi arkikeskusteluissa. Se esiintyy lähes aina yksikön 1. persoonassa ja ilmauksen aikamuoto on imperfekti, menneen ajan muoto (mä ajattelin). Kun vertasimme korpushaun tuloksia vastaaviin kohtiin äänitallenteissa, huomasimme, että vaikka ilmaukset oli kirjattu muotoon mä ajattelin, ilmaus oli todellisuudessa äänteellisesti hyvin kulunut. Kaikkein yleisimmin se oli muodossa maattet. Minä-pronominista ei ollut jäljellä kuin m-äänne alussa, ilmauksen ensimmäinen ja toinen tavu (ajat) olivat sulautuneet yhteen (aat). Loppuun oli liimautunut että-sanan kulunut muoto. Tämäntyyppinen äänteellinen kuluminen ja käytön kivettyminen tiettyyn muotoon on hyvin tavallista kiteytyneille ilmauksille.

Kielipankin aineistoista olen käyttänyt Arkisynin lisäksi mm. Suomi24-korpusta, Agricola-korpusta, Lauseopin arkiston murrekorpusta ja lehtiaineistoja. Eri korpukset mahdollistavat erilaisia tutkimusaiheita.

Kirjallisuutta

Laury, Ritva, Marja-Liisa Helasvuo & Janica Rauma 2020. “When an expression becomes fixed: mä ajattelin että ‘I thought that’ in spoken Finnish”. – Ritva Laury & Tsuyoshi Ono (eds.), Fixed Expressions: Building language structure and social action, pp. 133–166. Pragmatics & Beyond New Series 315. Amsterdam: John Benjamins. DOI: http://dx.doi.org/10.1075/pbns.315.06lau

Helasvuo, Marja-Liisa 2019. “Free NPs as units”. Special issue “On the Notion of Unit in the Study of Human Languages”, guest editors Tsuyoshi Ono, Ritva Laury & Ryoko Suzuki. Studies in Language 43:2:301–328. DOI: http://dx.doi.org/10.1075/sl.16064.hel

Laury, Ritva & Marja-Liisa Helasvuo 2016. “Disclaiming epistemic access with ‘know’ and ‘remember’ in Finnish”. Special Issue on “Grammar and negative epistemics in talk-in-interaction”, guest editors Jan Lindström, Yael Maschler and Simona Pekarek Doehler. Journal of Pragmatics 106 (2016): 80–96. DOI: http://dx.doi.org/10.1016/j.pragma.2016.07.005

Helasvuo, Marja-Liisa & Aki-Juhani Kyröläinen 2016. “Choosing between zero and pronominal subject: Modeling subject expression in the 1st person singular in Finnish conversation”. Corpus Linguistics and Linguistic Theory 12(2):263–299. DOI: http://dx.doi.org/10.1515/cllt-2015-0066

Lisätietoa mainituista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Marjatta Palander

Marjatta Palander
Kuva: Satu Kokkonen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Marjatta Palander kertoo meille tutkimuksestaan karjalan kielen eri murteiden parissa. Tutkimushankkeiden myötä on syntynyt myös karjalan kielen puhekorpuksia, jotka ovat tulossa saataville Kielipankin kautta.

Kuka olet?

Olen Marjatta Palander, suomen kielen emeritaprofessori Itä-Suomen yliopiston humanistiselta osastolta. Olen johtanut juuri päättynyttä Suomen Akatemian rahoittamaa KATVE-tutkimushanketta (Muutto ja kielellinen eriytyminen: karjala Tverissä ja Suomessa).

Mikä on tutkimuksesi aihe?

Työurallani olen tutkinut erityisesti suomen itämurteita mutta 2000-luvulla kahdessa tutkimushankkeessa myös karjalan kieltä. FINKA-hankkeessa (2011–2014) kohteena olivat Raja-Karjalan murteet. KATVE-hankkeessa (2018–2022) puolestaan on selvitetty Raja-Karjalan ja Tverin karjalan murteiden eroja ja yhtäläisyyksiä. Nämä karjalan murteet polveutuvat yhteisestä varsinaiskarjalan etelämurteesta, jota puhuttiin nykyisen Itä-Suomen alueella vielä 1600-luvun alkupuolella. Ruotsin valloitettua Itä-Suomen suurin osa alueen karjalankielisestä väestöstä pakeni Venäjälle, aina Tveriin saakka. Tverin karjalaiset ovat siitä lähtien eläneet vailla kontakteja muihin karjalaisiin. KATVE-hankkeessa olemme tutkineet, millaisia vaikutuksia noin 350 vuoden ajalla on ollut murteiden eriytymiseen.

Tutkimuksemme koskee muun muassa lauserakenteen piirteitä, omistusmuotoja ja sanastoa. Selvitämme myös, missä määrin rajakarjalaistaustaiset ja tverinkarjalaiset ymmärtävät toistensa murteita. Omissa tutkimuksissani olen tarkastellut karjalaisten kielitietoisuutta kansanlingvistisillä menetelmillä. Lisäksi olen tutkinut, millaista ajallista vaihtelua on yhdessä rajakarjalaisidiolektissa, josta on tallenteita 17 vuoden ajalta.

Miten Kielipankki liittyy tutkimukseesi?

Olemme 2010- ja 2020-lukujen tutkimushankkeissa luoneet yhteensä kolme karjalan kielen puhekorpusta, jotka sisältävät äänitettyjä murrehaastatteluja ja niiden FU-transkriptiolla tuotettuja litterointeja: Raja-Karjalan korpus (119 h) perustuu Kotimaisten kielten keskuksessa säilytettäviin, 1960–70-luvuilla tallennettuihin haastatteluihin. Myös Tverinkarjalan korpus 1957–1971 (n. 30 h) on koottu Kotimaisten kielten keskuksen äänitteistä. Viimeaikaista tverinkarjalaa edustaa Tverinkarjalan korpus 2016–2019 (n. 15 h), jonka aineiston ovat koonneet KATVE-hankkeen tutkijat ja karjalan kielen opiskelijat kenttäretkillämme. Kaikki korpukset on luovutettu Kielipankkiin, jotta tutkijoilla olisi aiempaa enemmän sähköisiä aineistoja uhanalaisesta vähemmistökielestä karjalasta.

Tutkimuksia

Palander, Marjatta 2015. Rajakarjalaistaustaisten ja muiden suomalaisten käsityksiä karjalasta. Virittäjä, 119(1), 34–66. Saatavilla: https://journal.fi/virittaja/article/view/41260

Palander, Marjatta & Mäkisalo, Jukka 2022. Reaaliaikatutkimus rajakarjalaisidiolektista. Virittäjä, 126(3), 339–368.

Palander, Marjatta & Riionheimo, Helka 2018. Miten Raja-Karjalan murre eroaa suomesta? Rajakarjalaistaustaiset pohjoiskarjalaiset kuuntelutestissä. Sananjalka, 60(60.), 49–70. DOI: 10.30673/sja.69997

Riionheimo, Helka & Palander, Marjatta 2017. Rajakarjalainen kuuntelutesti: havainnoijina suomen kielen yliopisto-opiskelijat. Lähivørdlusi/Lähivertailuja 27, 212–241. Eesti rakenduslingvistika ühing. Tallinn. DOI: 10.5128/LV27.07

Uusitupa, Milla, Koivisto, Vesa & Palander, Marjatta 2017. Raja-Karjalan murteet ja raja-alueiden kielimuotojen nimitykset. Virittäjä 121(1), 67–106. Saatavilla: https://journal.fi/virittaja/article/view/53121

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Benjamin Schweitzer

Benjamin Schweitzer
Kuva: Grit Ruhland

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Benjamin Schweitzer kertoo meille väitöskirjatutkimuksestaan, jossa hän tarkastelee taidemusiikin erikoiskieltä. Korpuslingvistiset menetelmät mahdollistavat aihepiirin tarkastelun useasta eri näkökulmasta.

Kuka olet?

Olen saksalainen säveltäjä, kääntäjä ja kielitieteilijä (biografisessa järjestyksessä). Olen opiskellut sävellystä, musiikin teoriaa ja orkesterinjohtoa – muun muassa Sibelius-Akatemiassa Helsingissä – ja olen sittemmin toiminut pääasiassa freelance-säveltäjänä sekä jonkin verran myös luennoitsijana ja konserttijärjestäjänä. 2000-luvun alussa aloin myös tehdä käännöstöitä suomesta saksaan – erityisesti historiallisia ja musiikkitieteellisiä tietokirjoja, mutta myös joitakin oopperalibrettoja ja novelleja.

Nelikymppisenä siirryin toiselle urapolulle ja opiskelin fennistiikkaa ja skandinavistiikkaa Greifswaldissa ja Tartossa. Kun suoritin maisterin tutkinnon vuonna 2018, minulla oli jo aavistus, että kielitieteelliset pyrkimykseni eivät päättyisi tähän. Olin hyvin iloinen, kun pian tämän jälkeen sain mahdollisuuden jatkaa väitöskirjahankkeella. Työskentelen tällä hetkellä tutkijana Greifswaldin yliopiston fennistiikan laitoksella ja kirjoitan väitöskirjaani kansainvälisen Baltic Peripeties -tutkimusryhmän puitteissa. Ohjaajani on professori Marko Pantermöller.

Mikä on tutkimuksesi aihe?

Tutkin suomalaisen taidemusiikin erikoiskieltä useasta eri näkökulmasta. Ensimmäinen näkökulmani on historiallis-systemaattinen: Tarkastelen, millä tavoin tämän tietyn erityisalan kieli, joka alkujaan tuli Suomeen kulttuurituonnin välityksellä, on syntynyt. Mitä tapahtui spontaanisti ja mikä oli kielisuunnittelun ja kielenhuollon vaikutusta? Mitä termejä omaksuttiin ja millaisia ”omintakeisia” suomalaisia sanoja kieliyhteisö onnistui keksimään, ja millaisia rakenteellisia ongelmia oli voitettava tässä prosessissa?

Tutkimukseni toinen näkökulma koskee siirtymistä termeistä teksteihin, sanoista kerrontaan: Millaisia haasteita suomalaiset kriitikot ja musiikkitieteilijät kohtasivat kirjoittaessaan musiikista suomeksi? Mitä malleja he noudattivat ja onko olemassa rakenteellisesti ”tyypillisesti suomalainen” tapa kirjoittaa musiikista?

Kolmas ja monimutkaisin näkökulma on diskurssilingvistinen lähestymistapa: Millaisia intertekstuaalisia suhteita on löydettävissä (suomalaista) musiikkia käsittelevistä suomenkielisistä teksteistä? Heijastuvatko tässä diskurssissa kansalliset auto- ja heterostereotyypit? Entä millä tavoin taidemusiikki suomalaisen ”kulttuuri-identiteetin” kulmakivenä tulee ilmi musiikkiin liittyvästä kirjoittamisesta aina 1900-luvun alusta lähtien?

Miten Kielipankki liittyy tutkimukseesi?

Korpuslingvistiikka on tutkimuksessani tärkeässä asemassa, vaikka käytänkin todennäköisesti hieman epätyypillistä lähestymistapaa. Virallisen taksonomian mukaan tutkimukseni voisi olla korpuspohjaista tai korpussuuntautunutta, mutta itse käyttäisin ehkä mieluummin määrettä ”korpustietoinen”. Tutkimuksessani tarkastelen pääasiassa pidempiä katkelmia tai jopa kokonaisia tekstejä, joista poimin avainsanoja, kollokaatioita ja diskurssisemanttisia kehyksiä. Tämä tarkoittaa sitä, että analyyttinen lähestymistapani on selvästi kvalitatiivinen. Toisaalta selvittäessäni, milloin ja missä yhteydessä tietyt avainsanat tai käsitteet esiintyvät ensimmäisen kerran, millä tavoin ne jakautuvat diakronisesti ja millainen vaikutus niillä on ollut, minun on tarkasteltava lähdeaineistoa myös kvantitatiivisesta näkökulmasta.

Tässä kohtaa Kielipankki tulee kuvioihin. Käytän pääasiassa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa (KLK), joka sisältää valtavan kokoelman päivälehtiä 1900-luvun puoliväliin saakka sekä varhaisia musiikkilehtiä, minkä vuoksi se on ollut minulle korvaamaton lähdeaineisto. Käytän korpusanalyysia testatakseni, vahvistaakseni ja laajentaakseni tutkimushypoteeseja, jotka usein syntyvät yhdestä ainoasta tekstissä olevasta havainnosta tai jopa ”tiedän, että jossain täällä on oltava jotain” -vaistosta. Konkreettisen esimerkin mainitakseni se voisi olla kysymys, kuten ”Mistä lähtien ʻSibeliusʼ ja ʻalkuvoimaʼ ovat esiintyneet yhdessä? Antaako korpus todisteita oletukselle, että siitä tuli kiinteä kollokaatio, ja jos näin on, milloin tämä tapahtui?”.

Tällaisten asioiden selvittämiseen käytän Korpin laajennettua hakua yhteisesiintymien tunnistamiseen laajemmissa näytteissä (kappaleissa), sillä pelkkä vasen/oikea-naapuri-haku ei paljastaisi riittävästi – varsinkaan tutkittaessa varhaisen nykysuomen musiikkikirjoittelun monimutkaista syntaksia, joka on usein lähempänä kaunokirjallisuutta kuin asiatyyliä. Korpuksen otteita voidaan tämän jälkeen käyttää jatkoanalyyseihin, esimerkiksi laadullista data-analyysia varten, mutta joskus ne voivat myös tuottaa uusia hypoteeseja. Täytyy myöntää, että olen useammin kuin kerran löytänyt neulan heinäsuovasta – esim. mielenkiintoisen tekstin, jonka olisin muuten saattanut jättää huomioimatta – selaamalla korpushakutuloksia.

Julkaisuja

Schweitzer, Benjamin 2019. Musikinstrumentenbezeichnungen im Finnischen: Historisch-systematischer Überblick, Varianten und Verstetigung. MA thesis. Universität Greifswald. Saatavilla: urn:nbn:de:gbv:9-oa-000003-2

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mikko Laitinen

Mikko Laitinen
Kuva: Olli Laitinen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mikko Laitinen kertoo meille viimeaikaisesta tutkimuksestaan somealustaa seuraavan korpuksen parissa, jonka kautta tutkijoille avautuu myös ikkuna sosiaalisiin verkostoihin.

Kuka olet?

Olen Mikko Laitinen, englannin kielen ja kulttuurin professori Itä-Suomen yliopiston Humanistisella osastolla ja yksi kansallisen digitaalisten ihmistieteiden infrakonsortion, FIN-CLARIAH, vastuullisista tutkijoista.

Mikä on tutkimuksesi aihe?

Olen sosiolingvisti, eli minua kiinnostaa kielen käyttö eri tilanteissa ja yhteiskunnallisena ilmiönä. Olen tutkijana tehnyt töitä sekä pienten ja strukturoitujen korpusten että isojen ja paljon laskentavoimaa vaativien massadatojen kanssa, mutta aina niin, että mukana on joitain taustamuuttujia, joiden kautta kielenkäyttöä tarkastellaan. Aineistot ovat olleet sekä synkronisia että diakronisia.

Viime aikoina olemme tutkimusryhmässäni tehneet paljon töitä erilaisten Twitter-aineistojen kanssa. Tällä hetkellä rakennamme tällä somealustalla kielenkäyttöä lähes reaaliajassa seuraavaa isoa, edustavaa ja jatkuvasti päivittyvää benchmark-korpusta. Tällaisesta ”digitaalisesta observatoriosta”, jota kautta pystyy seuraamaan kielen käyttöä yhteiskunnassa, on hyötyä muun muassa taustaksi kielipoliittiseen keskusteluun. Kun siihen liitetään vielä isojen aineistojen visualisointi helpommin ymmärrettävään muotoon, saattaa se myös lisätä ihmisten kiinnostusta kielentutkimusta kohtaan yleisesti. Twitter on siitä kiinnostava aineisto, että vaikka sen tekstit ovat aika lyhyitä, niin sen rikasta metadataa hyödyntämällä pääsee tarkastelemaan ihmisten kielenkäyttöä esimerkiksi sosiaalisissa verkostoissa.

Miten Kielipankki liittyy tutkimukseesi?

Minusta on hienoa, että meillä aineistot ovat yhden luukun alla saatavilla ja vaikkapa yhden käyttöliittymän kautta käytettävissä. Tämä on opiskelijoille ja tutkijoille hieno palvelu! Eniten olen käyttänyt englanninkielen aineistoja, muun muassa COHA– ja COCA‑korpuksia, ja englanti lingua franca ‑korpuksen (ELFA) olen ladannut omalle koneelleni. Myös Suomi24-aineistosta tulee joskus tarkistettua joitakin kiinnostavia ilmiötä.

Julkaisuja

Laitinen, Mikko. 2020. Empirical perspectives on English as a lingua franca (ELF) grammar. World Englishes 39:3, 1–16. DOI: 10.1111/weng.12482

Laitinen, Mikko, Masoud Fatemi & Jonas Lundberg. 2020. Size matters: Digital social networks and language change. Frontiers in Artificial Intelligence 3:46. DOI: 10.3389/frai.2020.00046

Laitinen, Mikko. 2018. Placing ELF among the varieties of English: Observations from typological profiling. In Sandra Deshors (ed.), Modelling World Englishes in the 21st Century: Assessing the Interplay of Emancipation and Globalization of ESL varieties, 109–131. Amsterdam: John Benjamins. DOI: 10.1075/veaw.g61.05lai

Laitinen, Mikko & Magnus Levin. 2016d. On the globalization of English: Observations of subjective progressives in present-day Englishes. In Elena Seoane & Cristina Suárez-Gómez (eds.), World Englishes: New Theoretical and Methodological Considerations, 229–252. (Varieties of English around the World G57). Amsterdam: John Benjamins. DOI: 10.1075/veaw.g57.10lai

Lundberg, Jonas & Mikko Laitinen. 2020b. Twitter trolls: a linguistic profile of anti-democratic discourse. Language Sciences 79. DOI: 10.1016/j.langsci.2019.101268

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Filip Ginter

Filip Ginter
Kuva: Filip Ginter

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Filip Ginter kertoo meille työstään, jota hän on tehnyt TurkuNLP-tutkimusryhmässä.

Tämän haastattelun teksti on käännetty koneellisesti englannista suomeksi kunnianosoituksena kieliteknologian edistykselle.

Kuka olet?

Olen Filip Ginter, ja toimin Turun yliopiston kieliteknologian apulaisprofessorina. Olen tällä hetkellä myös TurkuNLP-tutkimusryhmän pitkäaikaisin jäsen. Olen koulutukseltani tietojenkäsittelytieteilijä, ja nautin syvästi niistä monista ainutlaatuisista haasteista, joita ihmiskieli asettaa.

Mihin tutkimuksesi keskittyy?

Koska minua ei ole siunattu kärsivällisyydellä eikä pitkällä keskittymiskyvyllä, olen vuosien varrella onnistunut paneutumaan melko moniin tutkimusaiheisiin TurkuNLP-ryhmän kanssa. Aloitimme tieteellisen kirjallisuuden louhinnan parissa, mutta sitten siirryimme yleisemmin erilaisten NLP-työkalujen ja -resurssien kehittämiseen. Olen aina pitänyt suomen kielestä ja päätin osallistua erityisesti suomalaisen NLP:n kehittämiseen, ehkäpä antaakseni takaisin yhteiskunnalle, joka niin anteliaasti isännöi minua väitöstutkimukseni aikana. Henkilökohtaisesti tärkein – tai ainakin näkyvin – yritykseni oli Turku Dependency Treebank, josta tuli myöhemmin yksi ensimmäisistä puupankeista supermenestyksekkäässä Universal Dependencies (UD) -aloitteessa ja jonka ansiosta TurkuNLP oli tärkeä jäsen UD-yhteisössä ensimmäisestä päivästä lähtien. Puustopankki oli myös TurkuNLP:n suhteellisen laajalti käyttämien tilastollisten syntaktisten suomen kielen riippuvuusjäsennysten jäsentäjien perustana. Olen ylpeä siitä, että tämä työ auttoi tuomaan suomen kielen ACL-julkaisujen tulostaulukoihin ja kuromaan umpeen kuilua paljon enemmän tutkittuihin kieliin ainakin jäsennystarkkuuden osalta.

Viime aikoina en tietenkään voinut olla hyppäämättä mukaan syväoppimisen tsunamiin. TurkuNLP:n aiempi työ suomalaisen internetin ryömimiseksi ja miljardien suomen kielen sanojen keräämiseksi kannatti, kun siitä tuli keskeinen osa FinBERT-mallin harjoituskorpusta. Jos olet hiljattain tehnyt koneoppimista suomen kielen parissa, on hyvin todennäköistä, että olet käyttänyt tätä mallia saadaksesi muutaman prosentin lisäpisteen tarkkuuteen. FinBERTin tarina kertoo siitä, että kielidataa on paljon valmiina oikealla hetkellä, ja se osoittaa, miten tärkeää on kerätä ja ylläpitää kieliresursseja. Koskaan ei voi tietää, milloin seuraavan kerran tarvitaan muutama miljardi sanaa suomea.

Entä miten tästä eteenpäin? Näen tavoitteenani tuoda suomen kieleen tavalla tai toisella suurin osa niistä työkaluista, tehtävistä ja resursseista, joita isommilla kielillä on. Ajattele kysymysten vastaamista, tiivistämistä, semanttista hakua, parafraasimalleja ja monia muita NLP-tehtäviä, joita ei vielä ole kunnolla katettu suomen kielessä. Jos ne ovat olemassa englannille, niiden pitäisi olla olemassa myös suomelle. Elämme jännittäviä aikoja NLP:ssä, ja nyt meillä on paljon enemmän mahdollisuuksia kuin vielä viisi vuotta sitten. Ja tietysti, kun LUMI-supertietokone on nurkan takana, TurkuNLP-työpajalta voi odottaa uusia jännittäviä kielimalleja.

Näiden enemmän tai vähemmän valtavirran NLP-hankkeiden lisäksi minulla on ollut useita, rohkenen sanoa, onnistuneita yhteistyöhankkeita digitaalisten humanististen tieteiden alalla, erityisesti historioitsijoiden kanssa. Nautin näistä hankkeista, koska ne haastoivat meidät ratkaisemaan mielenkiintoisia teknisiä ja algoritmisia ongelmia.

Miten Kielipankki liittyy tutkimukseesi?

Ehkä näkyvin panokseni Kielipankkiin on suomen kielen riippuvuusparseri (toki TurkuNLP:ssä sitä työsti moni meistä), jonka avulla Kielipankki tekee aineistosta helpommin tutkijoiden saatavilla olevaa. Parserin uusin versio tuo mukanaan huomattavan parannuksen tarkkuuteen kaikilla analyysitasoilla. Toivon, että jonain päivänä, kun lainsäädäntö vastaa nykyisiä kieliteknologian tarpeita, myös Internet-parseri ja muut laajamittaiset verkkopohjaiset aineistot voidaan liittää kielipankkiin.

Olemme luonnollisesti käyttäneet Kielipankin resursseja laajasti täällä TurkuNLP:ssä, ehkä eniten Suomi24-korpusta, erilaisissa tutkimushankkeissa sekä kielimallien koulutuksessa. Olemme myös hyötyneet valtavasti Kansalliskirjaston sanomalehtien ja aikakauslehtien OCR-korpuksesta historiantutkijoiden kanssa tekemässämme työssä.

En voi korostaa, miten tärkeää suomalaiselle NLP:lle on, että me kaikki annamme avoimia tietokokonaisuuksia ja ilmaisia työkaluja ja malleja Kielipankkiin ja myös säilytämme etumatkaamme laskennallisten resurssien suhteen, mistä LUMI on täydellinen esimerkki.

Käännöksen teki: www.DeepL.com/Translator (ilmaisversio)

Julkaisuja

J. Kanerva & F. Ginter & S. Pyysalo 2020. Turku Enhanced Parser Pipeline: From Raw Text to Enhanced Graphs in the IWPT 2020 Shared Task. Proceedings of the 16th International Conference on Parsing Technologies and the IWPT 2020 Shared Task on Parsing into Enhanced Universal Dependencies. DOI: 10.18653/v1/2020.iwpt-1.17

J. Kanerva & F. Ginter & T. Salakoski 2020. Universal Lemmatizer: A Sequence to Sequence Model for Lemmatizing Universal Dependencies Treebanks. Natural Language Engineering. DOI: 10.1017/S1351324920000224

J. Kanerva & F. Ginter & N. Miekka & A. Leino & T. Salakoski 2018. Turku Neural Parser Pipeline: An End-to-End System for the CoNLL 2018 Shared Task. Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. DOI: 10.18653/v1/K18-2013

A. Vesanto & A. Nivala & T. Salakoski & H. Salmi & F. Ginter 2017. A System for Identifying and Exploring Text Repetition in Large Historical Document Corpora. Proceedings of the 21st Nordic Conference on Computational Linguistics (NoDaLiDa). https://aclanthology.org/W17-0249

Työkaluja ja korpuksia (käytettävissä Kielipankin kautta)

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Sampsa Holopainen

Sampsa Holopainen
Kuva: Laura Horváth

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Sampsa Holopainen kertoo uralilaisten kielten historiaan liittyvästä tutkimuksestaan.

Kuka olet?

Olen Sampsa Holopainen, uralilaisten kielten historian tutkija. Tällä hetkellä työskentelen Itävallan tiedeakatemian APART-GSK-stipendillä post doc -tutkijana Wienin yliopiston suomalais-ugrilaisella laitoksella. Väitöskirjani tein Helsingin yliopistossa suomalais-ugrilaisen kielentutkimuksen alalla, väittelin joulukuussa 2019.

Mikä on tutkimuksesi aihe?

Tällä hetkellä tutkimusaiheeni on unkarin kielen ja laajemmin ugrilaisten kielten (unkarin, hantin ja mansin) äännehistoria, etymologia ja lainasanatutkimus. Tutkin näitä aiheita kaksivuotisessa (2021–2023) projektissani Hungarian historical phonology reexamined (with special focus on Ugric vocabulary and Iranian loanwords). Aiemmin olen tutkinut myös muiden uralilaisten kielten sanastokerrostumia ja varsinkin indoiranilaisten ja muiden indoeurooppalaisten kielten vaikutusta uralilaisten kielten sanastoon. Erityisesti itämerensuomalaisten kielten etymologiaa tutkin vuosina 2019–2021 FT Santeri Junttilan johtamassa, Koneen säätiön rahoittamassa Helsingin yliopiston hankkeessa Suomen vanhimman sanaston etymologinen verkkosanakirja.

Miten Kielipankki liittyy tutkimukseesi?

Osana tämänhetkistä projektiani rakennan Kielipankin ylläpitämään Sanat-wikiin etymologista tietokantaa, jossa tarkastellaan kriittisesti unkarin, hantin ja mansin kielten yhteissanastoa (eli perinteisesti ugrilaiseen kantakieleen rekonstruoitua sanastoa) sekä unkarin varhaisia iranilaisia lainasanoja. Tietokanta sisältää etymologisia sana-artikkeleita, ja sinne on tarkoitus myöhemmässä vaiheessa lisätä myös äännehistoriaa havainnollistavia taulukoita. Wiki-tietokanta on vain osa projektiani, mutta se antaa hyvän keinon julkaista tutkimustietoa ja havaintoja nopeasti, helposti ja avoimesti.

Projektini tietokanta pohjautuu paljon laajempaan itämerensuomalaisten kielten etymologiseen tietokantaan, joka on kehitetty Santeri Junttilan johtamassa hankkeessa Suomen vanhimman sanaston etymologinen verkkosanakirja, jossa ovat työskennelleet myös dosentti Petri Kallio, FM Juha Kuokkala ja FM Juho Pystynen. Hanke jatkuu edelleen, mutta en itse työskentele siinä enää täyspäiväisesti. Tämä tietokantahanke on mielestäni erityisen merkittävä, koska sen puitteissa kehitettiin Sanat-wikiin hieno ja hyvin toimiva etymologiatietokanta, jonka pohjaa on sitten voinut hyödyntää myös muissa hankkeissa, kuten omassa Wienin-projektissani. Wiki-tietokanta antaa mahdollisuuden päivittää tutkimustietoa jatkuvasti ja luo hyvät puitteet tutkijoiden väliselle keskustelulle.

Yleisenä kehuna Kielipankille ja Sanat-wikille haluaisin tässä yhteydessä mainita helppokäyttöisyyden: en ole itse mikään kieliteknologi enkä kovin monimutkaista tietokantaa varmaankaan osaisi päivittää, mutta Sanat-wiki on erittäin kätevä työkalu, jota on selkeä käyttää.

Julkaisuja

Holopainen, Sampsa 2022: Uralilaisen lingvistisen paleontologian ongelmia – mitä sanasto voi kertoa kulttuurista? – Kaheinen, Kaisla & Leisiö, Larisa & Erkkilä, Riku & Qiu, Toivo E.H. (toim.), Hämeenmaalta Jamalille: kirja Tapani Salmiselle 07.04.2022. Helsinki: Helsingin yliopiston kirjasto. 101–114. DOI: 10.31885/9789515180858.9

Holopainen, Sampsa 2021: On the question of substitution of palatovelars in Indo-European loanwords into Uralic. – Suomalais-Ugrilaisen Seuran Aikakauskirja 98. 197–233. DOI: 10.33340/susa.95365

Junttila, Santeri & Holopainen, Sampsa & Pystynen, Juho 2020: Digital Etymological Dictionary of the Oldest Vocabulary of Finnish. – Rasprave 46, 2. 733–747. DOI: 10.31724/rihjj.46.2.15

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Jack Rueter

Jack Rueter Kuva: Jack Rueter

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jack Rueter kertoo meille tutkimuksestaan, joka käsittelee vähemmistökielten morfosyntaktista kuvailua.

Kuka olet?

Olen Jack Rueter. Johdan tutkimushanketta digitaalisissa ihmistieteissä Helsingin yliopistolla ja toimin projektitutkijana suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa Turun yliopistolla. Tutkin joko käsin tai sääntöpohjaisilla järjestelmillä annotoitujen korpusten kontekstipohjaista disambiguointia, jolla tarkoitetaan tekstin sisältämien moniselitteisten muotojen ja ilmausten tulkintojen etsimistä. Siitä asti kun 17-vuotiaana lausuin ensimmäiset suomenkieliset sanani, olen pyrkinyt opettelemaan useita muitakin kieliä ja saavuttamaan niissä käytännön kielitaidon.

Mikä on tutkimuksesi aihe?

Opiskeluajoistani asti olen tehnyt tutkimusta uralilaisten ja muiden vähemmistökielten parissa ja asteittain syventänyt ymmärrystäni siitä, kuinka kieliteknologisia työkaluja ja käytäntöjä voitaisiin hyödyntää kielitieteellisessä perustutkimuksessa. Tein ensimmäisen komi-syrjäänin äärellistilaisen kuvauksen jo neljännesvuosisata sitten ja jatkoin ersän kielen aineistojen parissa 2000-luvun alussa. Kunnianhimoista yhteistyötä on kuitenkin uralilaiseen kielikuntaan kuuluvien kielten kuvauksessa tehty vasta kymmenen viime vuoden aikana. Näissä kuvauksissa on keskitytty sanaston, syntaksin sekä rikkaan mutta säännöllisen morfologian tutkimiseen. Lisäksi keskiössä on ollut ajatus siitä, että monikielisten työkalujen ja oppimisympäristöjen kehittäminen voisi edistää myös kielten dokumentointia.

Työni komi-syrjäänin kielen parissa alkoi 1990-luvun alkupuolella, kun istuin luentokurssilla Helsingin yliopistolla. Opettajamme E. Cypanov tarjosi meille oppitunteja, jotka pohjautuivat hänen kirjoittamiinsa venäjänkielisiin materiaaleihin. Komi–suomi- tai komi–englanti-sanakirjoja ei tuolloin ollut saatavilla. Niinpä ryhdyin kääntämään hänen sanastoaan lyhyeksi kolmikieliseksi komi–englanti–suomi-sanalistaksi, jonka sittemmin oikoluin ja laajensin Alfred Kordelinin säätiöltä saamani apurahan turvin. Sanalistat olivat tuolloin olennaisia etappeja äärellistilaisten kuvausten kehitystyössä. Vuonna 1995 pääsinkin Unix-järjestelmällä aloittamaan komi-syrjäänin mallintamisen professori Kimmo Koskenniemen opastamana.

Vuodesta 1996 aina vuoteen 2004 saakka vietin suuren osan ajastani komien, ersäläisten ja mokšalaisten keskuudessa. Opetin suomen kieltä Mordvan valtionyliopistossa Saranskissa, Mordvassa, joka sijaitsee noin 600 km Moskovasta itään. Kielenopetuksen lisäksi ryhdyin keräämään ja digitoimaan mordvankielistä kirjallisuutta. Samalla opin molemmat kirjakielet ja verkostoiduin niin ammattikielenkäyttäjien kuin natiivipuhujien kanssa. Henkilökohtaisilta tuttaviltani sain näistä kielistä lisää tietoa ja äidinkielisiä kuvauksia, jotka muodostivat pohjan kielten asianmukaiselle dokumentaatiolle. Tähän aikaan tutustuin myös muihin Venäjällä puhuttaviin kieliin sekä loin yhteyksiä Turun ja Tromssan yliopistojen kielentutkimukseen.

Saranskin opetustehtävieni päätyttyä pääsin mukaan Giellatekno-nimisen avoimen lähdekoodin infrastruktuurin työhön Tromssassa. Trond Trosterud kollegoineen oli kiinnostunut työstäni komin kielen parissa ja he halusivat saada sen mukaan Barentsin ja napa-alueen kielten kieliteknologiaa koskevaan kehitystyöhönsä. On sanomattakin selvää, että suostuin tähän ehdotukseen. Niinpä avoimena lähdekoodina julkaistusta komin kielestä tuli uusi palanen laajaan sanakirjoja ja morfologioita koskevaan työhön, johon osallistuin Helsingistä käsin aloittaessani siellä jatko-opintojani. Kieliteknologia vaikutti voimakkaasti myös ersän kielen morfologisten ilmiöiden luokitteluun, jota dokumentoin väitöskirjassani vuonna 2010 ja josta tutkimustyöni vielä myöhemmin huomattavasti laajeni osana Koneen Säätiön rahoittamaa Kieliohjelmaa (2012–2021).

Kieliohjelman aikana tehtiin laajoja pilotteja ja hankkeita, joissa digitoitiin Kansalliskirjaston Fenno-Ugrica-kokoelmaan uhanalaisten suomen sukulaiskielten aineistoja 1920–40-luvuilta. Aineistojen valmisteleminen ja jatkotyöstäminen helpotti myöhempää aunuksenkarjalan, liivin, vuorimarin, mokšan ja tundranenetsin sanaston ja morfologian tutkimustani. Niissä menestyminen oli luonnollisesti mahdollista, koska mukana oli ryhmä kieliasiantuntijoita ja koska kyseisistä kielistä oli saatavissa aiempia kuvauksia. Avoimen lähdekoodin projekteina kielidokumentaatioon keskittyneet hankkeet hyödynsivät myös avointa Helsinki Finite-State Technology (HFST) -kirjastoa sekä avointa saamen kieliteknologian tutkimusinfrastruktuuria (Giellatekno) ja työkaluvarantoa (Divvun) Norjan Tromssassa. Näistä teknologioista saamaani kokemusta sovelsin muihin vähemmistökieliin, kuten inkeroiseen, koltansaameen, niittymariin, udmurttiin, võroon, komi-permjakiin, mansiin ja jopa Amazonin alueella puhuttavaan apurinãan sekä Pohjois-Amerikan länsirannikon pohjoisosien lushootseediin. Tuloksena syntyi kokoelma morfologiaa osaavia verkkosanakirjoja (mm. aunuksenkarjalalle, koltansaamelle, ersälle ja mokšalle) sekä älykäs tietokoneavusteinen kielenoppimisen ympäristö (ICALL), kuten koltansaamen Nuõrti, joka on ottanut mallia pohjoissaamelle tehdystä Davvi-nimisestä ICALL-ympäristöstä. Divvun-kokoelmassa on mukana myös arkikielen kirjoittamista helpottavia työkaluja sekä oikolukutyökaluja.

Sanastossa tai morfologiassa on järkeä vain, jos niitä voi soveltaa laajemmin – syntaksiin ja merkitysten muodostamiseen, kuten kääntämiseen. Anssi Yli-Jyrän ansiosta tutustuin 2010-luvun lopulla Universal Dependencies -projektiin. Aloitin ersän kielen puupankilla ja tein kehitystyötä mokšan, komi-syrjäänin, komi-permjakin, koltansaamen ja apurinãn parissa yhteistyössä Helsingin, Turun, Oulun, Saranskin, Syktyvkarin, Tromssan, Tarton, Göttingenin, Belémin and Bloomingtonin tutkijoiden kanssa. Puupankkien kanssa työskentelyä voi toisaalta pitää keinona välittää kielten dokumentaatiota erilaisille käyttäjäryhmille, ja toisaalta se toimii avoimena julkaisuarkistona, jossa voidaan kehittää morfologisen analyysin jälkeen tehtävää rajoitekieliopillista työtä. Kun kantavana voimana on merkityksellinen morfosyntaksi, päästään Apertiumin ja keskenään läheisesti sukua olevien kielten pintakäännösten mallinnukseen.

Apertium sai alkunsa kääntämisestä katalaanin ja espanjan sekä muiden sukulaiskielten välillä. Sen tekemissä konekäännöksissä huolehdittiin aluksi lähdekielen sanaston muuntamisesta kohdekielelle, jota seurasi morfologisen tiedon siirtäminen ja lopulta syntaksin mukauttaminen kohdekieleen, idiomit huomioiden. Kun läheisiä sukulaiskieliä pystytään kääntämään toistensa välillä tällaisella menetelmällä, voitaisiin menetelmää mahdollisesti hyödyntää myös silloin, kun tarkoituksena olisi mitata kielimuotojen etäisyyttä toisiinsa sen tiedon pohjalta, mitä niistä on dokumentoitu. Esimerkiksi pintamuotojen siirtotyökalujen kehittäminen varsinaiskarjalalle, aunuksenkarjalalle ja suomelle on johtanut sanakirjojen kehitystyöhön, jossa Giella-infrastruktuurin tarjoamaa morfologista kuvausta on sovellettu Akusanat-verkkosanakirjaan sekä Googlen järjestämässä ”Summer of Code” -ohjelmointitapahtumassa Apertiumin kautta. Apertiumiin tulossa olevat kieliparit saattavat pitää sisällään ersän ja mokšan, jotka ovat viime aikoina saaneet lisätukea myös Turun yliopiston Digilang-projektissa tehdyn tutkimuksen myötä.

Miten Kielipankki liittyy tutkimukseesi?

Viime vuosituhannen lopulla aloin kerätä mokšan-, ersän- ja kominkielistä kirjallisuutta niiden kirjoittajilta ja julkaisijoilta tutkimuskäyttöä varten Helsingin yliopiston korpuspalvelimelle (UHLCS), jolta ne on sittemmin siirretty Kielipankkiin. FIN-CLARIN-infrastruktuuri on käyttänyt aikaa ja resursseja vanhempien UHLCS-aineistojen työstämiseen käyttökelpoisempaan muotoon sekä tarjonnut ohjeistusta uudempien korpusten kehitystyöhön. Sen ansiosta minulla on ollut mahdollisuus siirtää Kielipankin Korp-palvelimelle ersän ja mokšan kielelle tekemäni ERME-aineistot sekä Erik Axelsonin kanssa valmistelemani Raamatun jakeita uralilaisille kielille -korpus (Pabivus), josta kiitos kuuluu myös Raamatunkäännösinstituutille. Parhaillaan teemme Korp-palvelimelle Universal Dependencies -mallin mukaista suomalais-ugrilaisten kielten korpusta. Toivoakseni Turun yliopistossa mordvalaisten kielten syntaksin parissa tekemäni työ parantaa Kielipankissa olevien vähemmistökielten korpusten laatua. Entistä tarkempi morfologinen analyysi, joka on sääntöpohjainen ja huomioi myös kontekstin, mahdollistaa puheentunnistus- ja puhesynteesiteknologioiden kehittämisen myös vähemmän dokumentoiduille vähemmistökielille.

Julkaisuja

Rueter, J., Partanen, N., Hämäläinen, M., & Trosterud, T. (2021). Overview of Open-Source Morphology Development for the Komi-Zyrian Language: Past and Future. In Proceedings of the Seventh International Workshop on Computational Linguistics of Uralic Languages (pp. 62–72). The Association for Computational Linguistics. https://aclanthology.org/2021.iwclul-1.4.pdf

Hämäläinen, M., Rueter, J., & Alnajjar, K. (2021). Documentação de línguas ameaçadas na era digital. Linha D’Água, 34(2), 47-64. https://doi.org/10.11606/issn.2236-4242.v34i2p47-64

Rueter, J., Hämäläinen, M., & Partanen, N. (2020). Open-Source Morphology for Endangered Mordvinic Languages. In Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS) (pp. 94–100). The Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.nlposs-1.13

Hämäläinen, M., Alnajjar, K., Rueter, J., Lehtinen, M., & Partanen, N. (2021). An Online Tool Developed for Post-Editing the New Skolt Sami Dictionary. In I. Kosem, M. Cukr, M. Jakubíček, J. Kallas, S. Krek, & C. Tiberius (Eds.), Electronic lexicography in the 21st century (eLex 2021). Proceedings of the eLex 2021 conference (pp. 653-664). (Electronic lexicography in the 21st century (eLex 2021). Proceedings of the eLex 2021 conference). Lexical Computing CZ s.r.o.. Saatavilla: https://elex.link/elex2021/wp-content/uploads/2021/08/eLex_2021_42_pp653-664.pdf

Rueter, J., Pereira de Freitas, M. F., Facundes, S., Hämäläinen, M., & Partanen, N. (2021). Apurinã Universal Dependencies Treebank. In M. Mager, A. Oncevay, A. Rios, I. V. Meza Ruiz, A. Palmer, G. Neubig, & K. Kann (Eds.), Proceedings of the First Workshop on Natural Language Processing for Indigenous Languages of the Americas (pp. 28-33). The Association for Computational Linguistics. DOI: 10.18653/v1/2021.americasnlp-1.4

Rueter, J. (2020). Корпус национальных мордовских языков: принципы разработки и перспективы функционирования/ действия. In ФИННО-УГОРСКИЕ НАРОДЫ В КОНТЕКСТЕ ФОРМИРОВАНИЯ ОБЩЕРОССИЙСКОЙ ГРАЖДАНСКОЙ ИДЕНТИЧНОСТИ И МЕНЯЮЩЕЙСЯ ОКРУЖАЮЩЕЙ СРЕДЫ (pp. 118-127). Издательский центр Историко-социологического института. https://www.researchgate.net/publication/342869938_Corpus_of_the_national_languages_Erzya_and_Moksha_priciples_of_development_and_perspectives_of_functionactionKorpus_nacionalnyh_mordovskih_azykov_principy_razrabotki_i_perspektivy_funkcionirovania_dej

Rueter, J. (Author), & Axelson, E. (Author). (2020). Raamatun jakeita uralilaisille kielille, rinnakkaiskorpus, sekoitettu, Korp [tekstikorpus]. Software, Kielipankki. Saatavilla: http://urn.fi/urn:nbn:fi:lb-2020021119

Rueter, J., Partanen, N., & Ponomareva, L. (2020). On the questions in developing computational infrastructure for Komi-Permyak. In T. A. Pirinen, F. M. Tyers, & M. Rießler (Eds.), Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages (pp. 15–25). The Association for Computational Linguistics. DOI: 10.18653/v1/2020.iwclul-1.3

Rueter, J. M. (2020). Linguistic Distance between Erzya and Moksha. Dependent Morphology. In Е. Ф. Клементьева, Т. И. Мочалова, & И. Н. Рябов (Eds.), ФИННО-УГОРСКИЕ ЯЗЫКИ В СОВРЕМЕННОМ МИРЕ: ФУНКЦИОНИРОВАНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ: Материалы Всероссийской научно-практической конференции, посвященной 95-летию заслуженного деятеля науки РФ, доктора филологических наук, профессора Цыганкина Дмитрия Васильевича (pp. 90-110). МГУ им. Н. П. Огарёва. Saatavilla: http://hdl.handle.net/10138/330042

Rueter, J., Partanen, N., & Pirinen, T. A. (2021). Numerals and what counts. In M. D. Lhoneux, & R. Tsarfaty (Eds.), Fifth Workshop on Universal Dependencies : Proceedings (pp. 151–159). The Association for Computational Linguistics. Saatavilla: https://aclanthology.org/2021.udw-1.13

Rueter, J., & Hämäläinen, M. (2020). Prerequisites For Shallow-Transfer Machine Translation Of Mordvin Languages: Language Documentation With A Purpose. In Материалы Международного образовательного салона (pp. 18-29). Ижевск: Институт компьютерных исследований. Saatavilla: http://hdl.handle.net/10138/325962

Rueter, J. M. (Accepted/In press). Mordva. In R. Valijärvi & D. Abondolo (Eds.), The Uralic Languages Routledge.

Lisätietoa Kielipankissa olevista resursseista

Muita kieliresursseja ja repositorioita

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mika Hämäläinen

Mika Hämäläinen
Kuva: Khalid Alnajjar

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mika Hämäläinen kertoo tutkimuksestaan laskennallisen luovuuden ja uhanalaisten kielten kieliteknologian parissa.

Kuka olet?

Olen Mika Hämäläinen ja työskentelen tutkijatohtorina Helsingin yliopistossa Digitaalisten ihmistieteiden osastolla. Väitöskirjani kirjoitin laskennallisesta luovuudesta vuonna 2020 otsikolla Generating Creative Language: Theories, Practice and Evaluation. Otsikko kuvaa hyvin tutkimusintressejäni, sillä en ole kiinnostunut ainoastaan kieliteknologisien mallien teknisestä toteutuksesta vaan myös niiden suhteesta teorioihin ja todellisen maailman ilmiöihin. Mielestäni on erittäin tärkeää julkaista tutkimustuloksia mahdollisimman helppokäyttöisinä työkaluina ja avoimena lähdekoodina.

Mikä on tutkimuksesi aihe?

Olen tehnyt tutkimusta laskennallisen luovuuden, uhanalaisten kielten kieliteknologian sekä ei-standardin kielen kuten murteiden ja historiallisten kielimuotojen parissa. Laskennallinen luovuus on tekoälyn näkökulmasta haastava tutkimusaihe, sillä tarkoituksena on kehittää laskennallisia malleja, jotka kykenevät tuottamaan uusia luovia tekstejä kuten runoja (Hämäläinen & Alnajjar, 2019) tai huumoria (Alnajjar & Hämäläinen, 2021). Tärkeää ei ole ainoastaan se, että kone pystyy syytämään ulos uutta tekstiä, vaan koneen tulisi myös osata tulkita tuotoksiaan jollain järkevällä tasolla. Olemmekin kehittäneet työkaluja myös lopputulosten analysointiin, kuten suomenkielistä runoutta analysoivan FinMeter-kirjaston. Kirjaston avulla voi muun muassa analysoida runomittaa sekä tulkita metaforia.

Uhanalaisten kielten kieliteknologia on erittäin haastavaa, sillä moderni kieliteknologia nojaa yhä enemmän massiivisiin tekstiaineistoihin, jollaisia ei ole helposti saatavilla. Uhanalaisten kielten aineistot sisältävät usein myös paljon variaatiota, sillä tällaisten kielten kohdalla ei välttämättä ole harjoitettu kielenhuoltoa ja vaalittu oikeakielisyyttä samalla tavalla kuin vaikkapa suomen osalta. Kielellinen moninaisuus on koneoppimisen näkökulmasta hankalaa, sillä mitä enemmän variaatiota korpus sisältää, sitä suurempi sen tulisi olla kooltaan, jotta koneoppimismallit kykenevät variaatiosta selviytymään. Uhanalaisten kielten kieliteknologia vaatii siis kekseliäisyyttä. Olemme onnistuneet analysoimaan uhanalaisten kielten morfologiaa (Hämäläinen et al., 2021a), morfosyntaksia (Hämäläinen & Wiechetek, 2020) ja kognaatteja (Hämäläinen & Rueter, 2019) tuottamalla koneoppimismalleille synteettistä dataa. Uhanalaisten kielten dataa voi prosessoida helposti kehittämäni UralicNLP-kirjaston avulla.

Elinvoimaistenkin kielten kohdalla runsas variaatio tuottaa kieliteknologeille päänvaivaa. Olen tehnyt tutkimusta historiallisen englannin kielimuotojen normalisoinnin parissa (Hämäläinen et al., 2018). Normalisaatio tarkoittaa sitä, että tietokone osaa muuntaa historiallisessa tekstissä käytetyn ortografian nykykielen mukaiseksi. Englannin kielen normalisointityökalu Natas on saatavilla GitHubista. Sittemmin olen tehnyt suomen (Partanen et al., 2019) ja suomenruotsin murteiden (Hämäläinen et al., 2020a) normalisointia sekä suomen murteiden tuottamista (Hämäläinen et al., 2020b) kirjakielen pohjalta. Nämä tutkimustulokset on julkaistu Murre-kirjastossa. Viimeisin tutkimuskohteeni on ollut suomen murteiden automaattinen tunnistaminen äänen ja tekstin pohjalta (Hämäläinen et al., 2021b)

Miten Kielipankki liittyy tutkimukseesi?

Suomen kielen näytteitä -korpus on ollut ehdottoman tärkeä murremallien tuottamisessa. Ilman kyseistä korpusta en olisi yksinkertaisesti voinut toteuttaa suomen kielen murteita käsittelevää tutkimustani.

Kielipankin aineistoista on ollut hyötyä myös laskennallisen luovuuden tutkimisessa. Olen käyttänyt esimerkiksi suomenkielistä FinnWordNetiä runogeneraattorissani (Hämäläinen, 2018) ja Opusparcusta luovaa dialogia tuottavassa sovelluksessa (Alnajjar & Hämäläinen, 2019).

Julkaisuja

Alnajjar, K., & Hämäläinen, M. (2021). When a Computer Cracks a Joke: Automated Generation of Humorous Headlines. In Proceedings of the 12th International Conference on Computational Creativity (ICCC 2021) (pp. 292-299). Association for Computational Creativity.

Hämäläinen, M., Alnajjar, K., Partanen, N., & Rueter, J. (2021b). Finnish Dialect Identification: The Effect of Audio and Text. In M-F. Moens, X. Huang, L. Specia, & S. Wen-tau Yih (Eds.), Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 8777-8783). The Association for Computational Linguistics.

Hämäläinen, M. (2020) Generating Creative Language: Theories, Practice and Evaluation. Helsingin yliopisto. Saatavilla: http://urn.fi/URN:ISBN:978-951-51-6707-1

Alnajjar, K., & Hämäläinen, M. (2019). A Creative Dialog Generator for Fallout 4. In Proceedings of the 14th International Conference on the Foundations of Digital Games [48] ACM. https://doi.org/10.1145/3337722.3341824

Hämäläinen, M., & Alnajjar, K. (2019). Let’s FACE it: Finnish Poetry Generation with Aesthetics and Framing. In K. V. Deemter, C. Lin, & H. Takamura (Eds.), 12th International Conference on Natural Language Generation: Proceedings of the Conference (pp. 290-300). The Association for Computational Linguistics. https://doi.org/10.18653/v1/w19-8637

Hämäläinen, M., Partanen, N., Rueter, J., & Alnajjar, K. (2021a). Neural Morphology Dataset and Models for Multiple Languages, from the Large to the Endangered. In S. Dobnik, & L. Øvrelid (Eds.), Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa) (pp. 166-177). (NEALT Proceedings Series; No. 45), (Linköping Electronic Conference Proceedings; No. 178). Linköping University Electronic Press.

Hämäläinen, M., & Rueter, J. (2019). Finding Sami Cognates with a Character-Based NMT Approach. In A. Arppe, J. Good, M. Hulden, J. Lachler, A. Palmer, L. Schwartz, & M. Silfverberg (Eds.), Proceedings of the 3rd Workshop on Computational Methods in the Study of Endangered Languages: (Volume 1) Papers (pp. 39-45). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-6006.pdf

Hämäläinen, M., Partanen, N., & Alnajjar, K. (2020a). Normalization of Different Swedish Dialects Spoken in Finland. In GeoHumanities’20: Proceedings of the 4th ACM SIGSPATIAL Workshop on Geospatial Humanities (pp. 24–27). ACM. https://doi.org/10.1145/3423337.3429435

Hämäläinen, M., Partanen, N., Alnajjar, K., Rueter, J., & Poibeau, T. (2020b). Automatic Dialect Adaptation in Finnish and its Effect on Perceived Creativity. In F. A. Cardoso, P. Machado, T. Veale, & J. M. Cunha (Eds.), Proceedings of the 11th International Conference on Computational Creativity (ICCC’20) (pp. 204-211). Association for Computational Creativity.

Hämäläinen, M., & Wiechetek, L. (2020). Morphological Disambiguation of South Sámi with FSTs and Neural Networks. In D. Beermann, L. Besacier, S. Sakti, & C. Soria (Eds.), Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020) (pp. 36-40). European Language Resources Association (ELRA).

Hämäläinen, M., Säily, T., Rueter, J., Tiedemann, J., & Mäkelä, E. (2018). Normalizing early English letters to Present-day English spelling. In B. Alex, S. Degaetano-Ortlieb, A. Feldman, A. Kazantseva, N. Reiter, & S. Szpakowicz (Eds.), Proceedings of the 2nd Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (pp. 87-96). (ACL Anthology; No. W18-45). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-4510

Hämäläinen, M. (2018). Harnessing NLG to Create Finnish Poetry Automatically. In F. Pachet, A. Jordanous, & C. León (Eds.), Proceedings of the Ninth International Conference on Computational Creativity (pp. 9-15). Association for Computational Creativity (ACC)

Partanen, N., Hämäläinen, M., & Alnajjar, K. (2019). Dialect Text Normalization to Normative Standard Finnish. In W. Xu, A. Ritter, T. Baldwin, & A. Rahimi (Eds.), The Fifth Workshop on Noisy User-generated Text (W-NUT 2019): Proceedings of the Workshop (pp. 141–146). The Association for Computational Linguistics.

Lisätietoa työkaluista ja Kielipankissa olevista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Terhi Ainiala

Terhi Ainiala
Kuva: Ilmari Fabritius

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Terhi Ainiala kertoo paikannimistöön liittyvästä tutkimuksestaan sekä monitieteisestä tavasta tehdä korpusonomastista tutkimusta.

Kuka olet?

Olen Terhi Ainiala, nimistöntutkija ja suomen kielen yliopistonlehtori Helsingin yliopistossa. Olen myös suomalais-ugrilaisen ja pohjoismaisen osaston johtaja humanistisessa tiedekunnassa.

Mikä on tutkimuksesi aihe?

Olen tutkinut paikannimistöä oikeastaan koko urani, opiskeluajoistani alkaen. 2000-luvulle tultaessa aloin paneutua kaupunkinimistön tutkimukseen, sillä siihenastinen tutkimus oli keskittynyt maaseudun paikannimiin. Olen ennen kaikkea tutkinut kaupunkinimistön kerroksellisuutta ja nimien tehtäviä osana ympäristön hahmottamista ja kaupunkilaisten identiteettejä. Kaupunkien paikannimissä on monia kerroksia: virallisia ja epävirallisia nimiä, eri-ikäisiä ja erikielisiä nimiä sekä erilaisten käyttäjäryhmien nimiä. Nimillä on paitsi tärkeä opastava ja kaupunkitilaa hahmottava tehtävä myös urbaaneja merkityksiä ja mielikuvia rakentava tehtävä.

Kaupunkien virallinen nimistö on tutkijan helposti saatavissa asemakaavoissa ja muissa virallisissa dokumenteissa. Kadunnimistä on julkaistu kirjojakin. Sen sijaan kaupunkilaisten arkipuheessaan käyttämää epävirallista nimistöä ei ole koottuna kuin satunnaisesti. Omassa työssäni olen halunnut päästä käsiksi myös niihin konteksteihin, joissa paikoista puhutaan, en vain nimien listoihin. Olenkin koonnut tutkimusteni aineistoja ennen kaikkea kyselylomakkein ja haastatteluin. Tutkimukseni pääpaino on ollut laadullisessa analyysissa.

Entä miten paikoista puhutaan lukuisissa sosiaalisen median kanavissa? Tähän kysymykseen halusin paneutua laajemman aineiston avulla, ja tässä kohtaa yhteistyö professori Jarmo Jantusen kanssa on noussut antoisaksi. Olemme yhdistäneet nimistöntutkimuksen, tilastollisten menetelmien ja korpusavusteisen diskurssintutkimuksen lähtökohtia ja työkaluja selvittäessämme, mitä nimiä kaupungeista ja muista paikoista digitaalisissa diskursseissa käytetään ja millä tavoin. Tällainen korpusonomastinen tutkimus on uusi avaus nimistöntutkimuksessa.

Ensimmäisessä yhteisessä tutkimuksessamme (Ainiala, T. & Jantunen, J. H., 2019) saimme selville, että Helsingistä käytettävät yleiset slanginimet, Hesa ja Stadi, jakavat yhteisiä diskursseja. Niillä on kuitenkin myös omia diskurssejaan. Hesaa käytetään, kun Helsinkiä katsotaan ulkopuolelta ja se on esimerkiksi muuttamisen tai matkustamisen kohde. Stadi kuvastaa puolestaan syntyperäistä ja aitoa helsinkiläistä identiteettiä, mikä tukee aiempia havaintoja nimen käytöstä. Stadia käytetään eniten silloin, kun puhutaan ”meistä stadilaista” ja katsotaan kaupunkia sisältäpäin.

Olemme jatkaneet tutkimusta entistä monitieteisemmin ja neljän tutkijan ryhmässä, kun mukaan ovat tulleet maantieteilijä Salla Jokela ja kielentutkija Jenny Tarvainen. Tuoreessa artikkelissamme (Jantunen, J. H., Ainiala, T., Jokela, S. & Tarvainen, J., 2022) selvitämme sitä, millä tavoin suomalaiset puhuvat pääkaupunkiseudun kaupungeista ja millaisia merkityksiä niihin liitetään. Tulostemme mukaan yleisimmät Espoota, Helsinkiä ja Vantaata koskevien keskustelujen aihepiirit ovat paikat ja suunnat, asuminen ja liikkuminen. Kaupunkien välillä on kuitenkin eroja. Yksi niistä on se, että Helsinkiä ja helsinkiläisiä verrataan usein yleisesti Suomeen ja jopa muuhun Eurooppaan, mutta Espoon ja Vantaan kohdalla tällaisia keskusteluja ei käydä. Maakuntien ja ulkomaiden kaupunkien nimet, kuten Savo, Lappi, Tukholma ja Lontoo, yhdistyvät aineistossa ainoastaan Helsinkiin.

Tutkimuksemme lisää tietoa siitä, millaisia merkityksiä kaupunkeihin kytketään. Tuloksia voidaan hyödyntää kaupunkisuunnittelussa ja -kehittämisessä sekä brändityössä.

Miten Kielipankki liittyy tutkimukseesi?

Korpusonomastisten tutkimusten aineistona on laaja Suomi24-keskustelufoorumista muodostettu ja Kielipankista saatava Suomi24-korpus, jossa on noin 2,7 miljardia sanaa. Koska aineisto ei ole tutkimuskäyttöön koottua vaan spontaanisti syntynyttä verkkokeskustelua, se tarjoaa kattavan näkymän kansalaiskeskusteluihin.

Julkaisuja

Ainiala, Terhi & Jarmo Harri Jantunen 2019: Korpusonomastinen tutkimus slanginimistä Hesa ja Stadi digitaalisissa diskursseissa. Sananjalka 61(61), 57–79. https://doi.org/10.30673/sja.80312

Ainiala, Terhi (2021: Nimet kaupunkimaisemassa: Kerrostumat, merkitykset ja mielikuvat. In T. Vahtikari, T. Ainiala, A. Kivilaakso, P. Olsson, & P. Savolainen (toim.), Humanistinen kaupunkitutkimus, 119-142. Tampere: Vastapaino.

Ainiala, T. & Sjöblom, P. 2020, Nimistöntutkimus. in M Luodonpää-Manni, M Hamunen, R Konstenius, M Miestamo, U Nikanne & K Sinnemäki (eds), Kielentutkimuksen menetelmiä I-IV. Suomalaisen Kirjallisuuden Seuran Toimituksia, Suomalaisen Kirjallisuuden Seura, pp. 800-830. https://doi.org/10.21435/skst.1457

Jantunen, Jarmo Harri, Terhi Ainiala, Salla Jokela & Jenny Tarvainen 2022: Mapping Digital Discourses of the Capital Region of Finland: Combining Onomastics, CADS, and GIS. Names 70:1, 20–39. https://doi.org/10.5195/names.2022.2289

Lisätietoa Kielipankissa olevista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Ari Huhta

Ari Huhta
Kuva: Anne Pitkänen-Huhta

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Ari Huhta kertoo kielitaidon arviointiin liittyvästä tutkimuksestaan.

Kuka olet?

Olen Ari Huhta, kielitaidon arvioinnin professori ja Soveltavan kielentutkimuksen keskuksen (Solki) johtaja Jyväskylän yliopistossa.

Mikä on tutkimuksesi aihe?

Työurani aikana olen ollut mukana kehittämässä erilaisia kielitaidon arviointivälineitä ja -järjestelmiä ja tehnyt niihin liittyvää tutkimusta. Viimeisten 15 vuoden aikana tutkimukseni kohteena on myös ollut vieraan ja toisen kielen oppiminen ja siihen liittyvät tekijät.

Kielitaidon arvioinnilla, tai arvioinnilla yleensä, on monia eri tarkoituksia. Joissakin on kyse erilaisten todistusten myöntämisestä tietyn osaamistason tai tavoitteen saavuttamisesta. Tästä on kyse esimerkiksi Ylioppilastutkinnossa tai Suomen kansalaisuuteen vaadittavan kielitaidon osoittamiseen käytetyissä Yleisissä kielitutkinnoissa. Olen ollut mukana näiden molempien tutkintojärjestelmien toiminnassa, mutta valtaosa tutkimuksestani on koskenut oppimista tukevaa kielitaidon arviointia, jota tavallisesti kutsutaan formatiiviseksi tai diagnostiseksi.

Erityisen tärkeä hanke urallani oli kansainvälinen Dialang-projekti, jossa kehitettiin 14-kielinen arviointi- ja palautejärjestelmä, jota voi käyttää verkkoselaimen kautta. Dialang valmistui jo 2004, mutta on edelleen saatavilla verkossa. Dialangista sai alkunsa moni tutkimushanke, joissa yhdistyvät kielitaidon arvioinnin ja kielen oppimisen näkökulmat. Tutkimuksissa selvitettiin, miten taito käyttää kieltä ja kielen piirteet (esim. rakenteet ja sanasto) liittyvät toisiinsa ja kehittyvät yhdessä, mistä on apua sekä oppimateriaalien että oppimista tukevian arviointivälineiden kehittämiselle. Tutkijat ovat olleet erityisen kiinnostuneita Eurooppalaisen kielitaidon viitekehyksen (EVK/CEFR) toiminnallisesti määriteltyjen osaamistasojen kielellisistä piirteistä, koska näitä tasoja käytetään yleisesti Euroopassa, Suomi mukaan lukien, vieraan kielen oppimistavoitteiden määrittämisen apuna.

Edellä mainituista tutkimushankkeista tärkeimpiä olivat Suomen Akatemian rahoittamat Cefling– ja Topling-projektit (PI prof. Maisa Martin, JyU), joissa tutkittiin kirjoitustaitoa ja sen kehittymistä suomenkielisillä englannin ja ruotsin oppijoilla ja monikielisestä taustasta tulleiden suomi toisena kielenä (S2) -oppijoilla sekä johtamani Dialuki-hanke, joka tutki englannin ja S2-oppijoiden luku- ja kirjoitustaitoa. Näiden hankkeiden osallistujat olivat eri ikäisiä suomalaisia koululaisia. Viime vuosina olen tutkinut erityisesti varhaista englannin kielen oppimista ja opetusta alakouluissa. Lisäksi olen mukana Helsingin yliopiston, Aalto-yliopiston ja Jyväskylän yliopiston yhteisessä DigiTala-projektissa, joka tutkii suomen ja ruotsin oppijoiden puheen automaattista tunnistamista ja arviointia.

Miten Kielipankki liittyy tutkimukseesi?

Cefling- ja Topling-projekteissa kerättyjä kielenoppijoiden tuottamia tekstejä on jo saatavilla Kielipankin kautta (Topling-aineisto). Myös Dialuki-hankkeen aineisto julkaistaan piakkoin. Lisäksi mahdollisimman suuri osa DigiTala-hankkeessa koostetuista puheaineistoista on tarkoitus saada tutkijayhteisön käyttöön Kielipankin välityksellä. Näin haluamme vahvistaa ja helpottaa kielen oppimista koskevaa tutkimusta.

Julkaisuja

Khushik, Ghulam & Huhta, Ari. 2022. Syntactic complexity in English as a foreign language learners’ writing at CEFR levels A1 – B2. European Journal of Applied Linguistics, 10(1). Early online. https://doi.org/10.1515/eujal-2021-0011

Khushik, Ghulam & Huhta, Ari. 2020. Investigating syntactic complexity in EFL learners’ writing across Common European Framework of Reference levels A1, A2, and B1. Applied Linguistics 41(4), 506-553. https://doi.org/10.1093/applin/amy064

Leontjev, Dmitri; Huhta, Ari & Mäntylä, Katja. 2016. Word derivational knowledge and writing proficiency: How do they link? System 59, 73-89. https://doi.org/10.1016/j.system.2016.03.013

Huhta, Ari; Alanen, Riikka; Tarnanen, Mirja; Martin, Maisa & Hirvelä, Tuija. 2014. Assessing learners’ writing skills in a SLA study: Validating the rating process across tasks, scales and languages. Language Testing 31(3) 307–328. https://doi.org/10.1177/0265532214526176

Mäntylä, Katja & Huhta Ari. 2013. Knowledge of word parts. In Milton, James & Fitzpatrick, Tess (eds.) Dimensions of Vocabulary Knowledge. (pp. 45-59). Palgrave.

Alanen, Riikka; Huhta, Ari & Tarnanen Mirja. 2010. Designing and assessing L2 writing tasks across CEFR proficiency levels. In Bartning, Inge; Martin, Maisa & Vedder Ineke (eds.) Communicative proficiency and linguistic development: intersections between SLA and language testing research. EUROSLA Monograph Series, 1. 21-56. http://eurosla.org/monographs/EM01/EM01home.html

 

Lisätietoa Kielipankissa olevista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Tuisku Vilenius

Tuisku Vilenius
Kenttätyömatkalla Tverin Karjalassa kesällä 2019. Kuva: Tuisku Vilenius

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tuisku Vilenius kertoo gradustaan, jossa hän tutki laajan tekstikorpuksen avulla, millaisia kulttuurisia stereotypioita ilmeni alkuperäiskansaan liittyvissä internetkeskusteluissa.

Kuka olet?

Olen Tuisku Vilenius ja valmistuin viime kesänä kielitieteen maisteriksi Helsingin yliopistosta. Sivuaineena opiskelin saamentutkimusta ja alkuperäiskansatutkimusta. Kielitasolla olen erityisen kiinnostunut saamen kielistä, mayakielistä ja nahuatlista. Tällä hetkellä työskentelen suomen kielen opettajana maahanmuuttajille ja suunnittelen jatko-opintojani.

Mikä on tutkimuksesi aihe?

Maisterintutkielmani tavoitteena oli selvittää, millä tavalla tavalliset suomalaiset suhtautuvat saamelaisiin ja saamelaisuuteen. Koska graduni kirjoitusprosessin alkuvaiheessa saamenopintoni olivat vasta aluillaan, päätin lähestyä aihetta suomenkielisen aineiston kautta. Tutkin, mitä adjektiiveja suomalaiset internetkeskustelijat käyttävät viitatessaan saamelaisiin, ja mitkä laajemmat diskurssit tai stereotyypit vaikuttavat keskustelijoiden valitsemiin adjektiiveihin. Samalla tutkimukseni on myös diakroninen katsaus suomalaiseen saamelaiskeskusteluun viime vuosikymmenillä.

Mielenkiintoista oli, että vaikka saamelaisiin liittyvän keskustelun määrä tarkastelemallani ajanjaksolla (2001–2017) kasvoi merkittävästi, saamelaisiin kohdistuvat viittaukset muuttuivat vain vähän. Koko tarkasteltuna ajanjaksona keskustelua hallitsi stereotyyppinen näkökulma, jossa saamelaiset miellettiin perinteikkääksi ja jopa muinaiseksi kansaksi. Tätä selittänee se, että keskivertosuomalaisella on vain vähän arkipäivän kontakteja saamelaisiin. Toisaalta suuri osa keskustelusta keskittyi määrittelemään, kuka ja millainen oikeastaan on aito saamelainen, mikä kertoo valtaväestön tarpeesta hallita ja määritellä alkuperäiskansaa.

Miten Kielipankki liittyy tutkimukseesi?

Käytin tutkimukseni aineistona Kielipankin Korp-työkalussa käytettävissä olevaa Suomi24-korpusta, joka sisälsi Suomi24-keskustelupalstalla käydyt keskustelut vuosilta 2001-2017. Valitsin tämän aineiston, koska se tarjosi hyvin laajan näkemyksen suomalaisen internetkeskustelun historiaan. Internetkeskusteluaineisto ilmentää myös todennäköisesti paremmin tavallisen suomalaisen näkemyksiä kuin esimerkiksi sanomalehtien artikkelit, joiden pohjalta saamelaiskeskustelua oli tutkittu aiemmin. Laajan aineiston lisäksi minua ilahduttivat erilaiset lisäominaisuudet, joita Korpissa oli käytettävissä. Sen lisäksi, että pystyin helposti hakemaan hakutyökalulla saamelaisiin viittaavia adjektiiveja, hyödynsin myös tunnistetietoja, jotka kertoivat esimerkiksi milloin ja millä keskustelupalstalla viesti oli lähetetty. Näiden perusteella pystyin hahmottamaan paremmin, mihin aiheeseen saamelaiskeskustelut liittyivät.

Kielipankkiin liittyviä julkaisuja

Vilenius, Tuisku 2021. Oikeat ja muinaiset: saamelaisstereotyypit suomalaisissa internetkeskusteluissa. Pro gradu -tutkielma. Helsingin yliopisto. Saatavilla: URN:NBN:fi:hulib-202106152749

 

Lisätietoa Kielipankissa olevista aineistoista

 

Artikkeliin liittyviä opintokokonaisuuksia ja tieteenaloja Helsingin yliopistolla

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Jussi Ylikoski

Jussi Ylikoski
Kuva: Ilona Ylikoski

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jussi Ylikoski kertoo tutkimuksestaan, joka liittyy suomen ja sen sukukielten kieliopillisiin piirteisiin ja niiden kehitykseen.

Kuka olet?

Olen Jussi Ylikoski, kielentutkija. Työskentelen viidettä vuotta Oulun yliopistossa saamen kielen professorina, mutta syksystä 2022 alkaen Turun yliopiston suomalais-ugrilaisen kielentutkimuksen professorina. Olen siis aika monen kielen tutkija, myös suomen.

Mikä on tutkimuksesi aihe?

Tutkimusaiheita on riittänyt suomen ja sen sukukielten parissa, välillä osin niiden ulkopuolellakin. Eniten olen tutkinut tuttujen ja tuntemattomampien kielten kielioppeja eli muoto- ja lauseoppia, mutta välillä myös muun muassa etymologiaa. Nykykieliä tutkiessani en useinkaan malta olla tarkastelematta kieliä myös niiden kehityksen näkökulmasta, kielihistoriaa tutkiessani puolestaan kiinnitän tavallista enemmän huomiota nykykielten todelliseen käyttöön todellisten tekstiaineistojen valossa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankin aineistoja olen käyttänyt etenkin suomen kielen kieliopin tutkijana. Jo vuonna 2003 julkaisin artikkelin, jossa selvitin Kielipankissa olevan Suomen kielen tekstikokoelman avulla, että ns. 5. infinitiivinä tunnettua verbimuotoa (-maisillaan, –mäisillään) käytetään monella muullakin tavalla kuin vain olla-verbin yhteydessä, toisin kuin kieliopit aina olivat esittäneet. Esimerkiksi otsasuonet eivät välttämättä vain ole repeämäisillään vaan ne voivat myös vaikkapa pullistella repeämäisillään – tai joku raukka voi peloissaan odottaa jotain otsasuonet repeämäisillään.

Viime vuosina olen innostunut entistä suuremmista, miljardien sanojen laajuisista tekstimassoista, joita on saatavilla Kielipankin ja muiden CLARIN-palveluiden kautta. Tutkimuksessani olen käyttänyt mm. Helsingin yliopiston suomenkielisen E­-thesiksen Korp­-versiota, Kansalliskirjaston sanoma­ ja aikakauslehti­kokoelman suomenkielistä osakorpusta, Suomi 24 ­-korpuksen eri versioita, Ylilauta-korpusta sekä 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpuksen versiota 2.  Laajojen aineistojen avulla myös suomen kaltaisesta todella hyvin tunnetusta ja tutkitusta kielestä on mahdollista löytää tavallaan jopa uusia sijamuotoja. Olen tarkastellut mm. vanhastaan prolatiiviksi kutsuttujen muotojen lauseoppia ja havainnut niiden käytössä sijamaisempia piirteitä kuin mitä aiemmassa tutkimuskirjallisuudessa on esitetty. Kyse ei aina ole vain yksittäisistä sanoista (esim. maitse ja meritse), vaan niitä voivat määrittää myös sivulauseet (esim. mailitse jossa on helpompi kaunistella asioita ja tekstiviestitse joihin turhan harva vastaa).

Jännittävimpiä havaintoja olen tehnyt tutkiessani sellaisia aiemmin selvinä johdoksina pidettyjä muotoja kuin lauantaisin ja viikonloppuisin tai kunnittain ja aihealueittain. Kielipankin Korp-käyttöliittymällä on mahdollista löytää miljardien sanojen kokoisista aineistoista satoja tai jopa tuhansia suhteellisen luontevia lauseita, joissa tällaisillakin muodoilla on erilaisia määritteitä, jotka saavat ne näyttämään substantiivien taivutusmuodoilta: elokuun lauantaisin, joka lauantaisin, satunnaisin viikonloppuisin tai vaikkapa Suomen kunnittain, eri maittain ja tietyin aihealueittain. Koska tällaiset temporaalit (lauantaisin) ja distributiivit (kunnittain) käyttäytyvät hyvin sijamaisesti, olen leikkisästi kutsunut kyseisiä muotoja ”kääpiösijoiksi” samaan tapaan kuin aiemmin planeettana tunnettua Plutoa kutsutaan nykyään kääpiöplaneetaksi.

Johdosten ja taivutusmuotojen rajankäyntiin uppouduttuani olen päätynyt tarkastelemaan myös esimerkiksi suomen abessiivia (rahatta, internetittä jne.) ja ns. t-akkusatiivia (minut, meidät jne.) aiempaa perusteellisemmin. Itse havainnoin ja kuvaan aiemmin tuntemattomiksi jääneitä muotoja ja lauserakenteita mieluiten deskriptiivisen kielentutkimuksen keinoin, mutta Kielipankin välineet tarjoavat paljon mahdollisuuksia myös kvantitatiivisesta analyysista kiinnostuneille.

Kielipankin ohella olen käyttänyt vähintään yhtä paljon tromssalaisten kieliteknologien tuottamia saamelaiskielten ja monien muidenkin uralilaisten vähemmistökielten korpuksia, jotka hyödyntävät samaa Korp-käyttöliittymää kuin suomalainen Kielipankki. Suomen sukukielten ystävät löytävät kyseisiä aineistoja Tromssan yliopiston Giellateknon ylläpitämästä Korp-palvelusta, http://gtweb.uit.no/korp/ (saame) ja http://gtweb.uit.no/u_korp/ (muut sukukielet). Vaikkapa 63 miljoonaa sanaa annotoitua maria – voiko fennougristi enempää toivoa?

Kielipankkiin liittyviä julkaisuja

Ylikoski, Jussi. 2003. Havaintoja suomen ns. viidennen infinitiivin käytöstä. [Summary: Remarks on the use of the proximative verb form (the so-called 5th infinitive) in Finnish.] Sananjalka 45. 7–44. https://doi.org/10.30673/sja.86640

Ylikoski, Jussi. 2018. Prolatiivi ja instrumentaali: suomen –(i)tse ja –teitse kieliopin ja leksikon rajamailla. Sananjalka 60. 7–27. [Summary: On Finnish prolatives and instrumentals: –(i)tse and –teitse in between grammar and lexicon.] https://doi.org/10.30673/sja.69978

Ylikoski, Jussi. 2020. Kielemme kääpiösijoista: prolatiivi, temporaali ja distributiivi. Virittäjä 124. 529–554. [Summary: On Finnish dwarf cases: prolative, temporal and distributive.] https://doi.org/10.23982/vir.76971

Ylikoski, Jussi. 2021. Abessiivin apologia. Puhe ja kieli 41. 139–157. [Summary: Apologia of the Finnish abessive case.] https://doi.org/10.23997/pk.110924

Ylikoski, Jussi. 2021. Mistä voisin löytää sen entisen sinut? Suomen kielen akkusatiivi- ja pronominioppia. – Leena Maria Heikkola, Geda Paulsen, Katarzyna Wojciechowicz & Jutta Rosenberg (toim.), Språkets funktion. Juhlakirja Urpo Nikanteen 60-vuotispäivän kunniaksi. Festskrift till Urpo Nikanne på 60-årsdagen. Festschrift for Urpo Nikanne in honor of his 60th birthday. Åbo: Åbo Akademis förlag. 220–243. https://urn.fi/URN:ISBN:978-952-12-4062-1

 

Lisätietoa Kielipankissa olevista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Jutta Salminen

Jutta Salminen
Kuva: Malin Bengtsson

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jutta Salminen kertoo tutkimuksestaan, joka liittyy kiellon ilmaisemiseen suomen kielessä.

Kuka olet?

Olen Jutta Salminen (FT, MuK). Väittelin Helsingin yliopistosta suomen kielen alalta keväällä 2020 ja työskentelen kuudetta vuotta suomen kielen lehtorina Greifswaldin yliopistossa Saksassa. Olen kiinnostunut kieliopista ja kielellisestä merkityksestä – erityisesti kaikesta, mikä liittyy kiellon ilmaisuun sekä monimerkityksisyyteen.

Mikä on tutkimuksesi aihe?

Väitöskirjassani tutkin epäillä-verbin ja sen nominijohdosten epäily ja epäilys käyttöä ja tulkintoja sekä verbin osalta myös sen muuttumista kirjoitetun suomen aikana. Tutkimuksen lähtökohtana oli huomio, että epäileminen voi nykysuomessa käyttöyhteydestään riippuen tarkoittaa joko jonkin asian todennäköisenä tai epätodennäköisenä pitämistä. Kiinnostuin siis siitä, kuinka yksittäistä sanaa voidaan käyttää itselleen vastakohtaisissa merkityksissä. Lisäksi näiden sanojen kautta pääsi tarkastelemaan sitä, miten varsinainen kielto (’ei ole (totta, että) X’) ja ns. evaluoiva kielteisyys (’ei ole hyvä, että X’, ’en pidä X:stä’) suhteutuvat toisiinsa kielen käytössä, sillä epäillä-verbin ja sen nominijohdosten merkityspotentiaaliin kuuluvat nämä molemmat kielteisyyden puolet.

Työn alla oleva tutkimukseni käsittelee suomen kieltohakuisia pro-sanoja (esim. kukaan) ja sitä, mitä niiden käyttökontekstit kertovat niiden kieliopillisesta ja semanttisesta luonteesta. Englanninkielisessä kirjallisuudessa nimellä negative polarity item (NPI) kulkevia elementtejä on tutkittu (etenkin isoista indoeurooppalaisista kielistä) varsin paljon, ja on kiinnostavaa tarkastella, kuinka suomen elementit suhteutuvat näihin kuvauksiin.

Miten Kielipankki liittyy tutkimukseesi?

Kun tutkitaan kielellisen merkityksen vaihtelua, muutosta ja eri tulkintojen yleisyyttä, tarvitaan analyysin materiaaliksi kieliaineistojen esiintymiä tutkittavasta kielenaineksesta. Väitöstutkimukseni epäillä-verbianalyysia varten kokosin eri tekstilajeja edustavan aineiston useista korpuksista: Suomen kielen tekstikokoelmasta, Suomalaisen kirjallisuuden klassikoista, Varhaisnykysuomen korpuksesta, Kansalliskirjaston sanomalehti- ja aikakauslehtikokoelman (KLK) suomenkielisestä osakorpuksesta sekä Vanhan kirjasuomen korpuksesta. Väitöskirjatyöni alkuvaiheessa Suomen kielen tekstikokoelma oli vielä saatavilla Kielipankin aikaisemmassa Lemmie-hakukäyttöliittymässä ja muut korpukset KLK:ta lukuun ottamatta löytyivät Kotuksen Kaino-palvelusta. Nykyisin voin käyttää kaikkia mainittuja aineistoja Kielipankin Korp-alustalla.

Perustin epäily(s)-nominien vertailun niiden esiintymiin HS.fi-uutiskommenttiaineistossa, jonka avulla saatoin tarkastella kyseisten sanojen käyttöä sekä toimitetussa uutistekstissä että lukijakommenteissa. Koska monimerkityksisten sanojen merkitysvariantit hahmottuvat kielellisten kontekstien kautta, oli tutkimukseni kannalta olennaista, että pääsin Kielipankin kautta tehokkaasti käsiksi myös laajempiin yksittäisten hakutulosten käyttöyhteyksiin.

Käynnissä oleva tutkimukseni kieltohakuisista elementeistä on luonteeltaan pitkälti kieliopin kuvausta.  Koska kielioppi elää käytössä, ovat kieliaineistot itse postuloitujen esimerkkien ohella tarpeellisia tällaisessa tutkimuksessa etenkin, kun jokin ilmaisutapa on (vielä) vakiintuneisuuden ja hyväksyttävyyden rajoilla. Suomi24-korpus on osoittautunut hedelmälliseksi aineistoksi kieltohakuisten ainesten käytön tarkastelussa.

Kielipankkiin liittyviä julkaisuja

Salminen, Jutta (2020). Epäilemisen merkitys. Epäillä-sanueen polaarinen kaksihahmotteisuus kiellon ja kielteisyyden semantiikan peilinä. Väitöskirja. Helsinki: Helsingin yliopisto. http://urn.fi/URN:ISBN:978-951-51-5879-6

Salminen, Jutta (2018). Paratactic negation revisited. The case of the Finnish verb epäillä. Functions of Language 25(2): 259–288. https://doi.org/10.1075/fol.15030.sal

Salminen, Jutta (2017). Mitä tarkoittaa epäillä? Epäillä-verbin polaarisesta merkitysvariaatiosta nykysuomessa. Virittäjä 121: 4–36. https://journal.fi/virittaja/article/view/52322

Salminen, Jutta (2017). Epäillä-verbin polaarinen kaksihahmotteisuus merkitysmuutoksena. Virittäjä 121: 37–66. https://journal.fi/virittaja/article/view/52323

Salminen, Jutta (2017). Epäily vai epäilys? Jaettu polysemia ja lekseemien tyypilliset käytöt. Sananjalka 59: 217–243. https://doi.org/10.30673/sja.66636

 

Lisätietoa Kielipankissa olevista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mikko Kurimo

Mikko Kurimo
Kuva: Evelin Kask, Aalto-yliopisto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mikko Kurimo kertoo automaattiseen puheentunnistukseen liittyvästä tutkimuksestaan.

Kuka olet?

Olen puheen- ja kielenkäsittelyn professori ja puheentunnistuksen tutkimusryhmän johtaja Aalto-yliopiston signaalinkäsittelyn ja akustiikan laitoksella.

Mikä on tutkimuksesi aihe?

Kehitin 25 vuotta sitten väitöskirjatutkimuksessani neuroverkkoalgoritmeja, joilla opetin automaattista puheentunnistusta tarkemmaksi ja robustimmaksi. Äänteiden tilastollisten mallien opettamiseen tarvitaan suuria puheaineistoja, joissa äänteet on etukäteen kohdistettu tekstiin. Sellaisia oli kuitenkin tuohon aikaan saatavilla hyvin vähän. Niinpä tutkimusryhmämme joutui käytännössä keräämään ja käsittelemään aineistot itse. Työmme helpottui, kun saimme kehitettyä automaattisia menetelmiä puheen ja tekstin kohdistamiseen keskenään, jolloin suomen puheentunnistimen opettamisessa päästiin hyödyntämään äänikirjoja sekä radio- ja televisiouutisia (esim. FBC – Suomalainen radio- ja tv-korpus).

Pelkällä yksittäisten äänteiden mallintamisella ei kuitenkaan päästä riittävään tarkkuuteen, koska puheessa äänteet eivät erotu selvästi eivätkä aina samanlaisina vaan mukautuvat sana- ja lauseyhteyteen. Siksi puheentunnistimelle opetetaan myös malli käytetystä kielestä. Kielimallin avulla tunnistin päättelee, mitä sanoja ja lauseita puheen sisältämät äänneyhdistelmät todennäköisesti edustavat. Kielimallin opettamista varten tarvitaan valtava määrä tekstejä, joissa kieltä käytetään mahdollisimman monipuolisesti. Suomenkielisen puheentunnistimen opettamiseen on käytetty esimerkiksi Kielipankissa olevaa Suomen kielen tekstikokoelmaa (FTC).

Kun ääneen lukemisen ja sanelupuheen muuntaminen tekstiksi onnistuu tarpeeksi hyvin, tätä teknologiaa voidaan tavallisen tekstin sanelun lisäksi käyttää monissa hyödyllisissä sovelluksissa, esimerkiksi valmisteltujen puheiden litteroinnissa ja esitysten ja televisio-ohjelmien sanelutekstityksessä. Vielä enemmän minua kiinnostaa kuitenkin luonnollinen ja spontaani puhe, jota me kaikki käytämme arkipäiväisissä keskusteluissa ja kertomuksissa. Koska vapaa puhe on ihmiselle tehokkain viestintätapa, sitä ymmärtävä puheentunnistus on avainasemassa myös silloin, kun kehitetään ihmisen kanssa kommunikoivaa tekoälyä.

Keskustelupuheen mallien opettamisen vaikeutena on yhtäältä puheen valtava variaatio ja toisaalta se, että tarkasti litteroituja luonnollisen puheen aineistoja on heikosti saatavilla puheentunnistuksen opettamista varten. Koska kirjoitettu kieli poikkeaa monin tavoin puhutusta kielestä, on kielimallien opettamiseen tarvittavat tekstiaineistotkin käytännössä tuotettava litteroimalla ne ensin puheesta.

Miten Kielipankki liittyy tutkimukseesi?

Ensimmäisen keskustelupuheen puheentunnistimen opettamiseen käytimme itse keräämämme DSPCON-aineiston lisäksi FinDialogue-korpusta. Kielimallit opetettiin suodattamalla em. aineistojen perusteella puhutun kielen kaltaisia osia tekstimuotoisista keskusteluista.

Parhaillaan valmistelemme julkaistaviksi kahta uutta vapaan puheen korpusta, Eduskunnan täysistuntokeskustelujen laajennusta ja Lahjoita Puhetta -kampanjassa kerättyä aineistoa. Kummassakin on puhetta noin 4000 tuntia – siis merkittävästi enemmän kuin kaikissa aiemmin julkaistuissa suomenkielisissä puheentunnistuksen opettamiseen soveltuvissa puhekorpuksissa yhteensä. Uskon, että uusien aineistojen avulla voimme merkittävästi parantaa myös Aallon puheentunnistinta (Aalto-ASR), jonka uusin versio (Aalto-ASR 2.1) on tällä hetkellä käytettävissä Kielipankin kautta.

Kielipankkiin liittyviä julkaisuja

Mikko Kurimo (1997). Using Self-Organizing Maps and Learning Vector Quantization for Mixture Density Hidden Markov Models. PhD thesis, Helsinki University of Technology, Espoo, Finland.

Mikko Kurimo, Vesa Siivola, Teemu Hirsimäki, Janne Pylkkönen, Reima Karhila, Peter Smit, Seppo Enarvi, André Mansikkaniemi, Matti Varjokallio, Ulpu Remes, Heikki Kallasjoki, Sami Keronen, Katri Leino, Ville T. Turunen & Kalle Palomäki (tekijän nimet eivät ole missään erityisessä järjestyksessä, paitsi projektin johtaja mainitaan ensimmäisenä). 2000 –2016. AaltoASR – rajoittamattoman sanaston jatkuvan puheen automaattinen tunnistin avoimella lähdekoodilla, Aalto-yliopisto.

Seppo Enarvi & Mikko Kurimo (2013). Studies on Training Text Selection for Conversational Finnish Language Modeling. In Proceedings of the 10th International Workshop on Spoken Language Translation (IWSLT), Heidelberg, Germany, s. 256–263. Saatavilla: http://urn.fi/URN:NBN:fi:aalto-201708036342.

André Mansikkaniemi, Peter Smit & Mikko Kurimo (2017). Automatic Construction of the Finnish Parliament Speech Corpus. Proceedings of Interspeech 2017, Vol. 8, s. 3762–3766. Saatavilla: https://doi.org/10.21437/Interspeech.2017-1115

Juho Leinonen, Sami Virpioja & Mikko Kurimo (2021). Grapheme-Based Cross-Language Forced Alignment: Results with Uralic Languages. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). Linköping University Electronic Press. Saatavilla: http://hdl.handle.net/10138/330758

Peter Smit, Sami Virpioja & Mikko Kurimo (2021). Advances in subword-based HMM-DNN speech recognition across languages. Computer Speech & Language,Vol. 66. Saatavilla: https://doi.org/10.1016/j.csl.2020.101158

 

Lisätietoa Kielipankissa olevista kielivaroista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Veronika Laippala

Veronika Laippala
Kuva: Matti Honka-Hallila

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Veronika Laippala kertoo suuriin kieliaineistoihin ja laskennallisiin menetelmiin liittyvästä tutkimuksestaan.

Kuka olet?

Olen Veronika Laippala ja toimin digitaalisen kielentutkimuksen professorina Turun yliopiston kieli- ja käännöstieteiden laitoksella ja TurkuNLP-tutkimusryhmässä.

Mikä on tutkimuksesi aihe?

Suurin osa tutkimuksestani liittyy tavalla tai toisella kielenkäyttöön: suuriin, useimmiten internetistä koostettuihin aineistoihin ja laskennallisiin menetelmiin. Lisäksi olen ollut mukana kehittämässä suomenkielistä kieliteknologiaa, kuten Turku Dependency Treebank -puupankkia ja Turku NER -nimientunnistusjärjestelmää.

Tällä hetkellä meillä on käynnissä useita hankkeita, joissa työstetään internetpohjaisia kieliaineistoja tarkastelemalla niissä käytettäviä tekstilajeja ja kehittämällä koneoppimismenetelmiä, jotka tunnistavat tekstilajeja automaattisesti. Tällaisista menetelmistä ja välineistä hyötyisivät sekä internetin käyttäjät ylipäätään että internetpohjaisia kieliaineistoja käyttävät tutkijat.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankin laaja aineistovalikoima antaa mahdollisuuksia vaikka mihin! Eniten olen luultavasti käyttänyt Suomi 24-aineistoa, joka on laajuudessaan ainutlaatuinen. Lisäksi puupankkimme pohjalta kehitettyä syntaksijäsennintä käytetään Kielipankin aineistojen jäsentämiseen. Ja tietysti opetan kursseillani Korp-käyttöliittymän käyttöä.

Kielipankkiin liittyviä julkaisuja

Liina Repo, Valtteri Skantsi, Samuel Rönnqvist, Saara Hellström, Miika Oinonen, Anna Salmela, Douglas Biber, Jesse Egbert, Sampo Pyysalo & Veronika Laippala (2021). Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight Monolingual Classification of Registers. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop, pp. 183–191. Saatavilla: https://aclanthology.org/2021.eacl-srw.24.

Veronika Laippala, Jesse Egbert, Douglas Biber & Aki-Juhani Kyröläinen (2021). Exploring the role of lexis and grammar for the stable identification of register in an unrestricted corpus of web documents. Language Resources and Evaluation, Vol. 55, pp. 757–788. DOI: 10.1007/s10579-020-09519-z.

 

Lisätietoa Kielipankissa olevista kielivaroista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Juho Leinonen

Juho Leinonen
Kuva: Petteri Haapaniemi

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Juho Leinonen kertoo puheen automaattiseen tunnistamiseen ja kohdistamiseen sekä chattibotteihin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Juho Leinonen ja opiskelen tekniikan tohtoriksi Mikko Kurimon johtamassa puheentunnistusryhmässä Aalto-yliopistossa. Aloitin jatko-opintoni vuonna 2017 työskenneltyäni sitä ennen pari vuotta teollisuuden palveluksessa.

Mikä on tutkimuksesi aihe?

Diplomityöni aiheena oli saamenkielinen puheentunnistus, josta saatua kokemusta pystyn soveltamaan myös jatko-opinnoissa. Nykyisessä chattibotteja ja puheen kohdistamista koskevassa työssäni tarvitaan kielimalleja ja akustisia malleja, joita käytetään myös automaattisessa puheentunnistuksessa. Siinä missä kielimallit auttavat puheentunnistinta tunnistamaan epäselvästi lausuttuja sanoja, tutkimani chattibotit tuottavat kielimallien avulla uutta tekstiä. Kielimalleja voidaan käyttää myös esimerkiksi chattibotin tuottaman tekstin laadun arvioimiseen. Näin syntyy kehä: Jotta tekstin laadun arviointi toimisi luotettavasti, pitäisi ensin ymmärtää, mitä laadukas teksti on, mutta samaa ymmärrystä tarvittaisiin toisaalta myös tekstin tuottamiseen chattibotilla. Ongelma onkin oikeastaan sekä insinööritieteellinen että filosofinen.

Perinteisessä puheentunnistuksessa kohteena olevalle ääninäytteelle pyritään etsimään teksti, joka vastaa näytettä mahdollisimman hyvin. Kun puheentunnistinta kehitetään, tarvitaan ns. akustisia malleja varten kuitenkin ensin koulutusdataa, jossa teksti on kohdistettu puheeseen. Tekstin ja puheen kohdistaminen onkin puheentunnistuksessa rutiinia. Kohdistaminen olisi kuitenkin tarpeellista myös muiden alojen tutkijoille, eivätkä kaikki voi ryhtyä puheentunnistuksen ammattilaisiksi ennen kuin pääsevät alkuun omassa tutkimuksessaan. Kuluneen vuoden aikana olen paketoinut ryhmämme käyttämiä tunnistus- ja kohdistustyökaluja kokonaisuudeksi, joka olisi mahdollisimman helposti jaettavissa. Koetan myös etsiä hyviä mittareita, joiden avulla puheen ja tekstin kohdistuksen laatua voitaisiin arvioida. Tavoitteenani on selvittää, mitkä akustiset mallit tai piirteet tuottavat parhaan kohdistuksen ja millaisissa tilanteissa valtakielille tehtyjä malleja voisi tai kannattaisi käyttää myös muiden, harvinaisempien kielten kohdistamiseen. Tämä tutkimus on myös avannut minulle kielitieteilijöiden maailmaa, kun yritän tehdä työkalusta heillekin mahdollisimman hyödyllisen.

Miten Kielipankki liittyy tutkimukseesi?

Hetken päähänpistosta tulin kokeilleeksi suomenkieliselle puheelle kehitettyä puheentunnistintamme saamenkielisen Giellagas-aineiston (Pohjoissaamen näytekorpus) kohdistamiseen, jolloin syntyi viimeisimmässä julkaisussani (Leinonen, Virpioja & Kurimo, 2021) kuvattu idea kielten välisestä kohdistuksesta. Yhdelle kielelle kehitettyä kohdistustyökalua voi siis mahdollisesti käyttää myös muiden kielten puheen ja tekstin kohdistamiseen, jos kielten äänne- ja kirjoitusjärjestelmät ovat riittävän samankaltaisia. Pyrin jatkossa hyödyntämään muitakin Kielipankissa olevia puheaineistoja, joissa on mukana puheeseen kohdistetut tekstit. Tutkimuksessa käyttämäni kohdistin on nykyään myös muiden tutkijoiden käytettävissä osana Aalto-yliopiston automaattista puheentunnistinta (Aalto-ASR v.2), joka on valmiiksi asennettu CSC:n Puhti-laskentaympäristöön.

Chattibottien opettamiseen käytän myös Kielipankin Suomi24-aineistoa. Voi tuntua nurinkuriselta, että tällaista kieltä käytetään ”opetustarkoituksessa”. Kielimalleja varten tarvitaan kuitenkin valtavasti tekstiä ja sopivaa aineistoa on vaikea löytää tarpeeksi suurta määrää.

Kielipankkiin liittyviä julkaisuja

Leinonen, J., Smit, P., Virpioja, S., & Kurimo, M. (2017). New baseline in automatic speech recognition for Northern Sámi. In International Workshop on Computational Linguistics for the Uralic Languages (pp. 89-99). https://doi.org/10.18653/v1/W18-0208

Leino, K., Leinonen, J., Singh, M., Virpioja, S., & Kurimo, M. (2020). FinChat: Corpus and evaluation setup for Finnish chat conversations on everyday topics. In Interspeech (pp. 429-433). International Speech Communication Association. https://doi.org/10.21437/Interspeech.2020-2511

Leinonen, J., Virpioja, S., & Kurimo, M. (2021, May). Grapheme-Based Cross-Language Forced Alignment: Results with Uralic Languages. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). Linköping University Electronic Press. http://hdl.handle.net/10138/330758

 

Lisätietoa Kielipankissa olevista kielivaroista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Okko Räsänen

Okko Räsänen
Kuva: Jonne Renvall/Tampereen yliopisto

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Okko Räsänen kertoo lapsen puheenkehityksen laskennalliseen mallintamiseen liittyvistä tutkimuksistaan.

Kuka olet?

Olen Okko Räsänen, tenure track –professori ja akatemiatutkija Tampereen yliopistossa tietotekniikan yksikössä, jossa johdan Puheen ja kognition tutkimusryhmää. Ennen siirtymistäni Tampereelle työskentelin pitkään Aalto-yliopiston signaalinkäsittelyn ja akustiikan laitoksella, jossa toimin edelleen puheenkäsittelyn dosenttina.

Mikä on tutkimuksesi aihe?

Tutkimukseni päälinja keskittyy lapsen varhaisen kielenoppimisen laskennalliseen mallinnukseen sekä lapsen kuuleman puheen tutkimukseen. Tavoitteena on ymmärtää kielenoppimisen taustalla olevia informaationkäsittelyn periaatteita: mitä kaikkea puhesignaalille täytyy tapahtua ihmisen aivoissa tai miten sitä olisi käsiteltävä tekoälyjärjestelmissä, jotta puheen sisältöä voidaan oppia ymmärtämään? Tutkimme esimerkiksi sitä, minkälaisia kielen rakenteita puheesta ja muusta lapsille tarjolla olevasta aisti-informaatiosta on omaksuttavissa kieliriippumattomalla tavalla, ja toisaalta sitä, mitä oppimismekanismeja ja ennakko-oletuksia malleihin on sisällytettävä, jotta oppiminen voi onnistua. Taustalla on myös kysymys siitä, millaista kielisyötettä ja muuta moniaistista informaatiota lapset ylipäätään kuulevat ja havaitsevat varhaisen kielenkehityksensä aikana, ja missä määrin puheen määrä, laatu ja moniaistisuus tukevat kielen rakenteiden (esim. äänteiden ja sanojen) omaksumista.

Jotta voisimme paremmin ymmärtää lasten kuuleman puheen ominaisuuksia, olemme laskennallisten mallien lisäksi kehittäneet myös käytännön analyysityökaluja suurten lapsikeskeisten ääniaineistojen automaattiseen analyysiin. Kyseiset aineistot koostuvat tyypillisesti päivän mittaisista nauhoituksista, jotka on tallennettu päälle puettavia mikrofoneja käyttäen lasten luonnollisissa ääni- ja kieliympäristöissä. Esimerkiksi äskettäin päättyneessä kansainvälisessä yhteistyöhankkeessa Analyzing Child Language Experiences around the World analysoimme noin 14 000 tunnin edestä lapsikeskeisiä ääniaineistoja, joiden avulla kartoitimme lasten varhaisia kielikokemuksia erilaisissa kieli- ja kulttuuriympäristöissä. Seuraavana tavoitteenamme on jatkojalostaa nämä analyysit julkaisuiksi asti.

Kielenoppimisen laskennallinen tutkimus on monitieteistä ja kiinnostavaa mutta toisaalta haastavaakin työtä. Puhesignaalien kanssa toimiminen ja ihmisen oppimisprosessien mallintaminen vaatii signaalinkäsittelyn ja koneoppimisen menetelmien syvällistä hallintaa. Samalla täytyy kuitenkin ymmärtää fonetiikkaa, varhaista kielenkehitystä ja ihmisen kognition toimintaa, jotta mallit ja menetelmät voidaan sovittaa yhteen kielenkehityksen tutkimuksen ja empiirisen datan kanssa.

Kielenoppimisen tutkimuksen ohella tutkimusryhmäni kehittää erilaisia puheen analyysimenetelmiä, kuten puhujan terveydentilan ja tunnetilojen arviointia puheen perusteella. Ryhmäni on myös mukana kehittämässä vauvojen älyvaatteita aivojen ja motoriikan kehityksen kliinistä arviointia ja seurantaa varten (osana Suomen akatemian Tieteellä terveyteen -tutkimusohjelmaa). Työskentelen monien muidenkin puheteknologian, kognitiotieteen, ja koneoppimiseen pohjautuvan signaalianalytiikan teemojen parissa, sillä usein puheteknologiassa käytetyt signaalinkäsittelyn ja koneoppimisen menetelmät soveltuvat lähes sellaisinaan hyvin monenlaisen aikasarjadatan käsittelyyn.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt tutkimuksessani Kielipankkiin tulossa olevaa FinDialogue-korpusta ja moni muukin Kielipankin aineisto on minulle ennalta tuttu. Odotan innolla Lahjoita puhetta –kampanjassa kerätyn puheaineiston julkaisua. Mielestäni Kielipankki on myös varteenotettava julkaisukanava mahdollisille uusille aineistoille, joita tutkimuksemme saattaa tulevaisuudessa tuottaa.

Kielipankkiin liittyviä julkaisuja

Khorrami, K. & Räsänen, O. (2021). Can phones, syllables, and words emerge as side-products of cross-situational audiovisual learning? – A computational investigation. Language Development Research, https://doi.org/10.34842/w3vw-s845

Räsänen, O., Seshadri, S., Lavechin, M., Cristia, A., & Casillas, M. (2021). ALICE: An open-source tool for automatic measurement of phoneme, syllable, and word counts from child-centered daylong recordings. Behavior Research Methods, 53,  818–835, https://doi.org/10.3758/s13428-020-01460-x.

Räsänen, O., Doyle, G., & Frank, M. C. (2018). Pre-linguistic segmentation of speech into syllable-like units. Cognition, 171, 130–150, https://doi.org/10.1016/j.cognition.2017.11.003.

Kakouros, S., Salminen, N. & Räsänen, O. (2018). Making predictable unpredictable with style — Behavioral and electrophysiological evidence for the critical role of prosodic expectations in the perception of prominence in speech. Neuropsychologia, 109, 181–199, https://doi.org/10.1016/j.neuropsychologia.2017.12.011.

Räsänen, O., Kakouros, S. & Soderstrom, M. (2018). Is infant-directed speech interesting because it is surprising? — Linking properties of IDS to statistical learning and attention at the prosodic level. Cognition, 178, 193–206, https://doi.org/10.1016/j.cognition.2018.05.015.

Rasilo H. & Räsänen O. (2017). An online model of vowel imitation learning. Speech Communication, 86, 1–23, https://doi.org/10.1016/j.specom.2016.10.010.

Räsänen, O. & Rasilo, H. (2015). A joint model of word segmentation and meaning acquisition through cross-situational learning. Psychological Review, 122(4), 792–829, https://doi.org/10.1037/a0039702.

 

Lisätietoa aineistoista Kielipankissa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Hae Kielipankki-portaalista:
Noora Hoffrén
Kuukauden tutkija: Noora Hoffrén

 

Tulevat tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot