Kuukauden tutkija: Pekka Posio

In English

Pekka Posio
Kuva: Maarit Kytöharju

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Pekka Posio kertoo meille johtamastaan tutkimushankkeesta, jossa tutkitaan sukupuolen ja kielen välistä yhteyttä espanjankielisessä maailmassa. Hankkeen aikana koostettu laaja CoLaGe-aineisto tulee saataville Kielipankin kautta.

Kuka olet?

Olen Pekka Posio, iberoromaanisten kielten professori Helsingin yliopiston humanistisessa tiedekunnassa. Työskentelen erityisesti espanjan ja portugalin parissa ja tutkin sosiolingvistiikkaa, pragmatiikkaa ja kielen muutosta ja vaihtelua. Tällä hetkellä toimin portugalin, galegon ja baskin kielten tieteenalavastaavana.

Opiskelin Helsingin yliopistossa romaanisia kieliä ja yleistä kielitiedettä, josta väittelin tohtoriksi 2012. Väitöskirjassani käsittelin subjektipronominien ilmaisemista espanjassa ja portugalissa. Post doc -vaiheessa työskentelin Salamancassa, Berliinissä, Kölnissä ja Gentissä ja tutkin espanjan ja portugalin impersonaalirakenteita. Lisäksi työskentelin kolme vuotta Tukholman yliopistossa espanjan yliopistonlehtorina ennen kuin palasin Helsinkiin 2019 apulaisprofessoriksi. Vuonna 2024 minut vakinaistettiin professoriksi.

Mikä on tutkimuksesi aihe?

Tällä hetkellä tutkimukseni keskiössä on kieli ja sukupuoli espanjankielisessä maailmassa ja johdan Koneen säätiön rahoittamaa tutkimushanketta Gender, Society, and Language Use: Evidence from Mexico and Spain (2021–2025). Kieli ja sukupuoli on yksi vakiintuneista tutkimusaloista englanninkielisessä ja englantia käsittelevässä kielitieteessä, mutta espanjan tutkimuksessa aihe on jäänyt vähemmälle huomiolle.

Hankkeessa meitä kiinnostaa erityisesti se, minkälaiset mekanismit linkittävät yhteiskunnan ja sukupuolen kielenkäyttöön, ja onko sukupuolen ja kielen yhteys erilainen eri yhteiskunnissa, joissa käytetään samaa kieltä. Näitä kysymyksiä lähestytään hankkeessa sekä sosiolingvistiikan että sosiaalipsykologian keinoin. Olemme keränneet hankkeen puitteissa laajan aineiston, jossa on sekä puhuttua ja litteroitua kieltä että sosiaalipsykologista tietoa informanteistamme. Näitä aineistoja yhdistelemällä pystymme tutkimaan kielen ja sukupuolen yhteyksiä täysin uudella tavalla ja samalla uudistamaan sukupuolen käsitettä sosiolingvistisenä muuttujana. Perinteisen naisten ja miesten puheen vertailun lisäksi käytämme asteikollisia muuttujia kuten puhujien käsityksiä omasta maskuliinisuudestaan ja feminiinisyydestään sekä sukupuoleen liittyviä asenteita ja käsityksiä.

Tutkimme eri kielenkäytön ilmiöitä – esimerkiksi eri persoonamuotojen ja erilaisten vuorovaikutuskeinojen käytön yleisyyttä puheessa – kahdessa yhteiskunnassa, joissa puhutaan samaa kieltä, mutta jotka eroavat toisistaan sukupuoliroolien ja -normien osalta. Keräsimme tutkimusaineiston Meksikon Guadalajarassa ja Espanjan Valenciassa vuosina 2022–2023. Hankkeessa tuottamamme tutkimustieto auttaa laajentamaan ja monipuolistamaan käsitystä sukupuolesta ja sen ilmenemismuodoista erityisesti tutkimissamme yhteiskunnissa.

Hankkeen post doc -tutkijat ovat Gloria Uclés Ramada, Sven Kachel, Andrea Carcelén Guerrero ja Fien de Latte. Lisäksi hanke on työllistänyt lukuisia opiskelijoita aineiston kerääjinä, litteroijina ja koodaajina Suomessa, Espanjassa, Meksikossa ja Saksassa.

Miten Kielipankki liittyy tutkimukseesi?

Olemme tuottaneet tutkimushankkeessa korpuksen nimeltä Corpus for the Study of Language and Gender in Mexico and Spain (CoLaGe), joka sisältää 111 tuntia ja yli miljoona sanaa äänitettyä ja litteroitua puhetta 127 informantilta. Aineisto jakautuu Valencian (CoLaGe-V) ja Guadalajaran (CoLaGe-G) alakorpukseen sekä Guadalajarassa kerättyyn pienempään CoLaGe-D(iversity) -aineistoon, jonka informantit edustavat sukupuoli- ja/tai seksuaalivähemmistöjä. Olemme pyrkineet aineiston keräämisessä mahdollisimman vertailukelpoisiin aineistoihin, joissa on puhujia kahdesta ikäryhmästä (30–40 ja 60–70) ja kahdesta maasta. Aineisto käsittää sosiolingvistisiä haastatteluita, konfliktitilanteita simuloivia roolipelejä ja foneettista tutkimusta varten elisitoitua aineistoa, jossa informantit kertovat näkemistään kuvista.

Aineiston keräämisessä johtoajatuksena on vertailtavuuden lisäksi ollut myös se, että koko laajan aineiston pitää olla myös muiden tutkijoiden käytettävissä, minkä vuoksi esimerkiksi pseudonymisointiin on kiinnitetty paljon huomiota. Suurin osa aineistosta on myös äänitetty studiolaitteistolla, joka mahdollistaa sen käytön myös foneettiseen analyysiin. Kielipankki on ollut alusta lähtien luonteva sijoituspaikka CoLaGe-korpukselle. Hankkeen sosiaalipsykologinen aineisto on myös tulossa tutkijoiden käyttöön Tietoarkistoon.

Valikoituja julkaisuja hankkeesta

Carcelen Guerrero, A., Posio, P., Kachel, S. & Uclés Ramada, G. (Accepted 2025). CoLaGe: Corpus for the study of language and gender in two varieties of Spanish. Corpora. https://researchportal.helsinki.fi/files/328418218/CoLaGe-accepted.pdf

Uclés Ramada, G., Kachel, S. & Posio, P., 2025. Conflict, gender, and amount of talk: Gender differences in Spanish role play data. Pragmatics and Society. DOI: 10.1075/ps.23144.ucl

Posio, P., Kachel, S., & Uclés Ramada, G. 2024. Morphosyntactic stereotypes of speakers with different genders and sexual orientations: an experimental investigation. Linguistics. DOI: 10.1515/ling-2022-0143

Pekka Posion muut julkaisut: https://researchportal.helsinki.fi/en/persons/pekka-posio

Aineisto

Corpus for the Study of Language and Gender in Mexico and Spain (CoLaGe)

 
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Simo Määttä

In English

Simo Määttä
Kuva: Veikko Somerpuro

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Simo Määttä kertoo meille kääntämiseen, tulkkaukseen ja kriittiseen sosiolingvistiikkaan liittyvästä tutkimuksestaan.

Kuka olet?

Olen Simo Määttä, käännöstieteen apulaisprofessori Helsingin yliopiston humanistisessa tiedekunnassa. Olen käännöstieteen tutkimusyhteisön TRASTin johtaja, käännöstieteen tieteenalavastaava ja ranskan kielen dosentti. Opetan Helsingin yliopistossa kääntämisen ja tulkkauksen maisteriohjelmassa. Olen oikeustulkkirekisterilautakunnan puheenjohtaja.

Väittelin Kalifornian yliopistossa Berkeleyssä vuonna 2004 ja olen sen jälkeen työskennellyt useissa yliopistoissa Suomessa, vuodesta 2014 alkaen Helsingin yliopistossa.

Mikä on tutkimuksesi aihe?

Tutkimukseni taustalla on kääntämisen sosiologia, kriittinen sosiolingvistiikka ja kriittinen diskurssintutkimus. Minua kiinnostaa se, kuinka kielenkäyttöä ja muuta vuorovaikutusta representoidaan ja millaisia merkityksiä annetaan kielelliselle vuorovaikutukselle – erityisesti monikieliselle viestinnälle ja kielelliselle variaatiolle.

Yksi tärkeä tutkimusaiheeni on asioimis- ja oikeustulkkaus. Tarkastelen asioimis- ja oikeustulkkauksessa kieli-ideologioita, tulkkauksen tarkkuutta, multimodaalisuutta, tulkkaustilanteen osanottajien toimijuutta, empatian ilmaisemista ja kielellisten oikeuksien toteutumista. Erityisesti olen tutkinut lingua franca -tulkkausta, jossa sekä tulkki että vieraskielinen asiakas kommunikoivat kielellä, joka ei ole heidän vahvin kielensä. Ilmiö on tavallinen esimerkiksi silloin, kun turvapaikanhakija, maahanmuuttaja tai rikoksesta epäilty tai rikoksen uhriksi joutunut ulkomaalainen kommunikoi tulkin kanssa ranskaksi tai englanniksi.

Johdan Koneen Säätiön rahoittamaa hanketta Kääntäminen, maahanmuutto ja demokratia (2022‒2025), jossa analysoimme tutkimusryhmän kanssa käännöspolitiikkaa ja kääntämiskäytänteitä maahanmuuttajaväestölle suunnatussa monikielisessä viestinnässä. Tutkimus kohdistuu pääkaupunkiseudulla (Helsinki, Espoo ja Vantaa) ja Tallinnassa toimiviin organisaatioihin (mm. kunnat, järjestöt, yritykset, korkeakoulut, media). Projektissa yhdistetään funktionalistisen ja sosiologisen käännöstutkimuksen sekä kriittisen kielentutkimuksen teorioita ja menetelmiä.

Hankkeen taustalla on ajatus, että monikielisyys on demokratialle paitsi mahdollisuus, myös haaste: kielimuuri estää maahanmuuttajia osallistumasta yhteiskunnalliseen, kulttuuriseen ja poliittiseen elämään ja toimimasta paikallisyhteisön ja yhteiskunnan täysvertaisina jäseninä. Kääntämisen avulla pyritään edistämään maahanmuuttajien tiedonsaantia ja osallisuutta, mutta tieto ei tavoita kaikkia maahanmuuttajia. Kääntämistä lähestytään projektissa yhtenä hallinnan käytänteenä, jonka avulla käytetään ja tuotetaan valtaa. Yhtenä tavoitteena on ehdottaa uusia ratkaisuja yhdessä eri toimijoiden kanssa käännöspolitiikan ja kääntämiskäytänteiden laadun parantamiseksi.

Olen myös mukana EU:n Horizon-ohjelman rahoittamassa projektissa ARENAS (Analysis of and Responses to Extremist Narratives), jota koordinoi professori Julien Longhi (Cergy Paris Université). ARENAS-projektissa kansainvälinen, monitieteellinen konsortiomme analysoi Euroopan poliittiseen ja yhteiskunnalliseen elämään vaikuttavia ja niitä uhkaavia ekstremistisiä eli äärinarratiiveja. Tutkimme äärinarratiivien luonnetta ja pyrimme ymmärtämään erityisesti tiedettä, sukupuolta ja kansakuntaa koskevia ekstremistisiä narratiiveja. Tavoitteena on narratiivien toimintaa ymmärtämällä löytää keinoja äärinarratiivien vastustamiseen ja siten edistää Euroopan sopusointuista kehitystä.

Olen ARENAS-projektissa mukana ekstremististen narratiivien leviämistä (engl. circulation of extremist narratives) tutkivassa osaprojektissa (work package), jota koordinoi historioitsija Steven Forti Barcelonan autonomisesta yliopistosta. ARENAS-projektin Helsingin tiimiä johtaa Jean Monet -professori, poliittisen historian dosentti Katalin Miklóssy. Minun vastuullani on ”tehtävä” (task), jossa tehdään kvalitatiivista tutkimusta siitä, kuinka ekstremistiset narratiivit leviävät poliittisen diskurssin, perinteisen median ja uusien medioiden välillä. Tutkimuksen kvalitatiivisesti tarkasteltava aineisto valikoituu osaprojektin aiemmissa vaiheissa tuotetun ja analysoidun kvantitatiivisen aineiston perusteella.

Tutkin myös diskurssin, ideologian (erityisesti kieli-ideologian) ja performatiivisuuden teoriaa sekä vihapuhetta. Aiemmassa tutkimuksessani olen käsitellyt muun muassa sosiolingvistisen variaation kääntämistä kirjallisuudessa sekä alueellisia ja vähemmistökieliä koskevaa kielipolitiikkaa.

Miten Kielipankki liittyy tutkimukseesi?

ARENAS-projektin osassa, joka on minun vastuullani, olemme hyödyntäneet Kielipankissa saatavilla olevia Suomen eduskunnassa pidettyjen puheiden aineistoa, erityisesti täysistuntojen osalta. Näiden aineistojen avulla olemme voineet tarkasti selvittää, kuinka perinteisessä ja uusissa medioissa keskustelunaiheeksi nousevat teemat vastaavat eduskunnassa käytävää poliittista keskustelua. Lisäksi tutkimuksessa on hyödynnetty ParlaMint-korpuksia ja projektia varten koottuja korpuksia, jotka koostuvat poliitikkojen sosiaalisen median viestinnästä eri maissa.

Kielipankin Suomi24-korpusta käytimme Yrjö Laurannon kanssa tehdyssä tutkimuksessa, jossa tarkastelimme sitä, kuinka nettikeskustelijat esittävät eriäviä ja myötämielisiä mielipiteitä sukupuoli- ja seksuaalivähemmistöistä. Lisäksi hyödynsimme Suomi24-aineistoja Ulla Tuomarlan ja Karita Suomalaisen kanssa kirjoitetuissa suomenkielisessä ja englanninkielisessä artikkeleissa, joissa analysoitiin maahanmuuttoon liittyviä keskusteluja.

Valikoituja julkaisuja

Määttä, S. & Kinnunen, T. 2024. The Interplay between Linguistic and Non-verbal Communication in an Interpreter-mediated Main Hearing of a Victim’s Testimony. Multilingua: Journal of Cross-Cultural and Interlanguage Communication 43(3), 299–330. DOI: 10.1515/multi-2023-0153

Määttä, S., Kinnunen, T., Kuusi, P. & Probirskaja, S. 2024. Kohderyhmätietous monikielisen kriisiviestinnän asiantuntijatyössä koronapandemian aikana. Työelämän tutkimus 22(4), 555–587. https://journal.fi/tyoelamantutkimus/article/view/142675

Määttä, S. 2023. Linguistic and Discursive Properties of Hate Speech and Speech Facilitating the Expression of Hatred: Evidence from Finnish and French Online Discussion Boards. Internet Pragmatics 6(2), 156–172. DOI: 10.1075/ip.00094.maa

Määttä, S. & Wiklund, M. 2023. Resolving Comprehension Problems in a Telephone-interpreted Screening Interview. Teoksessa: E. de Boe, J. Vranjes & H. Salaets (toim.) Interactional Dynamics in Remote Interpreting: Micro-analytical Approaches. New York: Routledge, 42–65. https://www.routledge.com/Interactional-Dynamics-in-Remote-Interpreting-Micro-analytical-Approaches/Boe-Vranjes-Salaets/p/book/9781032213286

Määttä, S. & Hall, M. 2022. Ideology and Discourse: Convergent and Divergent Developments. Teoksessa: S. Määttä & M. Hall (toim.) Mapping Ideology in Discourse Studies. Boston & Berlin: De Gruyter Mouton, 1–20. DOI: 10.1515/9781501513602-001

Määttä, S. & Lauranto, Y. 2022. Eriävän ja myötämielisen mielipiteen esittäminen sukupuoli- ja seksuaalivähemmistöjä koskevissa Suomi24-keskusteluissa. Virittäjä 126(2), 205–230. https://journal.fi/virittaja/article/view/100240

Määttä, S., Puumala, E. & Ylikomi, R. 2021. Linguistic, Psychological, and Epistemic Vulnerability in Asylum Procedures: An Interdisciplinary Approach. Discourse Studies 23(1), 46–66. DOI: 10.1177/1461445620942909

Määttä, S., Suomalainen, K. & Tuomarla, U. 2021. Everyday Discourse as a Space of Citizenship: The Linguistic Construction of In-groups and Out-groups in Online Discussion Boards. Citizenship Studies 25(6), 773–790. DOI: 10.1080/13621025.2021.1968715

Vernet, S. & Määttä, S. 2021. Modalités syntaxiques et argumentatives du discours homophobe en ligne : chroniques de la haine ordinaire. Mots – Les langages du politique 125, 35–51. https://journals.openedition.org/mots/27943

Määttä, S., Suomalainen, K. & Tuomarla, U. 2020. Maahanmuuttovastaisen ideologian ja ryhmäidentiteetin rakentuminen Suomi24-keskustelussa. Virittäjä 124(2), 190–216. https://journal.fi/virittaja/article/view/81931

Aineistoja

Lisätietoa

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Marko Jouste

Marko Jouste
Kuva: Sigga-Marja Magga

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Marko Jouste kertoo meille saamelaiseen kulttuuriin liittyvästä tutkimuksestaan ja työstään Giellagas-instituutin puhuttujen saamen kielten korpuksen parissa.

Kuka olet?

Olen Marko Jouste, yliopistonlehtori ja saamelaisen kulttuurin dosentti Oulun yliopiston Giellagas-instituutista, jossa olen työskennellyt 2010-luvun alusta saakka. Tutkimukseni liittyy saamelaiseen kulttuuriin, musiikkiin ja historiaan. Lisäksi toimin Giellagas-instituutin Saamelaisen kulttuuriarkiston kehittäjänä. Akateemisen työn ohella teen töitä muusikkona muun muassa musiikkiyhtyeissä Ulla Pirttijärvi & Ulda ja Suõmmkar.

Mikä on tutkimuksesi aihe?

Pääasiallinen tutkimuskohteeni on saamelainen musiikki, kulttuuri ja historia. Kiinnostukseni liittyy erityisesti historiallisiin ääniteaineistoihin. Tällä hetkellä johtamiani aktiivisia tutkimusprojekteja ovat Pohjoissaamelainen satukirja 1956 – Historiallisen arkistoaineiston palauttaminen yhteisölle ja avoimen käytön eettisten ja oikeudellisten käytäntöjen kehittäminen (Koneen säätiö), Skolt Saami Dance: The Transformative Journey of Tradition, Resilience, and the Arctic Quadrille yhdessä tanssitutkija Petri Hopun kanssa (Jenny ja Antti Wihurin säätiö) sekä Jaakko Sverloffin elämänkaari – Petsamon Suonikylästä maailmansotien kautta kolttasaamelaisten johtajaksi (Jenny ja Antti Wihurin säätiö).

Saamelaisiin kieliaineistoihin liittyi myös vuosina 2016–2018 toiminnassa ollut Suomen Akatemian kärkihanke Kolttasaamelainen muistipankki – Pilottihanke arkistoissa olevien kolttasaamelaisten musiikki-, kieli- ja kulttuuriaineistojen hallinnasta ja kulttuurirevitalisaatiosta. Näillä hankkeilla pyrin tukemaan yhteisön osallisuutta, edistämään eettisiä käytäntöjä arkistotyössä, ja edistämään saamelaisen kulttuuriperinnön elvyttämistä ja säilyttämistä.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki liittyy työhöni pääasiallisesti arkistotyön kautta. Saamelaisella kulttuuriarkistolla on ollut jo 2010-luvulta saakka yhteistyötä Kielipankin kanssa saamen kieliaineistoihin liittyen ja niiden hyödyntämiseen sekä tieteellisessä tutkimuksessa että kieliyhteisöissä. Giellagas-instituutin puhuttujen saamen kielten korpus sisältää tällä hetkellä erityisesti kolmea Suomessa puhuttavaa saamea, pohjois-, inarin ja koltansaamea. Ensimmäinen Kielipankkiin liitetty osakorpus oli Pohjoissaamen näytekorpus ja keväällä 2025 tätä täydennetään inarinsaamen puhutun kielen korpuksella.

FIN-CLARIN-konsortio on myös rahoittanut Saamelaisessa kulttuuriarkistossa tehtävää korpustyötä vuosina 2014, 2019 ja 2022. Tämä yhteistyö parantaa merkittävästi saamenkielisen aineiston saatavuutta, säilyttämistä ja käytettävyyttä. Luonnollisesti käytän myös Korp-palvelua erityisesti liittyen omaan tutkimukseeni.

Julkaisuja

Petri Hoppu & Marko Jouste (2025). Skolt Saami Dance: The Transformative Journey of Tradition, Resilience, and the Arctic Quadrille. London: Bloomsbury. [Painossa]

Jouste, Marko (2022) ”Skolt Saami Leuʹdd. Tradition as a medium of individual and collective remembrance”. The Sámi World. Edited by Sanna Valkonen, Áile Aikio, Saara Alakorva and Sigga-Marja Magga. London: Routledge, pp. 53–71.

Jouste, Marko & Mettovaara, Jukka & Morottaja, Petter & Partanen, Niko (2022). Archive Infrastructure and Spoken Language Corpora for Saami Languages in Finland. The 6th Digital Humanities in the Nordic and Baltic Countries 2022 Conference (DHNB 2022), Uppsala, Sweden, March 15-18, 2022. CEUR Workshop Proceedings. Aachen: RWTH Aachen University, pp. 269–278. https://ceur-ws.org/Vol-3232/paper25.pdf

Jouste, Marko & Lehtola, Veli-Pekka & Juutinen, Markus & Tanhua, Sonja (2022). ”Jääkk Sverloff johtajana ja kulttuuritulkkina – Kolttasaamelaisten historian käänteitä 1900-luvulla”. [Jääkk Sverloff as a Leader and a Cultural Interpreter – Turning points of Skolt Saami history in 20th century]. Suomen rajaseutujen kolonialismi. [Colonialism of Finnish Borderlands]. Toim. Rinna Kullaa, Janne Lahti ja Sami Lakomäki. Helsinki: Gaudeamus.

Jouste, Marko (2020). ”Suonikylän kolttasaamelainen itkuperinne 1900-luvulla”. [The Skolt Saami Lament Tradition of Suonikylä in the 20th Century]. Etnomusikologian vuosikirja Vol 32. Toim. Janne Mäkelä, Kaj Ahlsved, Viliina Silvonen. Helsinki: Suomen etnomusikologinen seura, pp. 10–45. https://doi.org/10.23985/evk.90118

Marko Jouste, Markus Juutinen, Eino Koponen (2020). ”Kolttasaamelaisen Näskk Moshnikoffin leuʹdd-kielen idiolekti ”. [The Idiolect of leuʹdd Language of Skolt Saami Näskk Moshnikoff]. Kulttuurintutkimus Vol 37, 1–2, pp. 32–56. Toim. Janne Saarikivi, Pirjo Kristiina Virtanen. Joensuu: Kulttuurintutkimuksen seura ry. https://journal.fi/kulttuurintutkimus/article/view/98099

Taarna Valtonen, Kati Kallio, Marko Jouste (2019). ”Olaus Sirman runojen vertailevaa luentaa -runojen poetiikka suhteessa suullisiin ja kirjallisiin lähikulttuureihin”. [Comparative Reading of Poems by Olaus Sirma. The Poetics of Poems in Relation to Oral and Literal Cultures Nearby]. Suomalais-Ugrilainen Seuran Aikakauskirja 97. Helsinki: Suomalais-Ugrilainen Seura, pp. 109–152. https://doi.org/10.33340/susa.75266

Marko Jouste, Markus Juutinen, Miika Lehtinen (2019): ”Isak Saba ja Paččjogas 1919:s čohkejuvvon nuortalaš leuʹddat. Isak Saba og de skoltesamiske leuʹddene som ble samlet inn i Paččjokk i 1919”. [Isak Saba and the Skolt Saami Leuʹdds Collected in Paččjogg in 1919]. Optegnelser. Isak Sabas folkeminnesamling. Čállosat. Isak Saba álbmotmuitočoakkáldat, Norsk Folkeminnelags skrifter 173 Oslo: Skandinavian Academic Press, pp. 283–301.

Jouste, Marko (2017). ”Áillohaš ja uuden joiun synty”. [Nils-Aslak Valkeapää and the Birth of the New Yoik]. Minä soin. Mun čuojan: Kirjoituksia Nils-Aslak Valkeapään elämäntyöstä. Toim. Valtonen, Taarna; Valkeapää, Leena. Rovaniemi: Lapland university press, pp. 233–258.

Marko Jouste (2011). Tullâčalmaaš kirdâččij ’tulisilmill lenteli’ – Inarinsaamelainen 1900-luvun alun musiikkikulttuuri paikallisen perinteen ja ympäröivien kulttuurien vuorovaikutuksessa. [The One Who Flew with the Fire eyes – The Musical Culture of the Aanar Sámi People in the Interaction of the Local Tradition and the Neighbouring Cultures]. Acta Universitatis Tamperensis 1650. Tampere: Tampere University Press. https://urn.fi/urn:isbn:978-951-44-8551-0

Aineistoja

Lisätietoa

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Tamás Grósz

Tamás Grósz
Kuva: Szabina Korbai

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tamás Grósz kertoo meille puheteknologiaan liittyvästä tutkimuksestaan.

Kuka olet?

Nimeni on Tamás Grósz, ja työskentelen akatemiatutkijana Aalto-yliopiston informaatio- ja tietoliikennetekniikan laitoksen puheentunnistusryhmässä.

Mikä on tutkimuksesi aihe?

Väitöskirjatyöni aikana keskityin tutkimuksessani puheteknologiaan, erityisesti uusien syväoppimispohjaisten ratkaisujen kehittämiseen automaattista puheentunnistusta (ASR) varten. Vaikka akustinen mallintaminen olikin pääasiallinen kiinnostuksen kohteeni, olin aktiivinen myös muilla alueilla. Minua kiinnosti erityisesti paralingvistiikka, ja työskentelin erilaisten siihen liittyvien tehtävien parissa. Osallistuin säännöllisesti Interspeech ComParE -haasteisiin ja menestyin niissä parhaiten useita kertoja vuosien varrella. Kenties merkittävin järjestelmistämme on se, joka arvioi automaattisesti Parkinsonin tautia sairastavien potilaiden tilaa. Haastekilpailujen lisäksi olin mukana myös hankkeessa, jossa kehitettiin puhepohjaista ratkaisua lievän kognitiivisen heikentymisen varhaiseen havaitsemiseen. Opintojeni viimeisinä vuosina keskityin hiljaisen puheen käyttöliittymiin. Pääsin työskentelemään huipputason prototyyppien parissa ja kehittämään uusia järjestelmiä, jotka pystyivät tuottamaan puhetta ultraäänellä kuvatuista kielenliikevideoista.

Väitökseni jälkeen liityin Mikko Kurimon tutkimusryhmään post doc -tutkijaksi, jossa minulla oli mahdollisuus työskennellä muiden aiheiden, kuten kielen mallintamisen ja tekoälyn selitettävyyden, parissa. Aluksi työstin koneoppimispohjaisia kielimalleja agglutinatiivisille kielille, kuten unkarille ja suomelle. Kun työskentelin erilaisten mallien parissa, huomasin kurssioppimisen (engl. curriculum learning) merkityksen kielimallin koulutuksessa. Tästä eräänlaisen oheishankkeena olen alkanut tutkia erilaisia arviointitapoja harjoitusnäytteiden vaikeustason määrittämiseen sekä koota uusia kurssisuunnitelmia tekoälymallien kouluttamiseen.

Samoihin aikoihin työskennellessäni hankkeissa, kuten Teflon, AASIS ja Kielibuusti, opin lisää
automaattisesta lasten puheen tunnistuksesta, puheen arvioinnista ja työkaluista, jotka voivat auttaa kielenoppijoita. Parhaat mallimme on onnistuneesti integroitu mobiilisovellukseen, joka voi auttaa maahanmuuttajia suomen kielen oppimisessa.

Vuonna 2022 kehitimme järjestelmän, joka pystyy tunnistamaan erilaisia änkytyksen muotoja (esim. sanan/lausekkeen toistoa, pidentymistä, äänteiden toistoa), ja voitimme sillä INTERSPEECH 2022 Stefan Steidl Computational Paralinguistics Award -palkinnon. Myöhemmin tutkimme, miten puhujan tunnetila voidaan tunnistaa ei-verbaalisista ääni-ilmaisuista (kuten naurusta, itkusta, huokauksesta ja huudosta). Järjestelmämme saavutti molemmissa haastetehtävissä ensimmäisen sijan ACMMM CompParE -kilpailussa. Sittemmin olen työskennellyt myös multimodaalisten ratkaisujen parissa tunteiden ja huumorin tunnistamiseksi.

Nykyinen työni keskittyy pääasiassa itseohjautuvien perusmallien kouluttamiseen ja niiden ymmärtämiseen osana Extreme-scale LUMI– ja LAREINA-hankkeita. Selitettävä tekoäly (XAI) ja mallitulkinta ovat olleet pitkäaikaisia kiinnostuksen kohteitani, ja näiden uusien mallien ja laskennallisten resurssien myötä minulle tarjoutui mahdollisuus tutkia uusia tekniikoita. Viime aikoina olen kehittänyt menetelmiä siihen, kuinka suurten perusmallien sisältä voidaan löytää merkityksellisiä aliavaruuksia ja tutkia mallien valmistavan koulutuksen aikana löytämiä käsitteitä sekä ymmärtää hienosäätöprosessin aiheuttamia muutoksia. Näiden tekniikoiden avulla olemme pystyneet ymmärtämään mallejamme paremmin ja tämä on vienyt meitä eteenpäin uusien, parempien koulutusalgoritmien suunnittelussa.

Miten Kielipankki liittyy tutkimukseesi?

Koska nykyaikaiset puheentunnistimet vaativat huomattavan määrän dataa, etusijalle nousi tähän soveltuvien korpusten kokoaminen ja annotoiminen. Vuonna 2020 liityin työryhmään, joka koosti Lahjoita puhetta -aineistot (puhelahjat). Tämä korpus, jossa on noin 3200 tuntia lahjoitettua puhetta, mahdollisti useita muita hankkeita, kuten FinW2V2-hankkeemme LUMIssa. Puhelahjat-aineiston ja Aallon eduskunnan istunnoista 2008-2020 kokoaman puheentunnistuskorpuksen avulla olemme vuosien varrella kehittäneet useita ASR-järjestelmiä suomen kielelle.

Tällä hetkellä olen mukana myös LAREINA-hankkeessa, jossa rakennetaan suuria puheperusmalleja ja tuodaan niitä myös yrityskumppaneiden käyttöön.

Viimeaikaisia julkaisuja

Getman, Y., Grósz, T., Hiovain-Asikainen, K. & Kurimo, M. (2024), Exploring adaptation techniques of large speech foundation models for low-resource ASR: a case study on northern Sámi, in Proc. of Interspeech. DOI: 10.21437/Interspeech.2024-479

Karakasidis, G., Kurimo, M., Bell, P. & Grósz, T. (2024), Comparison and analysis of new curriculum criteria for end-to-end ASR, Speech Communication p. 103113. DOI: 10.1016/j.specom.2024.103113

Moisio, A., Porjazovski, D., Rouhe, A., Getman, Y., Virkkunen, A., AlGhezi, R., Lennes, M., Grósz, T., Linden, K. & Kurimo, M. (2023), Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks, Language Resources and Evaluation 57(3), 1295–1327. DOI: 10.1007/s10579-022-09606-3

Phan, N., von Zansen, A., Kautonen, M., Grósz, T. & Kurimo, M. (2024), CaptainA a self-study mobile app for practising speaking, in Proc. of Interspeech. https://www.isca-archive.org/interspeech_2024/phan24b_interspeech.pdf

Virkkunen, A., Sarvas, M., Huang, G., Grósz, T. & Kurimo, M. (2024), Investigating the clusters discovered by pre-trained AV-Hubert, in Proc. of IEEE ICASSP 2024, pp. 11196–11200. DOI: 10.1109/icassp48485.2024.10447434

Getman, Y., Phan, N., Al-Ghezi, R., Voskoboinik, E., Singh, M., Grósz, T., Kurimo, M., Salvi, G., Svendsen, T., Strömbergsson, S. et al. (2023), Developing an AI-assisted low-resource spoken language learning app for children, in IEEE Access. DOI: 10.1109/access.2023.3304274

Grósz, T., Getman, Y., Al-Ghezi, R., Rouhe, A. & Kurimo, M. (2023), Investigating wav2vec2 context representations and the effects of fine-tuning, a case-study of a Finnish model, in Proc. of Interspeech. DOI: 10.21437/interspeech.2023-837

Grósz, T., Virkkunen, A., Porjazovski, D. & Kurimo, M. (2023), Discovering relevant sub-spaces of Bert, wav2vec 2.0, Electra and ViT embeddings for humor and mimicked emotion recognition with integrated gradients, in Proc. of the 4th Multimodal Sentiment Analysis Challenge and Workshop, pp. 27–34. DOI: 10.1145/3606039.3613102

Porjazovski, D., Getman, Y., Grósz, T. & Kurimo, M. (2023), Advancing audio emotion and intent recognition with large pre-trained models and Bayesian inference, in Proc. of the 31st ACM International Conference on Multimedia, pp. 9477–9481. DOI: 10.1145/3581783.3612848

Aineistoja

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Sofoklis Kakouros

Sofoklis Kakouros
Kuva: Sofoklis Kakouros

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Sofoklis Kakouros kertoo meille tutkimuksestaan, joka keskittyy prosodian ja siihen liittyvien ilmiöiden ymmärtämiseen.

Kuka olet?

Olen Sofoklis Kakouros, tutkijatohtori Helsingin yliopiston digitaalisten ihmistieteiden laitokselta, fonetiikan ja puhesynteesin tutkimusryhmästä. Ennen tähän ryhmään liittymistä olen toiminut tutkimustehtävissä eri yliopistoissa ympäri Suomea sekä Alankomaissa, ja olen myös työskennellyt yksityisellä puolella puhetieteilijänä. Taustani liittyy signaalinkäsittelyyn, kognitiotieteeseen ja fonetiikkaan.

Mikä on tutkimuksesi aihe?

Tutkimukseni kohdistuu puheeseen ja kieleen, erityisesti prosodian ja siihen liittyvien ilmiöiden ymmärtämiseen. Prosodia ei niinkään käsittele sitä, mitä sanotaan, vaan pikemminkin sitä, miten jotakin sanotaan; se lisää sanojen yli ulottuvia merkityksiä. Prosodisia tekijöitä ovat muun muassa intonaatio ja ajoitus. Vuosien varrella olen tutkinut prosodian eri puolia keskittyen kyseisen alan informaatioteoreettisiin prosesseihin. Kaiken kaikkiaan työni lisää ymmärrystämme siitä, miten akustiset ja kielelliset vaihtelut ovat tilastollisesti järjestyneet prosodiaksi, jonka havaitsemme. Viime vuosina olen tehnyt tutkimusta Suomen Akatemian hankkeessa nimeltä ”Puheen prosodian laskennallinen mallinnus”, jonka tavoitteena on ymmärtää puheen akustiikan tilastollista järjestymistä ja sen yhteyksiä esimerkiksi prominenssin ja tunnesävyn kaltaisiin prosodisiin ulottuvuuksiin. Tätä tutkimusta voidaan soveltaa lukuisilla aloilla, kuten murteiden ja eduskuntapuheen prosodisessa analyysissa.

Miten Kielipankki liittyy tutkimukseesi?

Jotta laskennallisia puhemalleja voitaisiin analysoida ja kouluttaa tehokkaasti, tarvitaan yhä enemmän dataa. Kielipankki tarjoaa monipuolisen alustan, jonka kautta on pääsy tutkimukseni kannalta välttämättömiin resursseihin, kuten puheen ja kielen tutkimusaineistoihin. Ryhmämme hiljattain toteuttamassa hankkeessa analysoin suomalaisten eduskuntapuheiden äänitteitä Kielipankin suomenkielisen ASR-korpuksen avulla.

Viimeaikaisia julkaisuja

Vainio, M., Suni, A., Šimko, J., and Kakouros, S. (2024). The Power of Prosody and Prosody of Power: An Acoustic Analysis of Finnish Parliamentary Speech. In Proceedings of the Conference of the Speech Prosody Special Interest Group (SProSIG) of the International Speech Communication Association – Speech Prosody (SpeechPro-2024), Leiden, The Netherlands, pp. 662–666. 10.21437/SpeechProsody.2024-134

Kakouros, S., Šimko, J., Vainio, M., and Suni, A. (2023). Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody. In Proceedings of the 12th ISCA Speech Synthesis Workshop (SSW-2023), Grenoble, France, pp. 127–133. 10.21437/SSW.2023-20

Kakouros, S. and O’Mahony, J. (2023). What does BERT learn about prosody? In R. Skarnitzl, & J. Volín (Eds.), Proceedings of the 20th International Congress of Phonetic Sciences (ICPhS-2023) (pp. 1454-1458). GUARANT International spol. s r.o.., Prague, Czechia. https://www.internationalphoneticassociation.org/icphs-proceedings/ICPhS2023/full_papers/622.pdf

Kakouros, S., Stafylakis, T., Mošner, L., and Burget, L. (2023). Speech-based emotion recognition with self-supervised models using attentive channel-wise correlations and label smoothing. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-2023), Rhodes, Greece, pp. 1–5. 10.1109/ICASSP49357.2023.10094673

Aineistoja

 
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Katri Hiovain-Asikainen

Katri Hiovain-Asikainen
Kuva: Kai Lukander

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Katri Hiovain-Asikainen kertoo saamen kielten puhetta ja puhesynteesiä koskevasta tutkimuksestaan.

Kuka olet?

Olen Katri Hiovain-Asikainen ja työskentelen neljättä vuotta puheteknologina Divvun-ryhmässä Norjan arktisessa yliopistossa. Ryhmämme kehittää kieli- ja puheteknologiasovelluksia erityisesti saamelaiskielille, mutta myös muille vähemmistökielille. Vastaan työssäni puheteknologiaprojektien suunnittelusta ja toteutuksesta, missä olennaista on myös erilaisten ääniaineistojen kerääminen sekä puhekorpusten rakentaminen eri saamelaiskielille.

Ryhmämme on julkaissut tänä vuonna maailman ensimmäisen luulajansaamen puhesynteesin sekä nykyaikaistanut pohjoissaamen puhesynteesin. Vastikään lokakuun lopussa julkaisimme myös maailman ensimmäisen eteläsaamen puhesynteesin. Kaikki kehittämämme ohjelmat ja työkalut ovat ilmaisia ja helposti kaikkien saatavilla.

Taustani on kielitieteessä ja fonetiikassa, ja väittelin syksyllä 2023 Helsingin yliopistosta tohtoriksi. Väitöskirjani aiheena oli valtakielten vaikutus puhuttuun pohjoissaamen kieleen. Tutkimuksen tavoitteena oli selvittää prosodisten piirteiden, kuten kvantiteetin ja intonaation variaatioita pohjoissaamen alueellisissa kielimuodoissa, kun kontaktit valtakieliin (suomi ja norja) ovat hyvin tiiviit ja moniulotteiset.

Mikä on tutkimuksesi aihe?

Tällä hetkellä keskityn puhesynteesin ja automaattisen puheentunnistuksen kehittämiseen kolmelle saamelaiskielelle: pohjois-, luulajan ja eteläsaamelle, jotka ovat virallisia kieliä Norjassa. Näille on em. kielten puhujayhteisöissä erittäin suuri tarve, sillä saamen kirjakielet ovat melko uusia, eivätkä kaikki saamenpuhujat ole päässeet oppimaan kirjoitettua kieltä koulussa samalla tavalla kuin enemmistökielten kohdalla. Puheteknologia mahdollistaa vähemmistökielten suullisen käytön uusissa konteksteissa: esim. koulussa lukemisen apuna, ääntämisen opiskelussa, helppokäyttötoimintona lukihäiriöisille tai näkörajoitteisille sekä yleisesti vaikka uutisten kuuntelemiseen lukemisen sijaan. Myös äänikirjat ja muut puhutun kielen sisällöt yleistyvät kaiken aikaa, mikä mahdollistaa kirjojen kuuntelun samalla kun tekee käsillä jotakin muuta. Älykoti ja älykaiutin puhuvat tänä päivänä luulajansaamea kodissa, jossa perheen kotikielenä on luulajansaame. Tämä vahvistaa kielen asemaa ja tukee saamelaiskielten elvytystä uudella tasolla.

Puheentunnistin puolestaan mahdollistaa erilaiset puhekäyttöliittymät esimerkiksi autossa ja kotona, sekä luonnollisesti älylaitteilla. Pian on mahdollista sanella tekstejä saamelaiskielillä sekä esim. luoda automaattisia litteraatteja vanhoille arkistoäänitteille, jotta tutkijat pääsevät hyödyntämään niitä paremmin. Mahdollisuudet ovat rajattomat.

Varsinainen tutkimukseni liittyy vahvasti puheteknologiaan, ja olen tällä hetkellä vierailevana tutkijana Helsingin yliopiston Fonetiikan ja puhesynteesin tutkimusryhmässä. Yhteistyössä ryhmän muiden tutkijoiden kanssa olemme tutkineet mm. automaattista murteentunnistusta, jossa tavoitteena on tunnistaa puhujan murre automaattisesti mm. erilaisten prosodisten piirteiden perusteella. Lisäksi olen kiinnostunut erilaisista puhesynteesin arviointimenetelmistä ja esimerkiksi siitä, kuinka hyvin puhesynteesi oppii tuottamaan monimutkaisia ja harvinaisia prosodisia piirteitä, kuten kvantiteettia.

Miten Kielipankki liittyy tutkimukseesi?

Valmistelemme Divvun-ryhmässä tällä hetkellä erilaisia saamen puheaineistoja julkaistavaksi Kielipankin kautta. Saamenkielisiä äänitteitä löytyy kyllä eri maiden arkistoista, mutta ne ovat suhteellisen hajanaisia, tai niitä ei ole välttämättä käsitelty julkaistavaksi, eikä niihin esimerkiksi aina löydy transkriptioita. Koemme, että olemassa olevien aineistojen käsittely saavutettavampaan muotoon auttaisi monia tutkijoita sekä puheteknologioiden kehittäjiä ilman, että tarvitsisi tehdä aina uusia äänitteitä.

Olen myös itse saanut tutkimuskäyttöön yhden pohjoissaamen puhekorpuksen (Giellagas), ja se on ollut monipuolisuutensa vuoksi suureksi hyödyksi etenkin automaattisen murteentunnistuksen tutkimisessa. Tavoitteenamme Divvunissa on lisätä vastaavia aineistoja saataville mahdollisimman pian. Alkuperäis- ja vähemmistökielten kohdalla kuitenkin aineistojen julkaisuun liittyy paljon huolellisuutta vaativia seikkoja, joita työssämme kunnioitamme.

Viimeaikaisia julkaisuja

Hiovain-Asikainen, K. (2023). Prosodic change and majority language influence in spoken North Sámi varieties. Helsingin yliopisto, Humanistinen tiedekunta, Digitaalisten ihmistieteiden osasto. Helsingin yliopisto. http://urn.fi/URN:ISBN:978-951-51-9406-0

Kakouros, S., & Hiovain-Asikainen, K. (2023). North Sámi dialect identification with self-supervised speech models. arXiv Preprint arXiv:2305.11864. In Proceedings of the 24th INTERSPEECH Conference (pp. 5306–5310). https://doi.org/10.48550/arXiv.2305.11864

Pirinen, F., Moshagen, S., & Hiovain-Asikainen, K. (2023, May). GiellaLT—a stable infrastructure for Nordic minority languages and beyond. In Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa) (pp. 643-649). https://aclanthology.org/2023.nodalida-1.63/

Hiovain-Asikainen, K., & de la Rosa, J. (2023). Developing TTS and ASR for Lule and North Sámi languages. In Proceedings of the 2nd Annual Meeting of the Special Interest Group on Under-resourced Languages (SIGUL). http://dx.doi.org/10.21437/SIGUL.2023-11

Aineistoja ja työkaluja

  • Giellagas, pohjoissaamen näytekorpus
  • Borealium – kokoelma työkaluja pohjoismaisille vähemmistökielille.

Lisätietoa

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Elina Vaahensalo

Elina Vaahensalo
Kuva: Elina Vaahensalo

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Elina Vaahensalo kertoo meille verkkokeskusteluissa syntyvään vastakkainasetteluun ja toiseuteen liittyvästä tutkimuksestaan.

Kuka olet?

Olen Elina Vaahensalo, digitaalisen kulttuurin väitöskirjatutkija Turun yliopiston humanistisessa tiedekunnassa, digitaalisen kulttuurin, maiseman ja kulttuuriperinnön tutkinto-ohjelmassa. Lisäksi lokakuun alussa aloitan työskentelyn tutkijana Tampereen yliopiston koordinoimassa “Solidariteetit käytäntöön – Nuorten arkiyhteisöt tunnustuksen lähteenä ja ehkäisevän sosiaalityön areenana” -akatemiahankkeessa (SoliPro).

Mikä on tutkimuksesi aihe?

Käsittelen väitöskirjassani toiseutta tuottavaa verkkokeskustelua erityisesti anonyymien suomenkielisten verkkoyhteisöjen näkökulmasta. Olen kiinnostunut siitä, miten vastakkainasettelua, ulkopuolisuutta ja jopa väkivaltaista vihamielisyyttä rakennetaan suomenkielisissä verkkokeskustelukulttuureissa, ja millaisia erilaisia muotoja toiseus eri kulttuureissa ottaa. Toiseus on siitä hedelmällinen käsitteellinen lähtökohta verkkokeskustelujen tutkimukseen, että sen avulla voi moninaisesti hahmotella niin yhteisöllisyyden, ryhmäidentiteettien kuin myös ulkopuolisuuden ja huonommaksi arvotetun erilaisuuden kuvauksia. Toiseudella onkin suomenkielisissä verkkokeskusteluissa hyvin keskenään erilaisia – ja myös ristiriitaisia – muotoja: toinen voi olla väkivaltaisesti ja epäinhimillistävästi vastustettava vihollinen, mutta myös samaistuttava kohtalotoveri, jonka kanssa jaetaan yhteisiä, vertaistuellisia marginalisaation kokemuksia.

Lisäksi olemme kollegani Lilli Sihvosen kanssa tutkineet verkkokulttuureja media-arkeologisesta viitekehyksestä käsin. Olemme kiinnostuneita erityisesti siitä, mitä tapahtuu kun jokin verkkokulttuurinen ilmiö tai objekti – viraaliksi kasvanut meemi tai sosiaalisen median alusta – kuolee, ja millaista kuolemanjälkeistä elämää näihin voi liittyä. Kiinnostuksemme taustalla vaikuttaa havainto siitä, miten haavoittuvaisia digisyntyiset ilmiöt ovat. Näkökulmamme mukaan erityisen haavoittuvaisessa asemassa ovat esimerkiksi suomenkieliset verkkoilmiöt, jotka eivät useinkaan leviä maailmanlaajuisiksi, eivätkä siten tallennu kovinkaan laajalle verkkoon. Suomenkielisten verkkokulttuuristen ilmiöiden tallennuksessa Kielipankki onkin tehnyt kullanarvoista työtä tallentaen verkkokeskustelua sekä Suomi24-foorumilta että Ylilauta-kuvafoorumilta.

SoliPro-hankkeeseen sijoittuvassa tutkimuksessani tulen jatkamaan toiseuttamista käsittelevää työtäni, mutta vielä vankemmin yhteisöllisyyden ja solidariteettien näkökulmasta. Tavoitteeni on tarkastella nuorten sosiaalisessa mediassa jakamia yhteisöllisyyden, toiseuden ja solidariteetin kuvauksia.

Miten Kielipankki liittyy tutkimukseesi?

Tuoreemmassa tutkimuksessani olen hyödyntänyt itse keräämiäni, laadullisia ja etnografisella otteella kerättyjä verkkokeskusteluaineistoja, mutta Kielipankin Suomi24-aineistolla on merkittävä rooli tutkijanurani alkamisen kannalta. Vuonna 2017 aloitin tutkimusavustajana Suomen Akatemian rahoittamassa, Kielipankin Suomi24-aineiston ympärille rakentuneessa “Citizen Mindscapes” -konsortiohankkeessa, jonka puitteissa kirjoitin myös pro gradu -tutkielmani. Kehittelin jo tuolloin toiseuttavan verkkokeskustelun käsitettä ja Suomi24-aineiston avulla testasin sen tunnistamista sekä määrällistä mittaamista. Korpuspohjaisen tutkimuksen kokeileminen oli tällaiselle kulttuuritutkijalle melkoinen sukellus tuntemattomaan. Se oli kuitenkin kaikkine haasteineen arvokas opetus siitä, miten hieno tilaisuus opinnäytetyö on kokeilla erilaisia tutkimuksen tekemisen työkaluja – myös oman mukavuusalueen ulkopuolelta.

Nykyään myös opetan jonkin verran digitaalisen kulttuurin opiskelijoita ja käsittelen opetuksessani erityisesti verkkokeskustelujen laadulliseen tutkimukseen liittyviä työkaluja ja menetelmiä. Pyrinkin aina kannustamaan opiskelijoita hyödyntämään Kielipankin verkkokeskusteluaineistoja, sillä ne ovat ainutlaatuisia kokonaisuuksia suomenkielisestä verkkokulttuurista sekä osoitus myös siitä, että verkossa käytetty kieli on tallentamisen ja muistamisen arvoista.

Viimeaikaisia julkaisuja

Vaahensalo, E., & Sihvonen, L. (2022). Elävät, kuolleet ja elävät kuolleet keskustelufoorumit: verkkoyhteisöjen elämänvaiheet ja niiden tutkiminen. In R. Mähkä, M. Ahonen, N. Heikkilä, S. Ollitervo, & M. Räsänen (Eds.), Kulttuurihistorian tutkimusmenetelmät (pp. 411-429). Turun yliopisto.

Vaahensalo, E. (2022). ”Uuniin siitä” – Väkivaltainen ja toiseuttava verkkokeskustelu Ylilaudalla. Lähikuva – audiovisuaalisen kulttuurin tieteellinen julkaisu, 35(3), 29–44. https://doi.org/10.23994/lk.121893

Vaahensalo, E. (2022). Organisaatiot ja toiseuttava verkkokeskustelu. In H. Kantanen & M. Koskela (Eds.), Procomma Academic 2022: Poikkeuksellinen viestintä. ProCom – Viestinnän ammattilaiset ry. https://doi.org/10.31885/2022.00001

Vaahensalo, E. (2021). Samanlaista toiseuttamista, erilaisia toisia: Toiseuttavan verkkokeskustelun muodot anonyymeissä suomenkielisissä keskustelukulttuureissa. Media & Viestintä, 44(3), 1–29. https://doi.org/10.23983/mv.111507

Vaahensalo, E. (2021). Kontekstualisointimalli sosiaalisen median lähdekritiikin avaimena. Informaatiotutkimus, 40(3), 110–141. https://doi.org/10.23978/inf.107897

Vaahensalo, E. (2021). Creating the other in online interaction: Othering online discourse theory. In J. Bailey, A. Flynn, & N. Henry (Eds.), Handbook on technology-facilitated violence and abuse: International perspectives and experiences (pp. 227-246). Emerald Studies on Digital Crime, Technology & Social Harms. https://doi.org/10.1108/978-1-83982-848-520211016

Suominen, J., Saarikoski, P., & Vaahensalo, E. (2019). Digitaalisia kohtaamisia: Verkkokeskustelut BBS-purkeista sosiaaliseen mediaan. Helsinki: Gaudeamus.

Aineistoja

Lisätietoa

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Aku Rouhe

Aku Rouhe
Kuva: Jasmine Gustafsson

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aku Rouhe kertoo meille puheentunnistukseen liittyvästä tutkimuksestaan. Nykyisessä työssään hän muun muassa jatkokouluttaa suomeen ja pohjoismaisiin kieliin erikoistuneita, avoimesti saatavilla olevia suuria kielimalleja, joita on luotu onnistuneen tutkimus–yritys-yhteistyön myötä.

Kuka olet?

Olen Aku Rouhe. Väittelin tämän vuoden helmikuussa Aalto-yliopiston puheentunnistuksen tutkimusryhmästä. Väitökirjatyön jälkeen siirryin Silo AI:lle (nykyisin AMD:n omistuksessa), missä työskentelen suurten kielimallien jatkokoulutuksen kanssa, eli siirryin puheesta tekstin pariin. Kiinnostus kieleen värittää myös vapaa-aikaani, jota käytän luovaan kirjoittamiseen.

Mikä on tutkimuksesi aihe?

Väitöskirjani aiheena oli viime vuosina paljon huomiota saaneiden ns. kokonaismallien ja perinteisempien monen mallin yhdistelmien vertaileminen. Varsinkin puheentunnistuksessa sekä tutkimus että käytännön sovellukset ovat siirtyneet laajalti kokonaismalleihin, mutta työni osoitti, että monen mallin yhdistelmät ovat yhä varteenotettavia ratkaisuja esimerkiksi tunnistustarkkuuden osalta. Kokonaismallien keskeisin etu onkin todennäköisesti niiden yksinkertaisuus.

Kokonaismallit vaativat usein valtavia opetusaineistoja. Siksi oli tärkeää sivuta myös kokonaismallien soveltamista aliresursoiduilla kielillä.

Tällä hetkellä työni Silolla liittyy suurten kielimallien jatkokouluttamiseen, ja sovellan esimerkiksi suomeen ja pohjoismaisiin kieliin erikoistuneita Poro ja Viking -malleja, jotka on luotu yhteistyössä Silon ja TurkuNLP-ryhmän välillä.

Miten Kielipankki liittyy tutkimukseesi?

Kokonaismallit janoavat dataa, joten suuret aineistot olivat tarpeen. Olin mukana kokoamassa sekä eduskunnan täysistunnoista kerättyä Aalto Finnish Parliament ASR Corpus 2008–2020 puheaineistoa että Lahjoita puhetta -projektissa, jossa kansalaisten lahjoituksista syntyi Puhelahjat-korpus. Pääsin yhdistämään nämä molemmat suuret puheaineistot artikkelissa, joka julkaistiin väitöskirjani loppumetreillä vaikuttaessani LAREINA-projektissa. Nykyään suomen puheentunnistusresurssit ovat kunnioitettavat näin harvan puhumalle kielelle.

Viimeaikaisia julkaisuja

Rouhe, A., Grósz, T., Kurimo, M. 2024. Principled Comparisons for End-to-End Speech Recognition: Attention vs Hybrid at the 1000-Hour Scale. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 623-638, 2024. doi: 0.1109/taslp.2023.3336517

Virkkunen, A., Rouhe, A., Phan, N. et al. 2023. Finnish parliament ASR corpus. Lang Resources & Evaluation 57, 1645–1670 (2023). doi: 10.1007/s10579-023-09650-7

Moisio, A., Porjazovski, D., Rouhe, A. et al. 2023. Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Lang Resources & Evaluation 57, 1295–1327 (2023). doi: 10.1007/s10579-022-09606-3

Rouhe, A., Virkkunen, A., Leinonen, J., Kurimo, M. 2022. Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0. Proc. Interspeech 2022, 3543–3547,
doi: 10.21437/Interspeech.2022-11318

Aineistoja

Lisätietoa

 
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Tuukka Törö

Tuukka Törö
Kuva: Riina Kiianmies

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tuukka Törö kertoo meille suomenkieliseen puhesynteesiin liittyvästä tutkimuksestaan. Neuroverkkomallit, joiden kouluttamiseen on tarvittu laajoja, monipuolisia puheaineistoja, mahdollistavat tutkijoille uudenlaisia analysointikeinoja.

Kuka olet?

Olen Tuukka Törö, väitöskirjatutkija. Olen työskennellyt Helsingin yliopiston Fonetiikan ja puhesynteesin tutkimusryhmässä tämän vuoden alusta lähtien. Taustani on kielitieteessä ja fonetiikassa, ja olen valmistunut englannin kielen kandidaatiksi Malmön yliopistosta sekä fonetiikan maisteriksi Helsingin yliopistosta. Kun olin saanut valmiiksi maisterintutkielmani, jossa aiheena oli puhesynteesin puhetyylien hallinta, työskentelin jonkin aikaa Ylellä tekoälyradiohankkeissa, joissa loimme synteettisiä ”näyttelijöitä” radio-ohjelmiin.

Tällä hetkellä työskentelen Suomen Akatemian rahoittamassa Predictive Processing Approach to Modelling Prosodic Hierarchy for Speech Synthesis -hankkeessa. Hankkeen tavoitteena on kehittää tekstistä puheeksi -synteesiä (TTS), jonka lähtökohtana on ihmiskognitiota mallintava ennakoivan prosessoinnin teoria.

Vaikka olenkin siirtynyt enemmän tekniseen suuntaan, työni taustalla näkyy kiinnostukseni siihen, millä tavoin sosiaaliset rakenteet vaikuttavat puheeseen, makrotason vaihtelusta aina yksilöiden tilannekohtaisesti välittämään sosiaaliseen dynamiikkaan.

Mikä on tutkimuksesi aihe?

Tällä hetkellä tutkin makrotason kielen vaihtelua TTS-synteesiä ja puheentunnistusta varten rakennettujen neuroverkkomallien avulla. Vaikka mallien alkuperäinen käyttötarkoitus on teknisissä sovelluksissa, voimme niiden avulla analysoida puhetta uusilla tavoilla. Koska mallit on koulutettu suurilla määrillä äänidataa, voidaan niillä mallintaa laadultaan vaihtelevaa ”villiä” dataa laajassa mittakaavassa sen sijaan, että analysoitaisiin tiettyjä akustisia piirteitä pienistä, ammattimaisesti äänitetyistä aineistoista.

Akatemiahankkeessa tavoitteeni on yhdistää sosiolingvistinen vaihtelu ennakoivan prosessoinnin ja puhesynteesin kanssa. Toivon mukaan tulevina vuosina voisimme oppia jotain uutta siitä, miten ihmiset havaitsevat puheen sosiaalisia vihjeitä ja millä tavoin korkean tason sosiaalisia ennusteita voitaisiin hyödyntää puhesynteesin kehittämisessä.

Miten Kielipankki liittyy tutkimukseesi?

Käytän usein Kielipankin aineistoja, kuten SKN-korpusta (Suomen kielen näytteitä), FinSyniä (tulossa saataville Kielipankkiin) ja ennen kaikkea Lahjoita puhetta -aineistoa. Jotta voisimme kouluttaa puhesyntetisaattoreita, joita säädetään sosiaalisten muuttujien – kuten iän, sukupuolen ja murteen – perusteella, tarvitsemme suuren määrän äänidataa eri taustoista tulevilta ihmisiltä. Koska suomi on suhteellisen pieni kieli, on erityisen tärkeää, että Lahjoita puhetta -korpuksen kaltaisten suurten aineistojen kokoamiseen panostetaan keskitetysti.

Viimeaikaisia julkaisuja

Törö, T., Suni, A. and Šimko, J. (2024). Analysis of regional variants in a vast corpus of Finnish spontaneous speech using a large-scale self-supervised model, Proceedings of Speech Prosody 2024, Leiden, Netherlands. DOI: 10.21437/SpeechProsody.2024-8

Šimko, J., Törö, T., Vainio M., and Suni, A. (2023). Prosody under control: Controlling prosody in text-to-speech synthesis by adjustments in latent reference space, Proceedings of the 18th International Congress of Phonetic Sciences, Prague, Czech Republic. http://hdl.handle.net/10138/565382

Muita töitä

Aineistoja

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Heidi Niva

Heidi Niva
Kuva: Emmi Pollari

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Heidi Niva kertoo meille suomen kielen kieliopin ilmiöihin liittyvästä tutkimuksestaan sekä vepsä–suomi-sanakirjahankkeesta. Käynnissä on myös yhteistutkimus, jossa selvitetään, millainen verkkokeskusteluja sisältävä korpus on aineistolähteenä kielentutkijalle.

Kuka olet?

Olen Heidi Niva, post doc -vaiheessa oleva suomen kielen tutkija. Tällä hetkellä toimin Suomen kielen ja kulttuurin lehtorin sijaisena Helsingin yliopistolla. Olen aktiivisesti mukana myös LOST DOC -kollektiivissa, joka on kielentutkimuksen post doc -tutkijoiden yhteisö.

Mikä on tutkimuksesi aihe?

Sekä väitöskirjassani että sen jälkeen tutkimukseni ytimessä ovat kielioppiin kuuluvat ilmiöt. Olen tutkinut muun muassa rakenteita, joilla ilmaistaan futuurisuutta. Nyt olen mukana yhteisprojektissa, jossa tutkimme avertiivisuutta eli toteutumattomuutta ilmaisevia rakenteita. Lisäksi toimin hankkeessa, jonka tarkoituksena on laatia vepsäsuomi-sanakirja. Vepsä on suomelle läheinen mutta uhanalainen sukukieli, jota puhutaan Äänisen eteläpuolella. Sanakirjahankkeen ohella teen tutkimusta myös vepsän adpositiorakenteista.

Miten Kielipankki liittyy tutkimukseesi?

Kieliopin tutkimuksessa minua ei kiinnosta niinkään normatiivisuus vaan se, miten ihmiset tosiasiassa käyttävät kielellisiä rakenteita ja millaisia merkityksiä ja sävyjä rakenteilla voidaan ilmaista. Tätä varten olen käyttänyt Kielipankin aineistoja: nykysuomen tutkimiseen Suomi24 virkkeet -korpusta 2001–2020 ja nykysuomea vanhemman kielimuodon tarkasteluun Varhaisnykysuomen ja Vanhan kirjasuomen korpuksia. Parhaillaan hyödynnän myös 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpusta sekä STT:n uutisarkisto 1992–2018 -korpusta.

Itse asiassa Suomi24 virkkeet -korpus 2001–2020 itsessään on yhteistutkimuksemme kohteena Max Wahlströmin ja Olli Silvennoisen kanssa. Kyseisessä korpuksessa on kiinnostavaa se, että se pitkälti edustaa vapaamuotoista kielenkäyttöä mutta on kielenpiirteiltään silti erilaista kuin puhuttu kieli. Lisäksi korpus on kielenkäytön formaalisuuden ja kielenilmiöiden esiintymisen suhteen vaihteleva aineistolähde, mihin näyttävät vaikuttavan keskustelupalstan moninaiset keskustelunaiheet ja niihin kytkeytyvä ilmaisutyyli. Tekeillä olevassa artikkelissamme tarkastelemme kriittisesti sitä, millainen lähde kielentutkijalle Suomi24-korpus oikeastaan on.

Julkaisuja

Niva, Heidi 2022: Suomen progressiivirakenne intentioiden ja ennakoinnin ilmaisuissa. Helsinki: Helsingin yliopisto. Saatavilla: http://urn.fi/URN:ISBN:978-951-51-8727-7

Niva, Heidi 2024: Tulen muistamaan hänet aina. Tulla V-mAAn vääjäämättömän tulevaisuuden ilmaisukeinona. Virittäjä 128(2), 238–263. DOI: 10.23982/vir.126878

Aineistoja

Linkkejä

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Krister Lindén

Krister Lindén
Kuva: Juhani Jokinen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Kielipankin johtaja Krister Lindén kuvailee, miten ihmistieteiden tutkijat voivat hyödyntää tekoälyä aineistopohjaisessa tutkimuksessa.

Kuka olet?

Olen Krister Lindén. Toimin Helsingin yliopistossa kieliteknologian tutkimusjohtajana digitaalisten ihmistieteiden osastolla sekä Muinaisen Lähi-Idän Imperiumit -huippututkimusyksikön tiimin varajohtajana. Kansallisesti olen tutkimusinfrastruktuurien Kielipankin johtaja, FIN-CLARINin kansallinen koordinaattori ja FIN-CLARIAHin vastuullinen tutkija. EU-tasolla olen ihmistieteiden tutkimusinfrastruktuurin CLARINin kansallisten koordinaattoreiden puheenjohtaja ja CLARINin lakiteknisen komitean (CLIC) jäsen.

Mikä on tutkimuksesi aihe?

Olen aina ollut kiinnostunut kieliteknologiasta ja sen soveltamisesta ja Kielipankin kautta yhä enemmän myös teknologian kehittämisen ja soveltamisen edellytyksistä:

  • Kuinka voimme aineistoja käyttämällä vastata moninaisiin ihmistieteellisiin tutkimuskysymyksiin?
  • Mistä saadaan kehitys- ja testiaineistoja, joilla voidaan kehittää ja arvioida aineistojen käsittelymenetelmiä?
  • Millaisilla ehdoilla aineistoja voidaan välittää muille tutkijoille, jotta he voivat varmistaa, toimivatko menetelmät väitetyllä tavalla?

Riippumaton menetelmien arviointi on tärkeää, jotta kehitys ei pysähtyisi ja jotta on mahdollista löytää eri tilanteisiin parhaiten sopivat menetelmät. Jos halutaan vain alustava arvio ja pienimuotoinen koe riittää, voidaan antaa ChatGPT:lle pari esimerkkiä ja katsoa, miten se selviää tehtävästä. Jos dataa ei ole tarpeeksi tilastollisen menetelmän luotettavaan käyttöön ja tehtävässä vaaditaan menetelmältä erityistä tarkkuutta, voi olla nopeampaa kehittää menetelmät käsin. Toisaalta, jos dataa on riittävästi, sopiva koneoppimismenetelmä on tarjolla ja käsittely-ympäristökin riittävän tehokas, tämä yhdistelmä tarjoaa usein helpoiten toistettavissa olevan kehityspolun.

Kaikki edellä mainitut kehityspolut ovat datalähtöisiä ja niiden toisintaminen vaatii datan jakamista muiden tutkijoiden kanssa. Aiempina vuosina oltiin hyvin innostuneita lähdeaineistojen täysin avoimesta jakelusta. Vaikka tämä on edelleenkin hyvä tavoite, on paljon aineistoja, joita syystä tai toisesta ei voida välittää aivan kaikille. Tutkijayhteisömme on vähitellen onnistunut lainvalmistelijoiden tuella kehittämään juridisen saatavuusehtojen kehikon, joka mahdollistaa akateemisille tutkijoille riittävän avoimen pääsyn aineistojen tutkimuskäyttöä varten ja mahdollistaa myös tulosten todentamisen suhteellisen mutkattomasti. Samalla aineistot kuitenkin pysyvät riittävän pienen piirin saatavilla, jotta henkilötiedot ja aineeton omaisuus pysyvät turvassa.

Uutena kehitystarpeena on luoda menetelmä, jolla ihmistieteiden tutkijat voisivat keskustella Kielipankkiin tallentamiensa aineistojen sisällöstä tekoälyn kanssa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki tarjoaa sekä alustan työkalujen kehittämiseen että tilaisuuden osoittaa, miten erilaisia tutkimuslähtöisiä aineistoja voidaan välittää muille tutkijoille turvallisesti ja lain puitteissa.

Viimeaikaisia julkaisuja

Jauhiainen, T., Zampieri, M., Baldwin, T. C., & Linden, K. (2024). Automatic Language Identification in Texts. (Synthesis Lectures on Human Language Technologies). Springer. https://doi.org/10.1007/978-3-031-45822-4

Jauhiainen, T., Piitulainen, J., Axelson, E., Dieckmann, U., Lennes, M., Niemi, J., Rueter, J., & Linden, K. (2024). Investigating Multilinguality in the Plenary Sessions of the Parliament of Finland with Automatic Language Identification. In D. Fišer, M. Eskevich, & D. Bordon (Eds.), Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024): ParlaCLARIN IV Workshop on Creating, Analysing, and Increasing Accessibility of Parliamentary Corpora (pp. 48-56). (International conference on computational linguistics), (LREC proceedings). European Language Resources Association (ELRA). https://researchportal.helsinki.fi/files/312866811/ArtikkeliJulkaistu.pdf

Sahala, A., & Linden, K. (2023). BabyLemmatizer 2.0 – A Neural Pipeline for POS-tagging and Lemmatizing Cuneiform Languages. In A. Anderson, S. Gordin, B. Li, Y. Liu, & M. C. Passarotti (Eds.), Proceedings of the Ancient Language Processing Workshop associated with the 14th International Conference on Recent Advances in Natural Language Processing, RANLP 2023 (pp. 203-212). INCOMA. https://aclanthology.org/2023.alp-1.23

Linden, K., Niemi, J., & Kontino, T. (Eds.) (2023). CLARIN Annual Conference Proceedings 2023. (CLARIN Annual Conference Proceedings). CLARIN ERIC. https://researchportal.helsinki.fi/files/298353929/CE-2023-2328_CLARIN2023_ConferenceProceedings.pdf

Lindén, K., Ruokolainen, T., Hämäläinen, L., & Harviainen, J. T. (2023). Ethically Archiving a Hard-to-Access Massive Research Data Set in the Language Bank of Finland: The Finnish Dark Web Marketplace Corpus (FINDarC). In M. M. Rantanen , S. Westerstrand, O. Sahlgren, & J. Koskinen (Eds.), Proceedings of the Conference on Technology Ethics 2023 – Tethics 2023 (pp. 114-131). (CEUR Workshop Proceedings; Vol. 3582). CEUR-WS.org. https://researchportal.helsinki.fi/files/295005165/FP_10.pdf

Kamocki, P., Linden, K., Puksas, A., & Kelli, A. (2023). EU Data Governance Act: Outlining a Potential Role for CLARIN. In T. Erjavec, & M. Eskevich (Eds.), Selected papers from the CLARIN Annual Conference 2022 (pp. 57-65). (Linköping Electronic Conference Proceedings; No. 198). CLARIN ERIC. https://doi.org/10.3384/ecp198006

Linden, K., Jauhiainen, T., & Hardwick, S. (2023). FinnSentiment: A Finnish Social Media Corpus for Sentiment Polarity Annotation. Language Resources and Evaluation, 57(2), 581-609. https://doi.org/10.1007/s10579-023-09644-5

Axelson, E., Hardwick, S., & Linden, K. (2023). HFST Training Environment and Recent Additions. In A. Hurskainen, K. Koskenniemi, & T. P. (Eds.), Rule-Based Language Technology (pp. 60-69). (NEALT Monograph Series; No. 2[1]). Northern European Association for Language Technology. http://hdl.handle.net/10062/89595

Linkkejä

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Juraj Šimko

Juraj Šimko
Kuva: Veikko Somerpuro

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Juraj Šimko kertoo meille puheen artikulaatioon ja prosodiaan liittyvästä tutkimuksestaan. Helsingin yliopiston fonetiikan ja puhesynteesin tutkimusryhmä aikoo myös hyödyntää työssään suuria kielimalleja etsiäkseen vastauksia eräisiin puheeseen liittyviin teoreettisiin kysymyksiin.

Kuka olet?

Olen fonetiikan yliopistonlehtori Helsingin yliopistossa, jossa olen työskennellyt vuodesta 2013 lähtien. Sitä ennen opiskelin ja työskentelin useissa yliopistoissa Slovakiassa, Irlannissa ja Saksassa sekä toimin useita vuosia kieliasiantuntijana Microsoftilla. Tällä hetkellä minulla on myös kunniaprofessuuri Intian teknillisessä instituutissa Guwahatissa. Taustani on matematiikassa, kognitiotieteessä ja fonetiikassa.

Kuulun fonetiikan ja puhesynteesin tutkimusryhmään digitaalisten ihmistieteiden laitoksella, mutta olen tällä hetkellä mukana myös ERC Advanced Grant -rahoitetussa hankkeessa Planning the Articulation of Spoken Utterances (johtajana professori Alice Turk) Edinburghin yliopistossa, jossa tutkimme ja mallinnamme puheen tuottamisen ja artikulaation taustalla olevia kognitiivisia prosesseja.

Mikä on tutkimuksesi aihe?

Minua kiehtoo ihmisen puheen tutkimus. Puheen artikulaation lisäksi sekä oma että ryhmämme tärkein tutkimusaihe on puheen prosodia, eli pohjimmiltaan kaikki ne puheen melodiset, rytmiset ja emotionaaliset piirteet, jotka ulottuvat pidemmälle kuin pelkkä puheessa välittämämme kielellinen viesti. Nykyisessä hankkeessamme Predictive Processing Approach to Modelling Prosodic Hierarchy for Speech Synthesis työskentelemme uudenlaisen puhesynteesiarkkitehtuurin parissa, jonka innoituksena on toiminut vaikutusvaltainen teoreettinen paradigma ennakoiva prosessointi (Predictive Processing), jolla voidaan mallintaa ihmisen kognitiota. Tärkein tavoitteemme on tuottaa kansainvälisen tason puhesynteesi, ja tiimimme on jo ollutkin mukana luomassa huippuluokan suomen- ja suomenruotsin synteesijärjestelmiä. Tahdomme myös käyttää valtavia kielimalleja, jotka toimivat erilaisten teknologisten sovellusten käyttövoimana, tilastollisina representaatioina siitä puhemateriaalista, jota on käytetty niiden kouluttamiseen. Kielimallien avulla voimme vastata eräisiin puheeseen liittyviin teoreettisiin kysymyksiin, joita ovat muun muassa aksenttien ja murteiden levinneisyys ja kehitys, sosiolingvistiikan ja prosodian välinen suhde sekä poliitikkojen tuottamien eduskuntapuheiden prosodiset piirteet.

Miten Kielipankki liittyy tutkimukseesi?

Tehdäksemme kaiken edellä mainitun, tarvitsemme melkoisen määrän dataa. Osan datasta luomme itse Kielipankin asiantuntijoiden avustuksella: olemme suunnitelleet ja äänittäneet korkealaatuista puheaineistoa sisältävän FinSyn-korpuksen puhesynteesiä ja muita puheteknologisia sovelluksia varten. Korpus sisältää noin 75 tuntia studiolaatuisia äänityksiä kolmelta ääninäyttelijältä, joista kaksi puhuu suomea ja yksi suomenruotsia. Tämä korpus julkaistaan myöhemmin Kielipankin kautta. Käytämme murteita ja sosiolingvistiikkaa koskevassa tutkimuksessamme myös muita Kielipankista löytyviä aineistoja, varsinkin ainutlaatuista Lahjoita puhetta -aineistoa sekä Aallon suomenkielistä puheentunnistuskorpusta eduskunnan istunnoista.

Viimeaikaisia julkaisuja

Törö, T., Suni, A. and Šimko, J. (2024). Analysis of regional variants in a vast corpus of Finnish spontaneous speech using a large-scale self-supervised model, Proceedings of Speech Prosody 2024, Leiden, Netherlands.

Vainio, M., Suni, A., Šimko, J. and Kakouros, S. (2024). The Power of Prosody and Prosody of Power: An Acoustic Analysis of Finnish Parliamentary Speech, Proceedings of Speech Prosody 2024, Leiden, Netherlands.

Elie, B., and Šimko, J., and Turk, A. (2024). Optimization-based modeling of Lombard speech articulation: Supraglottal characteristics. JASA Express Letters, 4(1). https://doi.org/10.1121/10.0024364

Kakouros, S., Šimko, J., Vainio M., and Suni, A. (2023). Investigating the Utility of Surprisal from Large Language Models for Speech Synthesis Prosody, Proceedings of the 12th ISCA Speech Synthesis Workshop (SSW), Grenoble, France. https://doi.org/10.21437/SSW.2023-20

Šimko, J., Törö, T., Vainio M., and Suni, A. (2023). Prosody under control: Controlling prosody in text-to-speech synthesis by adjustments in latent reference space, Proceedings of the 18th International Congress of Phonetic Sciences, Prague, Czech Republic. http://hdl.handle.net/10138/565382

Šimko, J., Adigwe, A., Suni, A. and Vainio M. (2022). A Hierarchical Predictive Processing Approach to Modelling Prosody, Proc. 11th International Conference on Speech Prosody, Lisbon, Portugal. https://doi.org/10.21437/SpeechProsody.2022-86

Aineistoja

 
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Lotta Leiwo

Lotta Leiwo
Kuva: Veikko Somerpuro

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Lotta Leiwo kertoo meille suomalaistaustaisen T-Bone Slimin elämää ja tuotantoa koskevasta folkloristisesta tutkimuksestaan.

Kuka olet?

Olen Lotta Leiwo, väitöskirjatutkija Helsingin yliopistosta, jossa opiskelen historian ja kulttuuriperinnön tohtoriohjelmassa. Folkloristiikan alan väitöskirjassani tutkin Yhdysvaltain suomalaisten naisten poliittista roolia ja luontoon liittyvää retoriikkaa Amerikan Suomalaisessa Sosialistijärjestössä (ASS) 1900-luvun alkupuolella. Pääasiallinen tutkimusaineistoni koostuu ASS:n dokumenteista sekä Toveritar-nimisestä sanomalehdestä. Sosialistijärjestön äänitorvena toiminut Toveritar oli suunnattu naisille, ja sitä toimittivat ja siihen kirjoittivat pääasiassa naiset.

Ennen väitöskirjaprojektiani työskentelin kaksi vuotta tutkimusavustajana T-Bone Slim and the transnational poetics of the migrant left in North America -hankkeessa -hankkeessa (Koneen Säätiö 2022–2023). Pääasiallinen vastuuni tässä kansainvälisessä hankkeessa oli T-Bone Slim -korpuksen ja -tietokannan rakentaminen. Hankkeen ohessa kirjoitin graduni Pohjois-Amerikan suomalaisista sosialistinaisista ja löysin väitöskirjani aiheen.

Mikä on tutkimuksesi aihe?

T-Bone Slim -hankkeessa kansainvälinen tutkimusryhmä tutki suomalaistaustaisen T-Bone Slimin eli Matti Valentinpoika Huhdan (1882–1942) elämää ja kirjallista tuotantoa. Huhta syntyi Ashtabulassa, Ohiossa Kälviältä, Keski-Pohjanmaalta muuttaneeseen suomalaisperheeseen. Hän eli lapsuutensa ja nuoruutensa suomalaisyhteisöissä, työskenteli satamatyöläisenä ja toimi raittiusliikkeen paikallisosaston kirjeenvaihtajana. 1910-luvulla Huhta hylkäsi perheensä ja ryhtyi elämään ”hobona” eli kiertävänä työläisenä. 1920-luvulle tultaessa Huhta radikalisoitui, liittyi Industrial Workers of the Worldin (IWW) jäseneksi ja ryhtyi IWW-liikkeen lehtien kolumnistiksi. Hän jatkoi kirjoitusuraansa T-Bone Slim -nimellä kuolemaansa saakka. Viimeiset vuotensa Huhta eli New Yorkissa, jossa hän työskenteli jokilaivan kapteenina. Toukokuussa 1942 hänet löydettiin hukkuneena New Yorkin East Riveristä, minkä jälkeen hänet miltei unohdettiin useiden vuosikymmenten ajaksi. T-Bone Slimin kuolemaan liittyvistä ratkaisemattomista kysymyksistä voi lukea tarkemmin hankkeemme blogista Saku Pintan kaksiosaisesta tekstistä ”Who Killed T-Bone Slim” osa I ja osa II.

Slimin sukulainen, muusikko John Westmoreland sai tietää ”Matt-sedän” T-Bone Slim -kirjoittajaurasta 2010-luvun loppupuolella. Samoihin aikoihin alkoi viritä myös akateeminen kiinnostus suomalaistaustaista Slimiä kohtaan ja tämän sukulaiset sekä tutkijat löysivät toisensa T-Bone Slim-tutkimusten ääreltä. Tutkimus sai jatkoa Koneen Säätiön rahoittamassa hankkeessamme, jossa John Westmoreland sekä tutkijat Suomesta, Iso-Britanniasta, Yhdysvalloista, Kanadasta ja Australiasta yhdistivät voimansa. Hankkeen johtajana toimii Kirsti Salmi-Niklander. Kokosimme tutkijoiden eri arkistoista keräämät T-Bone Slim -aineistot yhteen ja järjestimme ne korpukseksi, jotta ne olisivat helpommin myös muiden aiheesta kiinnostuneiden saatavilla. Aineistoja saatiin kaikkiaan 14 arkistosta kolmelta eri mantereelta, viidestä eri maasta, Yhdysvalloista, Kanadasta, Suomesta, Ruotsista ja Australiasta.

T-Bone Slimin kirjoittamia tekstejä on korpuksessa yhteensä 1294. Suurin osa teksteistä on julkaistu IWW:n lehdissä englanniksi, mutta Slim kirjoitti myös suomeksi ja käytti teksteissään joskus lisäksi ruotsia. Korpukseen on lisäksi koottu Slimiltä säilyneet käsikirjoitukset.

T-Bone Slimin kirjoittamat tekstit ovat tutkijoille runsaudensarvi. Slim käytti kieltä nokkelasti yhdistellen erilaisia tekstilajeja ja ilmaisukeinoja. Lisäksi teksteissä viljellyt historialliset, kirjalliset ja kulttuuriset viittaukset tarjoavat mahdollisuuden tarkastella Yhdysvalloissa aktiivista IWW-liikettä, ylirajaista siirtolaisuutta ja historiaa monesta eri näkökulmasta. Teksteissä käytetty kieli on runsasta, oivaltavaa ja leikkisääkin, ja ne saattavat kiinnostaa myös kielentutkijoita. Koska aineistoissa on sekä julkaistuja että julkaisemattomia tekstejä, niiden kautta on mahdollista päästä käsiksi sekä poliittisen julkaisemisen toimitusprosesseihin että yksittäisen kirjoittajan kirjoittamisen käytäntöihin.

Itse olen tarkastellut hankkeen puitteissa suomalaissiirtolaisten kirjallistumista sekä tutkinut Slimin tekstilajien käyttöä semioottisesta näkökulmasta. Sen lisäksi, että hänen tekstinsä ovat sekä taustaltaan että sisällöiltään monikielisiä, hänen ilmaisuunsa sisältyy myös tekstilajien välistä intertekstuaalisuutta ja multimodaalisuutta sekä suullis-kirjallisia käytäntöjä. Tällaiset käytännöt heijastuvat esimerkiksi hänen tekemissään lauluteksteissä. IWW:lle tyypilliseen tapaan Slim kirjoitti sosiaalista epäoikeudenmukaisuutta kommentoivia sanoituksia lukijoiden tuntemiin suosittuihin laulusävelmiin. Tekstit on siis kirjoitettu laulettaviksi ja niiden tavoitteena oli herätellä lukijaa/laulajaa pohtimaan tekstin sanomaa. Kuten hankkeemme kanssa yhteistyössä toiminut Owen Clayton on todennut, T-Bone Slim pyrki aktivoimaan lukijoitaan toimintaan kielen ja sanojen avulla. Myös minua itseäni Slimin taidokas kirjallinen ilmaisu jaksaa yhä uudelleen hämmästyttää ja riemastuttaa.

Miten Kielipankki liittyy tutkimukseesi?

Hankkeen alkuvaiheessa pohdimme pitkään kotia T-Bone Slim -korpukselle ja tietokannalle. Meille oli tärkeää löytää aineistolle pitkäkestoinen säilytyspaikka, jossa materiaalit olisivat mahdollisimman avoimesti saatavilla. Lisäksi pidimme tärkeänä, että korpusta olisi mahdollista louhia ja analysoida myös digitaalisten ihmistieteiden menetelmillä.

T-Bone Slim -korpus ja tietokanta julkaistaan huhtikuussa 2024 Kielipankissa, joka vastaa kaikkiin aineistojen säilyttämiseen ja käyttämiseen liittyviin vaatimuksiimme. Aineisto koostuu alkuperäisistä aineistoista (lehdistä ja käsikirjoituksista) otetuista valokuva- ja mikrofilmiskannauksista, teksteistä tehdyistä transkriptioista sekä tietokannasta. Tietokantaan on talletettu kaikki korpuksen tekstit metatietoineen (julkaisupäivämäärä, julkaisu, tekstin otsikko, arkisto, josta aineisto on kerätty, tekstin kieli ym.). Olemme lisäksi kokeilleet datan abstrahoimista osaan aineistoon. Tietokantaan on muun muassa listattu T-Bone Slimin mainitsemat henkilöt ja paikat sekä merkitty tieto tekstien sisältämistä runoista tai lauluista. Tietokannan tarkoitus on helpottaa aineistojen läpikäyntiä ja toimia pohjana datan tarkemmalle abstrahoinnille tutkimusta varten.

T-Bone Slim-korpuksen ja tietokannan julkistustilaisuus

Tervetuloa Resurrection – T-Bone Slim Corpus and Database Launching Event -tapahtumaan maanantaina 20.5.2024 klo 15:00-17:00. Tilaisuus on avoin yleisölle ja ohjelmaa voi seurata sekä Zoomin kautta että paikan päällä Suomalaisen Kirjallisuuden Seurassa (Hallituskatu 1, Helsinki). Tilaisuuden kieli on englanti. Lisätietoja ja etäosallistujien ilmoittautuminen.

Julkaisuja

Apajalahti, Eeva-Lotta et al. (2022). ”Ihmistieteelliset näkökulmat metsiin tuottavat tietoa moninaisista metsäsuhteista ja niiden tulevaisuuksista.” Vuosilusto 14(2022): 13–51. Saatavilla: https://lusto.fi/wp-content/uploads/2022/12/Lusto-Vuosilusto14.pdf.

Leiwo, Lotta (2024). ”When One’s Life Becomes the Field. Assessing the Field in Collaborative Autoethnography.” Marburg Journal of Religion 25(1). https://doi.org/10.17192/mjr.2024.25.8693.

Leiwo, Lotta (2023). ”Luontokin näkyy olevan köyhälistöä vastaan” Luonto kolmantena tilana Toveritar-lehden paikkakuntakirjeissä 1916–1917. Maisterin tutkielma. Helsinki: Helsingin yliopisto. http://urn.fi/URN:NBN:fi:hulib-202305302306.

Leiwo, Lotta (2023). ”Suomen koloniaalin osallisuuden kontekstit haltuun: Hoegaerts, Josephine, Tuire Liimatainen, Laura Hekanaho ja Elizabeth Peterson (toim.). 2022. Finnishness, Whiteness and Coloniality.” Elore, 30(2), 142–147. Kirja-arvio. https://doi.org/10.30666/elore.137470.

Mäkelä, Heidi Henriikka, Leiwo, Lotta, Linkola, Hannu ja Rinne, Jenni (2023). ”The spiritual forest: an ethnographic exploration on Finnish forest yoga and the forest landscape.” Landscape Research. https://doi.org/10.1080/01426397.2023.2268550.

Aineistoja

Hankkeen tutkijoiden kirjoittamia blogitekstejä

Leiwo, Lotta (2023). ”T-Bone Slim Database – Final Steps.” T-Bone Slim and the transnational poetics of the migrant left in North America -tutkimushankkeen blogi. 18.12.2023. https://blogs.helsinki.fi/tboneslim/2023/12/18/t-bone-slim-database-final-steps/.

Leiwo, Lotta (2023). ”T-Bone Slim Database – Next Steps.” T-Bone Slim and the transnational poetics of the migrant left in North America -tutkimushankkeen blogi. Julkaistu 22.6.2023. https://blogs.helsinki.fi/tboneslim/2023/06/22/t-bone-slim-database-next-steps/.

Salmi-Niklander, Kirsti (2023).”’T-Bone Slim’ eli Matti V. Huhta ajatteli ja kirjoitti kahdella kielellä kulkurielämästä ja työläisten oikeuksista” Vähäisiä lisiä -blogi. Julkaistu 12.5.2023. https://www.finlit.fi/ajankohtaista/blogi/t-bone-slim-eli-matti-v-huhta-ajatteli-ja-kirjoitti-kahdella-kielella-kulkurielamasta-ja-tyolaisten-oikeuksista/.

Clayton, Owen (2023). ”Technocracy and T-Bone Slim’s Break with Ralph Chaplin” T-Bone Slim and the transnational poetics of the migrant left in North America -tutkimushankkeen blogi. Julkaistu 1.3.2023. https://blogs.helsinki.fi/tboneslim/2023/03/01/technocracy-and-t-bone-slims-break-with-ralph-chaplin/.

Dalbello, Marija (2022). ” From my Archival ‘Digs’, part I. Finding Slim!” T-Bone Slim and the transnational poetics of the migrant left in North America -tutkimushankkeen blogi. Julkaistu 12.12.2022. https://blogs.helsinki.fi/tboneslim/2022/12/12/finding-slim/.

Pinta, Saku (2022). ”T-Bone Slim’s Forgotten Finnish-Language Writings in the IWW Press” T-Bone Slim and the transnational poetics of the migrant left in North America -tutkimushankkeen blogi. Julkaistu 20.10.2022. https://blogs.helsinki.fi/tboneslim/2022/10/20/t-bone-slims-forgotten-finnish-language-writings-in-the-iww-press/.

Leiwo, Lotta (2022). ”T-Bone Slim Database – First Steps.” T-Bone Slim and the transnational poetics of the migrant left in North America -tutkimushankkeen blogi. Julkaistu 5.10.2022. https://blogs.helsinki.fi/tboneslim/2022/10/05/t-bone-slim-database-first-steps/.

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Harri Uusitalo

Harri Uusitalo
Kuva: Timo Tuovinen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Harri Uusitalo kertoo meille tutkimuksistaan erilaisten ja eri-ikäisten suomenkielisten tekstiaineistojen parissa.

Kuka olet?

Olen tutkijatohtori Harri Uusitalo Turun yliopistosta. Olen suomen kielen tutkija ja työskentelen tällä hetkellä historian, kulttuurin ja taiteiden tutkimuksen laitoksella monitieteisissä hankkeissa Fauna et Flora Fennica sekä Kadonneet, uhanalaiset ja saapuneet lajit – Ihmisten suhde Itämeren muuttuvaan biodiversiteettiin. Tutkimusryhmissä tarkastelemme suomalaisten historiallista luontosuhdetta.

Mikä on tutkimuksesi aihe?

Olen tutkinut eri-ikäisiä suomenkielisiä tekstiaineistoja alkaen Agricolan ajoista aina nykykieleen asti. Väitöstutkimukseni käsitteli 1600-luvun lakikieltä, ja viime aikoina ympäristöaiheet ja ekolingvistiset näkökulmat ovat temmanneet minut mukaansa.

Miten Kielipankki liittyy tutkimukseesi?

Olen yhdessä kollegojeni kanssa hyödyntänyt Kielipankin aineistoja muutamissa tutkimuksissani. Esimerkiksi Karita Suomalaisen kanssa tutkimme Suomi24-aineistoa ja Korp-työkalua käyttäen, miten hyvin suomalaiset tunnistavat vieraslajeja ja miten he niistä keskustelevat. Duha Elsayedin ja Heidi Salmen kanssa puolestaan käytimme Mikael Agricolan teosten morfosyntaktista tietokantaa, kun tarkastelimme Agricolan teosten A-infinitiivin translatiiveja.

Tulevissa tutkimuksissani hyödynnän mainittujen lisäksi varmasti monia muitakin Kielipankissa olevia aineistoja kuten Vanhan kirjasuomen korpusta, Varhaisnykysuomen korpusta ja Kansalliskirjaston lehtikokoelmaa.

Julkaisuja

Uusitalo Harri, Lähdesmäki Heta, Sonck-Rautio Kirsi, Latva Otto, Salmi Hannu & Alenius Teija (tulossa): Alien Plants between Practices and Representations: the Cases of European Spruce and Beach Rose in Finland. Plant Perspectives.

Uusitalo Harri & Suomalainen Karita 2023: Ecolinguistic Approach to Online Finnish Discourse on Invasive Alien Species. Language@Internet 21. https://www.languageatinternet.org/articles/2023/uusitalo

Elsayed Duha, Salmi Heidi & Uusitalo Harri 2022: A-infinitiivin translatiivi Mikael Agricolan teksteissä. Sananjalka 64. Suomen Kielen Seura, Turku. DOI: 10.30673/sja.107377

Aineistoja ja työkaluja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Tanja Säily

Tanja Säily
Kuva: Veikko Somerpuro

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tanja Säily kertoo meille englannin kielen tutkimuksestaan, jossa yhdistyvät korpuslingvistiikka, digitaaliset ihmistieteet ja historiallinen sosiolingvistiikka.

Kuka olet?

Olen Tanja Säily, englannin kielen apulaisprofessori Helsingin yliopistossa.

Mikä on tutkimuksesi aihe?

Tutkin englannin kielen vaihtelua ja muutosta sosiolingvistisestä näkökulmasta. Tutkimuksessani yhdistyvät korpuslingvistiikka, digitaaliset ihmistieteet ja historiallinen sosiolingvistiikka. Teen paljon yhteistyötä muiden kielentutkijoiden sekä historioitsijoiden kanssa; lisäksi kehitän uusia menetelmiä datatieteilijöiden ja kieliteknologien kanssa. Tutkin sosiolingvististä vaihtelua erityisesti kielellisessä produktiivisuudessa, kuten uudissanojen käytössä. Olen tutkinut myös sukupuolittuneita tyylejä ja kielenmuutoksen nopeuteen vaikuttavia tekijöitä.

Miten Kielipankki liittyy tutkimukseesi?

Käytän englannin kielen tekstikorpuksia, joita olen lisännyt myös Kielipankkiin itseni ja muiden käyttöön. Tällä hetkellä tutkin erilaisten kielellisten konstruktioiden produktiivisuutta Corpus of Historical American English (COHA) -aineistossa (mm. Säily & Vartiainen, tulossa). Olen käyttänyt korpusta Korp-työkalulla ja ladannut sen myös omalle koneelleni.

Olen laatinut historiallisen korpuslingvistiikan menetelmistä avoimesti saatavilla olevan oppimateriaalin graduntekijöille ja muille kiinnostuneille. Se on talletettu Kielitieteen metodipankkiin, ja harjoitustehtävissä käytetty Helsinki Corpus of English Texts -aineiston varhaisuusenglannin osio löytyy Kielipankista.

Julkaisuja

Tässä lyhyt luettelo muutamista tuoreimmista julkaisuistani; koko lista löytyy osoitteesta https://tanjasaily.fi/publications/

Accepted. Säily, Tanja, Martin Hilpert & Jukka Suomela. New approaches to investigating change in derivational productivity: Gender and internal factors in the development of -ity and -ness, 1600–1800. Patricia Ronan, Theresa Neumaier, Lisa Westermayer, Andreas Weilinghoff & Sarah Buschfeld (eds.), Crossing boundaries through corpora: Innovative approaches to corpus linguistics (Studies in Corpus Linguistics). Amsterdam: John Benjamins.

Accepted. Säily, Tanja & Turo Vartiainen. Historical linguistics. Michaela Mahlberg & Gavin Brooks (eds.), Bloomsbury handbook of corpus linguistics. London: Bloomsbury.

Accepted. Säily, Tanja, Turo Vartiainen, Harri Siirtola & Terttu Nevalainen. Changing styles of letter-writing? Evidence from 400 years of early English letters in a POS-tagged corpus. Luisella Caon, Moragh Gordon & Thijs Porck (eds.), Unlocking the history of English: Pragmatics, prescriptivism and text types (Current Issues in Linguistic Theory). Amsterdam: John Benjamins.

2023. Landert, Daniela, Tanja Säily & Mika Hämäläinen. TV series as disseminators of emerging vocabulary: Non-codified expressions in the TV Corpus. ICAME Journal 47(1): 63–79. DOI: 10.2478/icame-2023-0004

2022. Rodríguez-Puente, Paula, Tanja Säily & Jukka Suomela. New methods for analysing diachronic suffix competition across registers: How -ity gained ground on -ness in Early Modern English. International Journal of Corpus Linguistics27(4): 506–528. Special issue, Corpus studies of language through time, ed. by Tony McEnery, Gavin Brookes & Isobelle Clarke. DOI: 10.1075/ijcl.22014.rod

2021. Säily, Tanja, Eetu Mäkelä & Mika Hämäläinen. From plenipotentiary to puddingless: Users and uses of new words in early English letters. Mika Hämäläinen, Niko Partanen & Khalid Alnajjar (eds.), Multilingual Facilitation, 153–169. Helsinki: University of Helsinki. DOI: 10.31885/9789515150257.15

2020. Mäkelä, Eetu, Krista Lagus, Leo Lahti, Tanja Säily, Mikko Tolonen, Mika Hämäläinen, Samuli Kaislaniemi & Terttu Nevalainen. Wrangling with non-standard data. Sanita Reinsone, Inguna Skadiņa, Anda Baklāne & Jānis Daugavietis (eds.), Proceedings of the Digital Humanities in the Nordic Countries 5th Conference, Riga, Latvia, October 21–23, 2020 (CEUR Workshop Proceedings 2612), 81–96. Aachen: CEUR-WS.org. DHN 2020 Best Paper Award. http://ceur-ws.org/Vol-2612/paper6.pdf

2020. Nevalainen, Terttu, Tanja Säily, Turo Vartiainen, Aatu Liimatta & Jefrey Lijffijt. History of English as punctuated equilibria? A meta-analysis of the rate of linguistic change in Middle English. Journal of Historical Sociolinguistics 6(2): article 20190008. Special issue, Comparative Sociolinguistic Perspectives on the Rate of Linguistic Change, ed. by Terttu Nevalainen, Tanja Säily & Turo Vartiainen. DOI:10.1515/jhsl-2019-0008

2019. Hill, Mark J., Ville Vaara, Tanja Säily, Leo Lahti & Mikko Tolonen. Reconstructing intellectual networks: From the ESTC’s bibliographic metadata to historical material. Costanza Navarretta, Manex Agirrezabal & Bente Maegaard (eds.), Proceedings of the Digital Humanities in the Nordic Countries 4th Conference, Copenhagen, Denmark, March 6–8, 2019 (CEUR Workshop Proceedings 2364), 201–219. Aachen: CEUR-WS.org. DHN 2019 Best Paper Award. http://ceur-ws.org/Vol-2364/19_paper.pdf

2018. Säily, Tanja. Change or variation? Productivity of the suffixes -ness and -ity. Terttu Nevalainen, Minna Palander-Collin & Tanja Säily (eds.), Patterns of Change in 18th-century English: A Sociolinguistic Approach (Advances in Historical Sociolinguistics 8), 197–218. Amsterdam: John Benjamins. DOI: 10.1075/ahs.8

Aineistoja ja oppimateriaaleja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Liisa Mustanoja

Liisa Mustanoja
Kuva: Antti Yrjönen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Liisa Mustanoja kertoo meille sosiolingvistiikkaan liittyvästä tutkimuksestaan. Puhekielen muuttumista on mahdollista tutkia pitkittäiskorpuksen avulla, joka mahdollistaa samojen henkilöiden puheen tarkastelun eri ajanhetkillä.

Kuka olet?

Olen FT Liisa Mustanoja Tampereelta. Työskentelen suomen kielen yliopistonlehtorina Tampereen yliopiston Informaatioteknologian ja viestinnän tiedekunnan Kielten yksikössä. Tammikuusta 2024 alkaen hoidan Kielten yksikön päällikön tehtävää seuraavan viisivuotiskauden ajan. Olen myös suomen kielen dosentti Oulun yliopistossa erityisalanani sosiolingvistiikka.

Mikä on tutkimuksesi aihe?

Kaikki tähänastinen tutkimukseni on sijoittunut sosiolingvistiikan suuren sateenvarjon alle. Olen kiinnostunut kielen ja yhteiskunnan suhteesta, erityisesti kaikenlaisesta muutoksesta, murroksesta ja liikkeestä. Väitöstutkimuksessani tarkastelin Tampereen puhekielen muuttumista idiolektitasolla. Kyseessä oli niin sanottu reaaliaikainen paneelitutkimus, jossa tarkastelin samojen ihmisten kieltä kahden aikapisteen valossa. Myöhemmin olen yhdessä kollegojeni kanssa laajentanut tutkimusta Helsingin puhekieleen, ja olemme ottaneet mukaan myös kolmannen aikapisteen. Tarkastelun kohteena on ollut suurelta osin kielen äänne- ja muotorakenne, mutta aineistot ovat mahdollistaneet myös sosiofoneettista otetta. Yhdessä artikkelissa selvitimme esimerkiksi äänenkorkeuden muutoksia ajan myötä.

Variaationtutkimuksellisen polun lisäksi olen kiinnostunut puhutun ja kirjoitetun kielen rajapinnasta, ja se onkin tarjoillut toisen tutkimuksellisen suunnan, nimittäin kirjetutkimuksen. Olen tutkinut yksin ja yhdessä suomen kielen opiskelijoiden kanssa toisen maailmansodan aikaista kirjeenvaihtoa. Koska muuta yhteydenpitokeinoa ei sota-aikana ollut, kynään tarttuivat kaikki iästä, ammatista tai koulutustaustasta riippumatta. Vaikka kirjeaineistot ovat vanhoja, on niiden kautta avautunut olennaisia näköaloja ihmisten välisen yhteyden merkitykseen kriisiaikoina sekä arkeen ja ihmisyyteen maailman myllerryksen keskellä.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankissa on jo jonkin aikaa ollut säilytteillä Helsingin puhekielen pitkittäiskorpus, joka on tarjonnut minulle ja kollegoilleni tärkeän aineistolähteen kielenmuutoksen tutkimiseen. Tämä korpus saa toivon mukaan Kielipankkiin aivan lähikuukausina pikkusisaren, nimittäin Tampereen puhekielen pitkittäiskorpuksen. Tampereen puhekieltä on tallennettu entuudestaan 1970- ja 1990-luvuilla. Vuonna 2019 käynnistin vielä Tampereella kolmannen kierroksen aineistonkeruun, jota on opiskelijavoimin jatkettu aivan näihin päiviin saakka. FIN-CLARINilta saamani rahoituksen turvin minun on ollut mahdollista palkata myös joksikin aikaa aputyövoimaa aineiston työstämiseen. Nyt kaikki on aivan viimeisiä paperitöitä vaille valmiina. Henkilötietoja sisältävien puheaineistojen siirrossa ja arkistoinnissa on omat kommervenkkinsä, mutta Kielipankki on ehdottomasti paras mahdollinen loppusijoituspaikka näille arvokkaille pitkittäisaineistoille. Aineiston luovuttamisen kynnyksellä tuntuu, että materiaalia pitäisi olla enemmän ja täydellisempää ja että litteraattejakin pitäisi loputtomiin tarkistaa. Mutta oikeasti jokainen pienikin aineistolisäys Kielipankkiin on hieno lahja tutkijayhteisölle. Ja aineistojen edes osittaisen avaamisen myötä joku muukin pääsee halutessaan litterointitalkoisiin!

Kielipankin aineistoista haluan vielä mainita Suomi24-korpuksen, joka soveltuu mukavasti opiskelijatöihin. Muutenkin nykypäivänä, kun tietosuoja-asiat askarruttavat entistä enemmän, opiskelijoita on huojentavaa ohjata näiden valmiiden aineistojen pariin. Itsellenikin Kielipankissa on vielä paljon uutta ihmeteltävää. Kiinnostukseni sota-ajan kirjeisiin on esimerkiksi vienyt minut hiljattain Kalle Päätalon Iijoki-sarjan korpuksen äärelle, ja olen ollut aivan yllättynyt tämänkin runsaudensarven tutkimuksellisista mahdollisuuksista.

Julkaisuja

Mustanoja Liisa, O’Dell Michael & Lappalainen Hanna, 2022: Helsinkiläis- ja tamperelaispuhujien äänenkorkeuden muutokset 1970-luvulta 2010-luvulle. Puhe ja kieli. https://doi.org/10.23997/pk.121404

Kuparinen Olli, Santaharju Jenni, Leino Unni, Mustanoja Liisa & Peltonen Jaakko 2022: Katomuotojen eteneminen hd-yhtymässä Helsingin puhekielessä. Virittäjä 126, s. 316–338. https://doi.org/10.23982/vir.100585

Kuparinen Olli, Peltonen Jaakko, Mustanoja Liisa, Leino Unni & Santaharju Jenni, 2021: Lects in Helsinki Finnish – a probabilistic component modeling approach. Language Variation and Change. https://doi.org/10.1017/S0954394521000041

Lappalainen Hanna, Mustanoja Liisa & O’Dell Michael, 2019: Miten ja milloin yksilön kieli muuttuu? Helsinkiläisidiolektien muutos ja muutoksen tutkimuksen menetelmät. Virittäjä 123, s. 550–581. https://doi.org/10.23982/vir.67808

Kuparinen Olli, Mustanoja Liisa, Peltonen Jaakko, Santaharju Jenni & Leino Unni, 2019: Muutosmallit kolmen aikapisteen pitkittäisaineiston valossa. Sananjalka 61. s. 30–56. https://doi.org/10.30673/sja.80056

Mustanoja Liisa, 2018: Sydämellisiä kirjeitä talvisodasta. Hämäläisten sotilaiden kiitoskirjeet aikansa kielen ja kirjeenvaihtokulttuurin heijastajina. Sisko Brunni, Niina Kunnas, Santeri Palviainen ja Jari Sivonen (toim.), Kuinka mahottomasti nää tekkiit. Juhlakirja Harri Mantilan 60-vuotispäivän kunniaksi. Studia humaniora ouluensia 16. Oulu, s. 251–285. https://urn.fi/URN:ISBN:9789526221120

Mustanoja Liisa (toim.), 2017: Arjen sirpaleita ja suuria tunteita: Kirjeet sodan sanoittajina ja ihmissuhteiden ylläpitäjinä 1939–1944. Tampere Studies in Language, Translation and Literature B5. Tampereen yliopisto. https://urn.fi/URN:ISBN:978-952-03-0527-7

Mustanoja Liisa, 2011: Idiolekti ja sen muuttuminen: reaaliaikatutkimus Tampereen puhekielestä. Tampere: Tampere University Press. https://urn.fi/urn:isbn:978-951-44-8417-9

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Tiina Onikki-Rantajääskö

Tiina Onikki-Rantajääskö
Kuva: Veikko Somerpuro

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tiina Onikki-Rantajääskö kertoo meille Tieteen termipankin toimintaperiaatteista sekä kutsuu kiinnostuneita asiantuntijoita mukaan termitalkootöihin.

Kuka olet?

Olen Tiina Onikki-Rantajääskö, suomen kielen professori Helsingin yliopistossa. Vedän myös Tieteen termipankkia.

Mikä on tutkimuksesi aihe?

Olen ylipäänsä kiinnostunut siitä, miten sanasto ja kieliopilliset rakenteet jäsentävät kielellistä merkitystä ja toimivat myös suhteessa laajempaan tekstikontekstiin. Eniten olen julkaissut suomen paikallissijajärjestelmään liittyvää tutkimusta. Tällä hetkellä saan seurata nuorempien tutkijoiden pyrkimyksiä yhdistää laadullista ja määrällistä tutkimusta Eetu Mäkelän kanssa pyörittämässämme ja Koneen Säätiön rahoittamassa hankkeessa Alustat ja retoriset ryhmästrategiat. Itseäni kiinnostaa erityisesti kysymys, voivatko jotkin konstruktiot indikoida laajempia diskurssirakenteita. Oma aikani menee kuitenkin tänä talvena oikeusministeriön asettamana suomen kielen selvityshenkilönä.

Miten Kielipankki liittyy tutkimukseesi?

Käytän Kielipankin suomen kielen aineistoja jatkuvasti, kun on tarpeen saada tietoa jonkin sanan tai kieliopillisen elementin käyttöyhteyksistä. Useita aiemminkin hyödyntämiäni aineistoja löytyy nykyisin Kielipankista, kuten oman projektini kokoama HS.fi-uutiskommenttiaineisto.

Lisäksi Tieteen termipankki toimii FIN-CLARIAH-tutkimusinfrastruktuurissa yhteistyössä Kielipankin kanssa. Tämä näkyy mm. siinä, että termipankin verkkopalveluun pääsee myös Kielipankin kautta. Termipankilla on myös oma työntekijä, jonka palkkaamisen FIN-CLARIAH-hanke mahdollistaa (Suomen Akatemian FIRI-rahoitus). Tarvetta on myös kieliteknologiselle yhteistyölle.

Tieteen termipankki on edelleen sisällöllisen rakentumisen vaiheessa. Pyrimme saamaan yhä enemmän eri tieteenalojen tutkijoita mukaan termityöhön ja koko ajan uusia tieteenaloja liittymään termipankkiin. Tieteen termien määrittely ja muun käsitteitä koskevan taustatiedon antaminen vaatii kunkin alan asiantuntemusta. Menetelmänä on siksi asiantuntijoiden rajoitettu talkoistaminen (niche sourcing), jota projektisuunnittelijamme tukee. Tavoitteena on edistää tieteen monikielisyyttä sen lisäksi, että tarjotaan avointa tietoa, joka kertoo tieteellisestä tiedonmuodostuksesta ja helpottaa tieteen hyödyntämistä. Tieteen käsitteet ovat tutkimuksen ytimessä. Monikielisyyttä auttaa erityisesti se, että termeille annetaan käännösvastineita eri kielillä. Suomen kieli on keskiössä, koska suomen kieltä halutaan kehittää tieteen kielenä. Määritelmiä ja käsitesivuja on kuitenkin mahdollista esittää muillakin kielillä kuin suomeksi. Termipankki avaa siten mahdollisuuksia kansainväliseen yhteistyöhön. Erityisesti monikielisille ja monitieteisille tutkimusryhmille termipankki on mahdollisuus yhteisen terminologisen maaperän muokkaamiseen. Kaikki kiinnostuneet ovat tervetulleita mukaan.

Tutkimuksellinen kiinnostukseni Tieteen termipankissa kohdistuu mm. taustatiedon kehysten esittämiseen ja prototyyppisyyden ilmenemiseen sekä yhteistoiminnallisuuteen: tieteen termipankin asiantuntijoiden verkosto ja verkkopalvelu vaikuttavat toisiinsa ja muodostavat toiminnan kentän, joka poikkeaa perinteisistä tutkimushankkeista.

Julkaisuja

Enqvist, Johanna & Tiina Onikki.Rantajääskö & Kaarina Pitkänen-Heikkilä 2021: Terminology work as open, communal and collaborative crowdsourcing practice of academic communities. – Terminology 27:1, Pp. 56-79. DOI: 10.1075/term.00058.enq

Jaakola, Minna & Tiina Onikki-Rantajääskö (eds.) 2023: The Finnish Cases System: Cognitive Linguistic Perspectives. Helsinki:SKS. DOI: doi.org/10.21435/sflin.23

Kettunen, Harri & Tiina Onikki-Rantajääskö (tulossa): Vetenskapstermbanken i Finland i samhällets tjänst. – Publikation Nordterm 2023.

Kettunen, Harri & Tiina Onikki-Rantajääskö (tulossa): Tieteen termipankki tieteentekemisen ytimessä. – Kieliviesti 2/2023.

Onikki-Rantajääskö, Tiina & Harri Kettunen 2023: Vuosi 2022 Tieteen termipankissa: Laajenemista uusille aihealueille ja tunnustuspalkintoja avoimen tieteen edistämisestä. – Tieteen termipankin blogi. Helmikuu/2023. https://blogs.helsinki.fi/tieteentermipankki/2023/02/16/vuosi-2022-tieteen-termipankissa-laajenemista-uusille-aihealueille-ja-tunnustuspalkintoja-avoimen-tieteen-edistamisesta/

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Aleksi Sahala

Aleksi Sahala
Kuva: Marianne Ough

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aleksi Sahala kertoo meille, millä tavoin kieliteknologian menetelmiä voidaan soveltaa muinaisten tekstien tutkimukseen, esim. tekstimateriaalin annotointiin ja sisällölliseen analyysiin.

Kuka olet?

Olen Aleksi Sahala, assyriologian ja kieliteknologian tutkijatohtori. Työskentelen tällä hetkellä Helsingin yliopistolla Suomen Akatemian rahoittamassa The Origins of Emesal -projektissa, jossa päämääränä on selvittää sumerin liturgisen kielimuodon, emesalin, syntyä ja kehitystä kieliteknologian menetelmin.

Tein maisterin opinnot kieliteknologiassa ja assyriologiassa, ja väittelin tohtoriksi Helsingin yliopistolla aiheesta Contributions to Computational Assyriology. Vietin syyslukukauden 2022 vierailevana tutkijana Berkeleyn yliopistolla Kaliforniassa, ja suunnitelmissa on tehdä toinen tutkijavierailu Innsbruckin yliopistolle Itävaltaan 2024. Olen toiminut tiiviissä yhteistyössä myös Helsingin yliopistolla toimivan Muinaisen Lähi-idän imperiumit -huippuyksikön kanssa.

Mikä on tutkimuksesi aihe?

Tutkin kieliteknologian menetelmien soveltamista muinaisten tekstien annotointiin ja sisällölliseen analyysiin. Olen erityisesti keskittynyt muinaisen Mesopotamian nuolenpääteksteihin, joita laadittiin sumeriksi noin vuosien 3200 eaa. ja 100 jaa., ja akkadiksi noin vuosien 2500 eaa. ja 100 jaa. välisenä aikana. Tämän tekstimateriaalin koneellinen analysointi on hankalaa muutamastakin syystä. Ensinnäkin dataa on verrattain vähän (muutamia miljoonia sanoja), ja toiseksi tekstimateriaali on melko fragmentaarista, sillä se on tyypillisesti kasattu savitaulujen säilyneistä palasista tai näiden muinaisista kopioista. Sanoja, niiden osia tai kokonaisia rivejä saattaa siis puuttua. Kolmanneksi niin nuolenpääkirjoitusjärjestelmä kuin sumerin ja akkadin kielten muoto-opitkin ovat monimutkaisia. Tämän johdosta useat sanat saattavat esiintyä teoreettisesti useissa tuhansissa kieliopillisissa muodoissa, ja nämä muodot voidaan puolestaan kirjoittaa jopa kymmenillä eri tavoilla.

Tärkein kiintopiste tutkimuksessani on ollut se, kuinka täysin annotoimattomasta tekstistä eli translitteraatiosta päästään mahdollisimman automaattisesti visualisoimaan esimerkiksi käsitteiden tai henkilöiden välisiä suhteita käyttämällä satoja tai tuhansia tekstejä lähdemateriaalina yhtäaikaisesti. Vaikka assyriologit ovatkin digitoineet yli 20 000 akkadinkielistä ja yli 100 000 sumerinkielistä tekstiä, perinteisesti tutkimus on perustunut siihen, että tekstejä lähiluetaan yksitellen, mikä saattaa tehdä laajojen, tekstien välisten kaavamaisuuksien hahmottamisesta haasteellista. Tietokoneavusteinen tutkimus pyrkii paikkaamaan tätä aukkoa.

Olen kehittänyt työkaluja akkadin kielen morfologiseen analyysiin (BabyFST), useiden historiallisten kielten neuroverkkopohjaiseen perusmuotoistukseen eli lemmaukseen sekä sanaluokkajäsennykseen, joilla kirjoitusjärjestelmän ja muoto-opillisen monimutkaisuuden aiheuttamia ongelmia voidaan lieventää (BabyLemmatizer). Lisäksi olen tutkinut sitä, kuinka käsitteiden semanttisia suhteita voidaan laskea ja visualisoida pienissä ja rikkonaisissa korpuksissa sanavektoreiden ja assosiaatiomittojen avulla (PMI Embeddings).

Tällä hetkellä tutkimukseni keskittyy erityisesti erääseen sumerin kielen kielimuotoon, emesaliin, jota käytettiin muun muassa liturgisissa teksteissä. Tätä kielimuotoa on dokumentoitu vasta sumerin kuoltua puhuttuna kielenä muinaisbabylonialaisten kirjureiden laatimissa teksteissä, eikä sen tarkkaa käyttökontekstia ja kehityshistoriaa edelleenkään tunneta. Projektissa paitsi annotoidaan emesalia sisältäviä tekstejä, myös pyritään luomaan malleja, joilla voidaan ennustaa ja selittää emesalin käyttökonteksteja. Emesal-tekstejä ei koskaan laadittu kokonaan tällä kielimuodolla, vaan ne kirjoitettiin sumeriksi, ja vain osa sanoista kirjoitettiin emesaliksi ilmaisemaan, että kyseinen rivi tai katkelma tulisi lukea tällä kielimuodolla. Kyseessä on siis eräänlainen koodinvaihto kahden eri kielimuodon välillä, mutta ne kontekstit, joissa muodoista vaihdettiin toiseen eivät ole edelleenkään selviä. Tiedetään vain, että tyypillisesti emesalia esiintyi liturgisissa teksteissä sekä tietyissä tekstityypeissä kuvaamaan jumalattarien tai naispuolisten henkilöiden puhetta. Näissäkään tosin kielimuodon käyttö ei ole johdonmukaista.

Mikäli erilaisia kaavamaisuuksia tämän kielimuodon käytölle voidaan hahmottaa, tarkoitus on tutkia sitä, kuinka kielimuoto alkujaan syntyi, ja kuinka se kehittyi sen noin 2000-vuotisen käyttöhistorian aikana. Aihe on haasteellinen, sillä emesalia sisältäviä tekstejä ei ole säilynyt kuin muutama tuhat.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki on tehnyt yhteistyötä Muinaisen Lähi-idän imperiumit -huippuyksikön kanssa pääsääntöisesti annotoimalla nuolenpääkirjoituksella laadittuja tekstiaineistoja Korp-konkordanssipalveluun. Olen vastannut näiden aineistojen keräämisestä ja muuntamisesta tarvittavaan VRT-muotoon sekä näiden annotoinnista ja harmonisoinnista kehittämilläni työkaluilla, jotta aineistoja voidaan käyttää Korpissa.

Viimeisin projekti on ollut Achemenet-korpuksen sisältämien uusbabylonialaisten laki- ja hallinnollisten tekstien annotointi ja harmonisointi jo olemassa olevien tekstikokoelmien kanssa.

Julkaisuja

Alstola, T., Zaia, S., Sahala, A., Jauhiainen, H., Svärd, S., & Lindén, K. (2019). Aššur and his friends: a statistical analysis of neo-assyrian texts. Journal of Cuneiform Studies, 71(1), 159–180. http://hdl.handle.net/10138/303986

Alstola, T., Jauhiainen, H., Svärd, S., Sahala, A., & Lindén, K. (2023). Digital Approaches to Analyzing and Translating Emotion: What Is Love?. In The Routledge Handbook of Emotions in the Ancient Near East. Taylor & Francis. http://hdl.handle.net/10138/348398

Bennet, E. & Sahala, A. (2023). Using Word Embeddings for Identifying Emotions Relating to the Body in a Neo-Assyrian Corpus. In Proceedings of the Ancient Natural Language Processing Workshop at RANLP 2023. http://hdl.handle.net/10138/565513

Ihalainen, P. & Sahala, A. (2020). Evolving Conceptualisations of Internationalism in the UK Parliament. Digital Histories, 199.

Luukko, M., Sahala, A., Hardwick, S., & Lindén, K. (2020). Akkadian treebank for early neo-assyrian royal inscriptions. In Proceedings of the 19th International Workshop on Treebanks and Linguistic Theories. The Association for Computational Linguistics. http://hdl.handle.net/10138/322305

Sahala, A. J. A. (2017). Johdatus sumerin kieleen. Suomen itämainen seura.

Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020). BabyFST: Towards a finite-state based computational model of ancient babylonian. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3886–3894). http://hdl.handle.net/10138/317691

Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020). Automated phonological transcription of Akkadian cuneiform text. In Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). European Language Resources Association (ELRA). http://hdl.handle.net/10138/317688

Sahala, A. (2021). Contributions to Computational Assyriology. PhD Thesis. University of Helsinki. http://urn.fi/URN:ISBN:978-951-51-7416-1

Sahala, A., & Töyräänvuori, J. (2022). Kirjoitustaidon kehittyminen. Teoksessa Svärd, S. & Töyräänvuori, J. (toim.), Muinaisen Lähi-idän imperiumit. Kadonneiden suurvaltojen kukoistus ja tuho, s.49–69. Gaudeamus, Helsinki.

Sahala, A., & Svärd, S. (2022). Language technology approach to “seeing” in Akkadian. In The Routledge Handbook of the Senses in the Ancient Near East. Taylor & Francis. http://hdl.handle.net/10138/339256

Sahala, A., Alstola, T., Valk, J., & Lindén, K. (2023, June). Lemmatizing and POS-tagging Akkadian with BabyLemmatizer and Dictionary-Based Post-Correction. In Selected papers from the CLARIN Annual Conference 2022 (pp. 111–119). http://hdl.handle.net/10138/563733

Sahala, A. & Lindén, K. (2023). A Neural Pipeline for Lemmatizing and POS-tagging Cuneiform Languages. In Proceedings of the Ancient Natural Language Processing Workshop at RANLP 2023.

Svärd, S., Jauhiainen, H., Sahala, A., & Lindén, K. (2018). Semantic Domains in Akkadian Texts. CyberResearch on the Ancient Near East and Neighboring Regions. Case Studies on Archaeological Data, Objects, Texts, and Digital Archiving, 2, 224–256. http://hdl.handle.net/10138/241805

Svärd, S., Alstola, T., Jauhiainen, H., Sahala, A., & Lindén, K. (2020). Fear in akkadian texts: New digital perspectives on lexical semantics. In The Expression of Emotions in Ancient Egypt and Mesopotamia (pp. 470–502). Brill. http://hdl.handle.net/10138/328017

Työkaluja

  • BabyLemmatizer, OpenNMT:hen perustuva neuroverkkopohjainen lemmatisaattori ja taggeri. Esiopetettuja malleja muinaiskreikalle, latinalle, akkadin eri murteille, sumerille ja urartulle.
  • BabyFST, äärellistilainen Fomalla kirjoitettu transduktori akkadin ja erityisesti babylonian morfologialle.
  • PMI-Embeddings, hyperparametrisoitu työkalu sanavektorimallien luomiseen pienistä tekstiaineistoista hyödyntäen erilaisia sana-assosiaatiomittoja ja pääakselihajotelmaa.

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Anna Dmitrieva

Anna Dmitrieva
Anna Dmitrieva (takana) ja Aleksandra Konovalova (edessä), Suomi-selkosuomi-rinnakkaiskorpuksen tekijät. Kuva: Anna Dmitrieva

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Anna Dmitrieva kertoo meille selkokielistämiseen liittyvästä tutkimuksestaan. Laskennalliset menetelmät ja rinnakkaisaineistojen koostaminen ovat olennainen osa hänen työtään.

Kuka olet?

Olen Anna Dmitrieva, väitöskirjatutkija Helsingin yliopiston kielentutkimuksen tohtoriohjelmassa HELSLANGissa.

Mikä on tutkimuksesi aihe?

Pääasiallinen kiinnostukseni on tekstin selkokielistäminen. Olen opiskellut tietokonelingvistiikkaa vuodesta 2012, kun aloitin kandidaatinopintoni. Sen jälkeen olen tehnyt paljon luonnollisen kielen käsittelyyn (NLP) liittyviä asioita, mutta tekstin yksinkertaistaminen on ollut keskiössä etenkin jatko-opintojeni aikana.

Selkokielistäminen on prosessi, jossa tekstistä tehdään ”yksinkertaisempi”. Selkokielistetyn tekstin pitäisi olla helppolukuisempi ja laajemman yleisön saavutettavissa. NLP:ssä tätä prosessia voidaan lähestyä yksikielisenä konekäännösongelmana. Koulutamme malleja, joilla voidaan kääntää tai muuntaa tekstiä: tietyllä kielellä laaditusta lähdetekstistä saadaan ”yksinkertaisempi” versio samalla kielellä. Tähän tehtävään tarvitaan tyypillisesti paljon rinnakkaisdataa, jossa jokaiselle lähdetekstille on olemassa vastaava ”helppo” kohdeteksti.

Työskentelen sellaisten kielten parissa, joista ei vielä ole paljon selkokielistettyjä aineistoja, koostan niistä aineistoja ja koulutan selkokielistämismalleja. Väitöstutkimukseni aikana olen koonnut venäjän ja suomen kielen selkokielistämisaineistoja ja -malleja. Tutkin myös kontrolloitua selkokielistämistä, jossa pyritään säätelemään selkokielistämismallin tuotoksen tiettyjä kielellisiä ominaisuuksia.

Miten Kielipankki liittyy tutkimukseesi?

Suomalaisena yliopisto-opiskelijana olen luonnollisesti ajatellut tehdä suomen kielelle selkokielistämismallin. Koska suomen kielelle ei ollut olemassa rinnakkaisia selkokielikorpuksia, minun oli tehtävä sellainen itse. Ilmeisin valinta aineistolähteeksi oli Ylen suomenkielisen uutisarkiston selkouutiset: ne ovat olemassa tekstimuodossa, niitä on ollut olemassa suhteellisen kauan ja niille on vastineet ”tavallisessa” suomessa. Oli huojentavaa huomata, ettei minun tarvinnut itse haravoida uutisia Ylen API:n kautta, sillä kaikki arkistot olivat jo Kielipankissa.

Minun oli kuitenkin ratkaistava ongelma, joka liittyi selkokielisen suomen ja tavallisen suomen uutisten kohdistamiseen keskenään. Käytin automaattista kohdistusmenetelmää, mutta työn tueksi ei ollut tarjolla valmista dokumenttiparien testijoukkoa, jolla olisin voinut tarkistaa kohdistustuloksen laadun. Ystäväni Aleksandra Konovalova (Turun yliopisto) tuli apuun ja arvioi itse 1919 dokumenttiparia. Yhdessä rakensimme Suomen ja selkosuomen rinnakkaiskorpuksen, joka on nyt saatavilla Kielipankissa. Parhaillaan olen lisäämässä uusia dokumenttipareja sekä tuotan aineistosta lausetasolla kohdistettua versiota, joka toivottavasti myös tulee valmistuttuaan saataville Kielipankkiin.

Julkaisuja

Dmitrieva, A. & Konovalova, A. Creating a parallel Finnish—Easy Finnish dataset from news articles. Jun 2023, Proceedings of the 1st Workshop on Open Community-Driven Machine Translation. Esplá-Gomis, M., Forcada, M., Kuzman, T., Ljubešić, N., van Noord, R., Ramírez-Sánchez, G., Tiedemann, J. & Toral, A. (eds.). Universitat d’Alacant, p. 21-26 6 p. https://macocu.eu/static/media/proceedings.37b7e88ce3dbab99adf9.pdf#page=27

Dmitrieva, A. Automatic text simplification of Russian texts using control tokens. May 2023, Proceedings of the 9th Workshop on Slavic Natural Language Processing 2023 (SlavicNLP 2023). Piskorski, J., Marcińczuk, M. & Nakov, et al., P. (eds.). Stroudsburg: Association for Computational Linguistics (ACL), p. 70-77 8 p. DOI: 10.18653/v1/2023.bsnlp-1.9

Dmitrieva, A. The role of language technology in accessible communication research. Jun 2023, Emerging Fields in Easy Language and Accessible Communication Research. Deilen, S., Hansen-Schirra, S., Hernández Garrido, S., Maaß, C. & Tardel, A. (eds.). Frank & Timme, p. 319-338 20 p. (Easy – Plain – Accessible; vol. 14). https://researchportal.helsinki.fi/fi/publications/the-role-of-language-technology-in-accessible-communication-resea

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Sampo Pyysalo

Sampo Pyysalo
Kuva: Pasi Leino / Turun yliopisto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Sampo Pyysalo kertoo meille luonnollisen kielen käsittelyyn liittyvästä tutkimuksestaan. Avoimesti saatavilla olevat suuret kielimallit ovat välttämättömiä, jotta myös suomen kaltaisille pienille kielille voidaan luoda ChatGPT:n kaltaisia työkaluja.

Kuka olet?

Olen Sampo Pyysalo, yliopistotutkija Turun yliopiston TurkuNLP-ryhmässä.

Mikä on tutkimuksesi aihe?

Tutkin luonnollisen kielen käsittelyn koneoppimismenetelmiä, ja keskityn erityisesti suomenkielisen tekstin käsittelyyn sekä biolääketieteen alan tieteellisen kirjallisuuden analysointiin. Viimeisimmät työni ovat liittyneet suurten neuroverkkopohjaisten kielimallien kouluttamiseen. Tällaisiin lukeutuvat yleiset ”perusmallit”, kuten FinBERT ja FinGPT, sekä tehtäväkohtaiset mallit, kuten nimettyjen entiteettien tunnistusmalli (Fin-NER) suomen kielelle. Työskentelen myös datan parissa. Koostan raakatekstiaineistoja perusmallien valvomatonta opettamista varten sekä pyöritän käsinannotointihankkeita Turku NER– ja TurkuONE-korpusten kaltaisten aineistojen tuottamiseksi, sillä niitä tarvitaan perusmallien valvottuun opettamiseen.

Suuria neuroverkkopohjaisia kielimalleja käytetään nykyaikaisessa luonnollisen kielen käsittelyssä hyvin laajasti ja niihin perustuvat myös ChatGPT:n kaltaiset työkalut. Useimmat tällaiset mallit kuitenkin keskittyvät englannin kieleen, eivätkä monet parhaista kielimalleista ole julkisesti saatavilla. Uskomme, että FinBERTin ja FinGPT:n tyyppiset avoimesti saatavilla olevat suomenkieliset mallit ovat välttämättömiä, jotta suomen kielelle voidaan rakentaa yhtä kyvykkäitä työkaluja kuin englannin kielelle.

Miten Kielipankki liittyy tutkimukseesi?

Suurten kielimallien luomiseen alusta alkaen tarvitaan miljardeja sanoja tekstiä, eikä tämän kokoisia suomen kielen kokoelmia ole helposti saatavilla. Jotta olemme saaneet koottua riittävän suuria korpuksia kielimallien koulutusta varten, olemme hyödyntäneet monenlaisia lähteitä, ml. verkkosivujen haravointia ja Kielipankin kautta saatavilla olevia aineistoja, kuten Ylen ja STT:n uutisarkistoja sekä Suomi24-korpusta. TurkuNLP:n luomia aineistoja jaamme muiden kanavien ohella myös Kielipankin kautta.

Toivoaksemme voimme jo lähitulevaisuudessa tarjota tutkijoille Kielipankin kautta pääsyn niihin kokotekstiaineistoihin, joita olemme kielimallien luomisessa käyttäneet. Näin tutkimustyömme toistettavuus paranee ja suomen kielen mallien luominen helpottuu.

Julkaisuja

J. Luoma & LH. Chang & F. Ginter & S. Pyysalo. 2021. Fine-grained Named Entity Annotation for Finnish. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), pages 135–144, Reykjavik, Iceland (Online). Linköping University Electronic Press, Sweden. https://aclanthology.org/2021.nodalida-main.14

A. Virtanen & J. Kanerva & R. Ilo & J. Luoma & J. Luotolahti & T. Salakoski & F. Ginter & S. Pyysalo. 2019. Multilingual is not enough: BERT for Finnish. In CoRR, abs/1912.07076. https://doi.org/10.48550/arXiv.1912.07076

Aineistoja

Lisätietoa

  • TurkuNLP group of the University of Turku
  • FinBERT, TurkuNLP-ryhmän kehittämä suomenkielinen versio Googlen syväoppivasta BERT-tekoälymallista
  • FinGPT, GPT-3:n kaltaisia generatiivisia suomen kielen malleja
  • Finnish NER, suomenkielisten nimettyjen entiteettien tunnistin (Named Entity Recognizer), joka pohjautuu FinBERTiin sekä UD_Finnish-TDT-puupankkiin lisättyyn nimettyjen entiteettien annotaatiokerrokseen

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Hae Kielipankki-portaalista:
Pekka Posio
Kuukauden tutkija: Pekka Posio

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot