Kuukauden tutkija: Emmi Lahti

Emmi Lahti, photo: Julius Jaakola
Kuva: Julius Jaakola

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Emmi Lahti kertoo retoriikkaan ja diskurssintutkimukseen liittyvästä tutkimustyöstään, jossa hän on hyödyntänyt Kielipankissa olevaa Suomi 24 -korpusta (2016H2).

Kuka olet?

Olen Emmi Lahti, apurahatutkija Helsingin yliopistossa. Väittelin suomen kielestä vuonna 2019. Kiinnostukseni kohteita ovat erityisesti argumentointi ja retoriikka sekä kriittinen diskurssintutkimus. Minua kiehtoo loputtomasti sen pohtiminen, millä kaikilla tavoin kieli osallistuu sosiaalisen todellisuuden rakentamiseen.

Mikä on tutkimuksesi aihe?

Väitöskirjatutkimuksessani analysoin maahanmuuttokeskustelujen retoriikkaa. Aineistona käytin Suomi24:n maahanmuuttoaiheisia keskusteluja vuodelta 2015. Tutkimuksessani tarkastelin erityisesti sitä, miten eri ryhmiä kielellisesti rakennetaan, millaisia argumentteja ja argumentointistrategioita keskusteluissa käytetään sekä miten niissä ilmaistaan eri- ja samanmielisyyttä toisten keskustelijoiden kanssa.

Tutkimuksen tulokset osoittavat erityisesti, miten samanmieliset, maahanmuuttoa vastustavat keskustelijat osoittavat toisilleen solidaarisuutta ja tukea sekä rakentavat yhteistä maailmankuvaa ja yhteistä argumentaatiota.

Miten Kielipankki liittyy tutkimukseesi?

Väitöskirjatutkimuksessani hyödynsin Kielipankin Suomi24-aineistoja. Suomi 24 virkkeet -korpusta (2016H2) voi käyttää Kielipankin Korp-käyttöliittymän kautta ja vastaavan sisällön voi myös ladata itselleen tutkimuskäyttöön Suomi 24 -korpus (2016H2) -nimisestä aineistoversiosta. Tutkimustani varten päädyin valitsemaan ladattavan aineiston, josta poimin 117 keskusteluketjua analyysiani varten.

Kielipankkiin liittyviä julkaisuja:

Lahti, Emmi (2019). Maahanmuuttokeskustelun retoriikkaa. Väitöskirja. Helsinki: Helsingin yliopisto. http://urn.fi/URN:ISBN:978-951-51-5707-2

 

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mats Fridlund

Mats Fridlund
Kuva: Mats Fridlund

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Professori Mats Fridlund kertoo digitaaliseen historiaan liittyvästä tutkimustyöstään, jonka tukena ovat työkalut ja aineistot sekä suomalaisessa Kielipankissa että Ruotsin Språkbankenissa.

Kuka olet?

Olen Göteborgin yliopiston aate- ja oppihistorian (idé- och lärdomshistoria) apulaisprofessori ja digitaalisten ihmistieteiden keskuksen varajohtaja. Koulutukseltani olen teknillisen fysiikan diplomi-insinööri ja teknologian historian tohtori Tukholman KTH:sta. Vuosina 2013-2018 työskentelin Aalto-yliopistossa Suomessa teollistumisen historian apulaisprofessorina.

Mikä on tutkimuksesi aihe?

Tieteen, teknologian ja innovaatioiden historian tutkijana ja kehkeytyvänä digitaalisena historioitsijana mielenkiintoni kohdistuu infrastruktuurien historiaan ja teknologian poliittiseen historiaan.

Aloitin infrastruktuurien historian tutkimukseni tarkastelemalla käyttäjien roolia sähköenergia- ja televiestintäjärjestelmien kehityksessä, mutta parin viime vuoden kuluessa olen laajentanut tutkimiskohteitani digitaalisiin infrastruktuureihin. Tutkin erityisesti sitä, kuinka akateemiset käyttäjät, mm. historian tutkijat, ovat muuttaneet ammatillisia käytänteitään voidakseen hyödyntää esimerkiksi sellaisia uusia digitaalisia infrastruktuureja joita Kielipankin kautta tarjotaan. Tähän liittyy myös viimeaikainen kiinnostukseni digitaalisia ihmistieteitä kohtaan.

Vuodesta 2012 alkaen olen ollut mukana useissa suomalaisissa ja ruotsalaisissa hankkeissa, joissa on kehitetty digitaalisia ihmistieteitä ja eritoten digitaalista historiaa. Olen ollut vastuullisena tutkijana kahdessa Koneen Säätiön rahoittamassa hankkeessa, joissa on kehitetty ja vahvistettu suomalaista digitaalista historiaa (ks. Paju et al. 2020). Vuodesta 2019 olen toiminut Göteborgin yliopiston ihmistieteiden keskuksen varajohtajana ja sitä kautta minulle tarjoutuu tilaisuuksia kehittää yhdessä kieliteknologien ja insinöörien kanssa uusia digitaalisia infrastruktuureja humanisteille, yhteiskuntatieteilijöille ja laajemmallekin yleisölle.

Tämänhetkinen poliittisen teknologiahistorian tutkimukseni keskittyy terrorismin globaaliin teknologiahistoriaan myöhäisestä 1700-luvusta aina nykypäivään saakka. Johdan kahta terrorismin historiaan liittyvää tutkimushanketta: Things for living with terror: a global history of the materialities of urban terror and security, jota rahoittaa Ruotsissa Riksbankens Jubileumsfond, sekä laajaa hanketta nimeltä Terrorism in Swedish politics (SweTerror): A multimodal study of the configuration of terrorism in parliamentary debates, legislation and policy networks in Sweden 1968–2018. Jälkimmäinen on osa Ruotsin hallituksen käynnistämää digitaalisten ihmistieteiden DIGARV-tutkimusohjelmaa ja sitä rahoittavat Vetenskapsrådet, Riksbankens Jubileumsfond sekä Kungliga Vitterhets Historie och Antikvitets Akademien. SweTerror-hankkeessa tuomme saataville Ruotsin valtiopäivien poliittisia keskusteluja digitaalisina teksti- ja ääniaineistoina yhteistyössä Ruotsin Språkbankenin kanssa.

Miten Kielipankki liittyy tutkimukseesi?

Osana terrorismin historian tutkimustani käytän erilaisia laajoja digitaalisia tekstikorpuksia. Analysoin niistä mediadiskursseja ja pyrin jäljittämään terrorismin ilmaantumista poliittisena ja kulttuurisena ilmiönä. Olen tällä hetkellä mukana mm. yhteisprojektissa Ruotsin kansallisen kielipankin (Språkbanken) kieliteknologien kanssa Swe-Clarinin tuella. Analysoimme ruotsinkielisiä historiallisia sanomalehtikorpuksia, joita on tarjolla kahden kansallisen CLARIN B-keskuksen, Ruotsin Språkbankenin ja suomalaisen Kielipankin kautta. Aineistojen avulla pyrimme määrittämään, kuinka moderni terrorismin käsite syntyi 1700-luvulta alkaen.  Tämä tutkimus on osa Swe-Clarinin hanketta, jonka tavoitteena on edistää aitoa tieteidenvälistä yhteistyötä humanististen tieteiden ja kieliteknologian välillä ja hyödyntämällä sähköisiä tutkimustyökaluja laajamittaisiin korpustutkimuksiin. Projektissa siis yhdistetään historian alan tietämystä ja kieliteknologian asiantuntemusta, jolloin aiempia ruotsalaisessa ja suomalaisessa kontekstissa esiintyvän terrorismin historiallisiin merkityksiin liittyviä tieteellisiä väitteitä voidaan arvioida ja laajentaa.

Ensisijaisesti haluamme testata hypoteesia, jonka mukaan valtioiden sisäisen terrorismin käsite ei ollut vielä 1800-luvulla vakiintunut nykymerkitykseensä vaan rajoittui lähinnä venäläiseen terrorismiin. Soveltamalla valtioiden rajat ylittävää vertailevaa lähestymistapaa voimme tarkastella terrorismiin liittyviä päällekkäisiä kansallisia diskursseja. Sekä Ruotsin Språkbankeniin että Suomen Kielipankkiin asennetulla Korp-työkalulla olemme pystyneet tehokkaasti tutkimaan terrorismiin liittyviä sanoja ja niiden historiallisia konteksteja. Näin olemme paljastaneet monimutkaisemman kuvan terrorismin historiasta Pohjoismaissa ja erityisesti suurvaltojen sisäisten etnisten osien terrorismin muodoista, joita ovat suomalainen terrorismi Venäjän alaisuudessa, makedonialainen terrorismi ottomaanien alaisuudessa ja intialainen terrorismi brittiläisen imperiumin alaisuudessa. Suomalaisten historian tutkijoiden ja kieliteknologien kanssa olemme suunnitelleet laajentavamme analyysia suomalaisen kontekstin osalta tutkimalla vastaavia suomenkielisiä sanomalehtiä, jotka löytyvät Kielipankista. Lisäksi voimme kehittää rajat ylittävän vertailevan tutkimuksen konkreettisia toteutustapoja hyödyntämällä Swe-Clarinin ja FIN-CLARINin laajaa korpusvalikoimaa. Humanisteille ja kieliteknologeille tarjoutuu hienoja mahdollisuuksia tehdä monitieteistä, vertailevaa big data -tutkimusta verkossa saatavilla olevien kansallisten sanomalehtiaineistojen avulla.

Tarjoamiensa työkalujen lisäksi Kielipankki on ollut muutenkin tärkeä pyrkiessäni edistämään digitaalisten ihmistieteiden tutkimusta Suomessa. Vuonna 2018 järjestin roadshow’n Oulun, Jyväskylän, Itä-Suomen, Turun, Tampereen ja Helsingin yliopistoissa osana Koneen Säätiön rahoittamaa hanketta ”From Roadmap to Roadshow: A collective demonstration & information project to strengthen Finnish digital history”. Jokaisessa kuudessa yliopistossa järjestimme yksipäiväisen digitaalisen historian menetelmätyöpajan, joka koostui luennoista ja työpajasessioista kokeneiden suomalaisten, ruotsalaisten ja yhdysvaltalaisten digitaalisen historian, kieliteknologian ja informaatioteknologian asiantuntijoiden vetäminä. Heidän joukossaan oli myös Kielipankin sovellusasiantuntija Tero Aalto, joka piti kiinnostavan esityksen digitaalisista kielentutkimusmenetelmistä. Luentojen synnyttämä valtaisa innostus suomalaisten historian tutkijoiden keskuudessa johtikin hankkeen ennakoimattomaan laajenemiseen ja jatkoon. Toukokuussa 2018 minä ja kaksi jatko-opiskelijaani, Mila Oiva ja Petri Paju, järjestimme työpajan, jossa digitaalisista ihmistieteistä kiinnostuneet historioitsijat, kieliteknologit ja informaatioteknologian asiantuntijat kohtasivat yhteisten tutkimushankkeiden merkeissä. Joulukuussa 2020 useat näistä hankeideoista päätyivät vertaisarvioituina artikkeleina yhteen Helsinki University Press -tiedekustantamon ensimmäisistä Open Access -kirjoista, Digital Histories: Emergent Approaches in the New Digital History, jonka toimitin yhdessä Mila Oivan ja Petri Pajun kanssa.

Kielipankkiin liittyviä julkaisuja:

Mats Fridlund, Leif-Jöran Olsson, Daniel Brodén & Lars Borin, 2019 ”Trawling for Terrorists: A Big Data Analysis of Conceptual Meanings and Contexts in Swedish Newspapers, 1780–1926,” in Melvin Wevers, Mohammed Hasanuzzaman, Gaël Dias, Marten Düring, & Adam Jatowt, eds. Proceedings of the 5th International Workshop on Computational History (HistoInformatics 2019) co-located with the 23rd International Conference on Theory and Practice of Digital Libraries (TPDL 2019) Oslo, Norway, September 12th, 2019, CEUR-WS  vol. 2461 (Aachen: CEUR-WS.org, 2019), 1-10, http://ceur-ws.org/Vol-2461/paper_5.pdf.

Mats Fridlund, Leif-Jöran Olsson, Daniel Brodén & Lars Borin, 2020 ”Trawling the Gulf of Bothnia of News: A Big Data Analysis of the Emergence of Terrorism in Swedish and Finnish Newspapers, 1780–1926”, in Costanza Navarretta & Maria Eskevich, eds. Proceedings of CLARIN Annual Conference 2020 (Virtual edition: CLARIN, 2020), 61-65. https://office.clarin.eu/v/CE-2020-1738-CLARIN2020_ConferenceProceedings.pdf

Mats Fridlund, Mila Oiva, & Petri Paju, eds., 2020 Digital Histories: Emergent Approaches within the New Digital History (Helsinki: Helsinki University Press, 2020), 3-18. https://doi.org/10.33134/HUP-5

Mats Fridlund, 2020 “Digital History 1.5: A Middle Way between Normal and Paradigmatic Digital Historical Research”, in Mats Fridlund, Mila Oiva, & Petri Paju, eds., Digital Histories: Emergent Approaches within the New Digital History (Helsinki: Helsinki University Press, 2020), 69-87. https://doi.org/10.33134/HUP-5

Paju, Petri & Mila Oiva. ”Digitaalisen historiantutkimuksen opetuskiertue”, Historiallinen Aikakauskirja 1/ 2019, pp 89-94.

Petri Paju, Mila Oiva & Mats Fridlund, 2020 “Digital and Distant Histories: Emergent Approaches within the New Digital History”, in Mats Fridlund, Mila Oiva, & Petri Paju, eds., Digital Histories: Emergent Approaches within the New Digital History (Helsinki: Helsinki University Press, 2020), 3-18. https://doi.org/10.33134/HUP-5

 

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Tommi Jauhiainen

Tommi Jauhiainen
Kuva: Heidi Jauhiainen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Parivuotista post doc-kauttaan parhaillaan aloitteleva Kielipankin projektisuunnittelija Tommi Jauhiainen kertoo Kielipankin palveluihin ja aineistoihin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Tommi Jauhiainen ja toimin tällä hetkellä Kielipankissa projektisuunnittelijana. Vuodenvaihteessa 2020-21 siirryn post doc-tutkijaksi Vaikuttavuussäätiön myöntämällä apurahalla.

Mikä on tutkimuksesi aihe?

Viimeisen hieman yli kymmenen vuoden aikana olen tutkinut erityisesti tekstin kielen automaattista tunnistamista. Kirjoitin aiheesta graduni 2010 ja väitöskirjani 2019. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai samankaltaisia menetelmiä voidaan käyttää myös tekstien lajitteluun esimerkiksi aihealueiden suhteen.

Tunnistamisen vaikeustaso vaihtelee hyvin paljon tilanteen mukaan. Tehtävä on helppo, jos valittavina on vain muutamia toisistaan selvästi eroavia kieliä, kuten vaikka suomi ja ruotsi, ja jos tekstit ovat kohtuullisen pitkiä, esimerkiksi useiden virkkeiden mittaisia. Mikäli kieliä on satoja, kielet ovat lähellä toisiaan (esim. kveeni ja meänkieli) ja/tai tekstit ovat lyhyitä (esim. vain yksittäisiä sanoja), niiden tunnistaminen saattaa olla hyvin vaikeaa.

Tekstien kielen automaattisesta tunnistuksesta kirjoittamamme laaja katsaus ilmestyi viime vuonna ”Journal of Artificial Intelligence”-lehdessä. Työstämme samasta aiheesta tällä hetkellä myös oppikirjaa, joka julkaistaan Morgan & Claypoolin ”Synthesis Lectures on Human Language Technologies”-sarjassa toivottavasti vuoden 2021 loppupuolella.

Olen osallistunut väitöstutkimukseni aikana ja sen jälkeen useisiin kansainvälisiin kilpailuihin (shared tasks), joissa on keskitytty etenkin lähellä toisiaan olevien kielten tai murteiden erottelemiseen toisistaan. Vuonna 2018 voitimme sveitsinsaksan murteisiin ja intialaisiin kieliin keskittyneet kilpailut ja viime vuonna mandariinikiinan eri versioihin keskittyneen kilpailun. Olen myös jäsenenä ”Muinaisen Lähi-idän imperiumit”-huippuyksikössä, jossa olen tutkinut, kuinka nuolenpäillä kirjoitetun akkadin ja sumerin eri murteita voisi erotella toisistaan. Järjestin tästä aiheesta viime vuonna kansainvälisen kilpailun, jonka voitti kanadalainen tutkimusryhmä syväoppimista käyttämällä.

Tulevassa Vaikuttavuussäätiön rahoittamassa ”Language Identification of Speech and Text”-hankkeessa siirryn tutkimaan erityisesti puheen kielen tunnistamista tekstin kielen tunnistamisen lisäksi. Puheen ja tekstin kielten tunnistamisen tutkimus on tähän saakka ollut hyvin eriytynyttä, ja tarkoitukseni on saada aikaan enemmän yhteistyötä näiden kahden tutkimusalan välille.

Miten Kielipankki liittyy tutkimukseesi?

Suurin osa väitöstutkimuksestani tehtiin Suomalais-ugrilaiset kielet ja internet -projektissa, joka toimi Kielipankkia ylläpitävän FIN-CLARIN-tutkimusryhmän osana. Projektissa etsimme internetistä pienillä uralilaisilla kielillä kirjoitettuja verkkosivuja, teimme niistä portaalisivuston ja koostimme niiden sisältämästä tekstistä virkekorpuksia. Keräyksen aikana ja virkekorpuksia luodessa käytimme automaattista kielentunnistusta. Portaalisivusto, Wanca, on nyt osana Kielipankin ylläpitämiä työkaluja ja Wanca 2016 -aineisto löytyy Kielipankista kolmena eri versiona. Wanca 2017 -aineisto on käytössä meneillään olevassa ULI (Uralic Language Identification) kilpailussa ja aineisto julkaistaan ensi vuoden aikana.

Kielipankkiin liittyviä julkaisuja:

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2015). The Finno-Ugric Languages and the Internet project. In First International Workshop on Computational Linguistics for Uralic Languages: Proceedings of the Workshop (Vol. 2, pp. 87–98). (Septentrio Conference Series; Vol. 2015, No. 2). Septentrio Academic Publishing. https://doi.org/10.7557/scs.2015.2

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2015). Language Set Identification in Noisy Synthetic Multilingual Documents. In Computational Linguistics and Intelligent Text Processing (Vol. Part I, pp. 633-643). (Lecture Notes in Computer Science; Vol. 9041). Springer International Publishing AG. https://doi.org/10.1007/978-3-319-18111-0_48

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2016). HeLI, a Word-Based Backoff Method for Language Identification. In Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects: VarDial3, Osaka, Japan, December 12 2016 (pp. 153-162). https://www.aclweb.org/anthology/W16-4820/

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2017). Evaluation of language identification methods using 285 languages. In 21st Nordic Conference of Computational Linguistics: Proceedings of the Conference (pp. 183-191). (Linkping Electronic Conference Proceedings; No. 31). Linköping University Electronic Press. https://www.aclweb.org/anthology/W17-0221/

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). Iterative Language Model Adaptation for Indo-Aryan Language Identification. In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 66-75). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-3907

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). HeLI-based Experiments in Swiss German Dialect Identification. In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 254-262). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-3929

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2019). Wanca in Korp: Text corpora for underresourced Uralic languages. In Proceedings of the Research data and humanities (RDHUM) 2019 conference : data, methods and tools (pp. 21-40). Studia Humaniora Ouluensia; No. 17. University of Oulu.

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2019). Language Model Adaptation for Language and Dialect Identification of Text. Natural Language Engineering, 25(5), 561-583. [135132491900038]. https://doi.org/10.1017/S135132491900038X

Jauhiainen, T. (2019). Language identification in texts. University of Helsinki. http://urn.fi/URN:ISBN:978-951-51-5131-5

Jauhiainen, T., Jauhiainen, H., Alstola, T., & Linden, K. (2019). Language and Dialect Identification of Cuneiform Texts. In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 89-98). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1409/https://www.aclweb.org/anthology/W19-1409/

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2019). Discriminating between Mandarin Chinese and Swiss-German varieties using adaptive language models. In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 178-187). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1419/

Jauhiainen, T., Lui, M., Zampieri, M., Baldwin, T., & Lindén, K. (2019). Automatic Language Identification in Texts: A Survey. Journal of Artificial Intelligence Research, 65, 675-782. https://doi.org/10.1613/jair.1.11675

Zampieri, M., Malmasi, S., Scherrer, Y., Samardžic, T., Tyers, F., Silfverberg, M. P., Klyueva, N., Pan, T-L., Huang, C-R., Ionescu, R. T., Butnaru, A., & Jauhiainen, T. S. (2019). A Report on the Third VarDial Evaluation Campaign. In Proceedings of the (pp. 1-16). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1401/

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2020). Building Web Corpora for Minority Languages. In Proceedings of the 12th Web as Corpus Workshop (pp. 23-32). The Association for Computational Linguistics. https://www.aclweb.org/anthology/2020.wac-1.4

Gaman, M., Hovy, D., Ionescu, R. T., Jauhiainen, H., Jauhiainen, T., Linden, K., Ljubešić, N., Partanen, N., Purschke, C., Scherrer, Y., & Zampieri, M. (Accepted/In press). A Report on the VarDial Evaluation Campaign 2020. In Proceedings of VarDial 2020

Jauhiainen, T., Jauhiainen, H., Partanen, N., & Linden, K. (Accepted/In press). Uralic Language Identification (ULI) 2020 shared task dataset and the Wanca 2017 corpora. In Proceedings of VarDial 2020 https://arxiv.org/pdf/2008.12169.pdf

Lindgren, M., Jauhiainen, T., & Kurimo, M. (2020). Releasing a toolkit and comparing the performance of language embeddings across various spoken language identification datasets. In Proceedings of Interspeech 2020 (pp. 467-471) http://www.interspeech2020.org/uploadfile/pdf/Mon-1-11-5.pdf

 

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Tommi Kurki

Tommi Kurki

Kuva: Kaisla Kurki

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Suomen kielen dosentti, yliopistonlehtori Tommi Kurki Turun yliopistosta kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin palveluita.

Kuka olet?

Olen suomen kielen dosentti Tommi Kurki, ja toimin Turun yliopistossa yliopistonlehtorina. Fennistinä ja sosiolingvistinä olen tarkastellut ja tarkastelen suomen kielen variaatiota ja muuttumista sekä alan metodiikkaa. Johdan parhaillaan Turun yliopiston kieli- ja käännöstieteiden laitoksessa monivuotista Digilang-aineistoinfrastruktuurihanketta, jossa koostetaan ja kehitetään laitoksen digitaalisia kieliaineistoja (ks. esim. Kurki & al. 2018).

Mitä aiheita tutkit ja miten tutkimuksesi liittyy Kielipankkiin?

Minulla on tutkimuksessa useita kiinnostuksen kohteita, joista useimmat ovat kytkeytyneet tavalla tai toisella kielen muuttumisen tarkasteluun. Varsinkin, kun aiheeni ovat liittyneet jo perustutkinto-opiskeluajoistani myös reaaliaikatutkimuksiin, ovat erilaiset ja eri-ikäiset suomen kielen aineistot ja varsinkin pitkittäisaineistot kiinnostaneet minua. Kielipankissa nykyisin saatavilla olevista aineistoista olen käyttänyt ainakin Murteenseuruukorpusta, Lauseopin arkiston murrekorpusta, Suomen kielen näytteitä ja Digitaalista muoto-opin arkistoa. Variaatiota tarkastellessani olen keskittynyt yleensä fonologisiin, morfofonologisiin ja morfologisiin piirteisiin, mutta viime vuosina olen pyrkinyt palaamaan opiskeluaikojeni kiinnostuksen kohteisiin kuuluneisiin prosodian ilmiöihin.

Urani aikana olen myös osallistunut erilaisten kieliaineistojen keräämiseen, koostamiseen ja käsittelyyn. 1990-luvulla pääsin harjoittelijaksi Kotuksesta johdettuun dialektologis-sosiolingvistiseen suomen murteiden seuruuhankkeeseen, jossa tein graduni (1998a) ja Kotuksen nuorena aloittelevana tutkijana kaksi osatutkimusta (1998b, 1999). Seuruuhankkeen aineistoista ja teemoista tein myös väitöskirjani (2005), jossa tarkastelin kielen muuttumista.

Puhuttuun kieleen ja kieliaineistoihin liittyvät tavalla tai toisella kaikki tähänastiset johtamani hankkeet. Nykyisistä hankkeistani SKR:n Satakunnan rahaston rahoittamassa sosiolingvistisessä Satakuntalaisuus puheessa -hankkeessa olemme koostaneet puhutun kielen korpuksen, johon on 2000-luvulla kerätty puhekieltä 16 paikkakunnalta ja yli 200 satakuntalaiselta. Hankkeessa on yli 250 tuntia äänitteitä, ja parhaillaan aineistoa lemmataan sekä annotoidaan morfologisesti ja syntaktisesti osana Digilang-hanketta. Tarkoituksena on, että korpus päätyy lähivuosina Kielipankkiin. Lauseopin arkiston murrekorpusta ja tätä uutta satakuntalaisaineistoa olemme käyttäneet tutkimusryhmämme artikkelissa (2011), jossa tarkastelimme nykysatakuntalaisen puhekielen nykyvariaatiota ja muutoksia.

FT Tommi Niemisen kanssa perustamassani ja Koneen säätiön rahoittamassa Suomen kielen prosodian alueellisen ja sosiaalisen variaation hankkeessa (ks. esim. Kurki & al. 2014) olemme puolestaan keränneet elisitoiduin tehtävin sosiofoneettista korpusta, jota segmentoidaan ja annotoidaan parhaillaan Digilang-rahoituksella. Tavoitteena on, että suomen prosodiaa päästäisiin aiempaakin paremmin tarkastelemaan niin, että huomioon tulisi myös myös alueellinen ja sosiaalinen variaatio. Tämäkin aineisto on päätymässä Kielipankkiin parin vuoden kuluessa.

Vaikka aivan viime vuosina ole julkaissut tutkimuksia, joissa olisin käyttänyt muita kuin edellä mainittuja kieliaineistoja, on Kielipankki liittynyt työhöni kiinteästi. Jo Lauseopin arkiston tutkijan tehtäviini kuului opiskelijoiden opastaminen myös Kielipankin aineistojen käytössä. Olen hyödyntänyt Kielipankin aineistoja myös paljon opetuksessani ja opiskelijoita ohjatessani. Johtamieni hankkeiden korpuksia on koostettu alusta asti sillä oletuksella, että niitä aikanaan jaellaan Kielipankista käsin.  Puheen- ja kielentutkimuksen asiantuntijana osallistun myös Vaken Lahjoita puhetta -hankkeen suunnitteluun yhdessä Aalto-yliopiston professori Mikko Kurimon ja Kielipankin edustajien kanssa.

Kielipankin aineistoihin liittyviä julkaisuja:

Kurki, Tommi 1998a: Kui Kuivlahdel puhuta? Eurajoen vanhan murteen ja puhekielen vertailua sekä ikäryhmittäisten ja sukupuolikohtaistan erojen tarkastelua. Pro gradu ja suomen murteiden seuruuhankkeen osatutkimus (118 sivua + 39 liitesivua). Turun yliopisto, suomen kieli.

Kurki, Tommi 1998b: Kielellinen vaihtelu ja muutos Alastaron murteessa. Kotimaisten kielten tutkimuskeskuksen seuruuhankkeen tutkimusraportti. (79 sivua + 35 liitesivua). Helsinki: Kotus.

Kurki, Tommi 1999: Kielellinen vaihtelu ja muutos Pälkäneen murteessa. Kotimaisten kielten tutkimuskeskuksen seuruuhankkeen tutkimusraportti.  (114 sivua + 51 liitesivua). Helsinki: Kotus.

Kurki, Tommi 2005: Yksilön ja ryhmän kielen reaaliaikainen muuttuminen. Kielenmuutosten seuraamisesta ja niiden tarkastelussa käytettävistä menetelmistä. SKST 1036. SKS, Helsinki.

Kurki, Tommi, Siitonen, Kirsti, Väänänen, Milja, Ivaska, Ilmari & Ekberg, Jari 2011: Ensi havaintoja Satakuntalaisuus puheessa ‐hankkeesta. Sananjalka 53, 83–108. DOI: https://doi.org/10.30673/sja.86706.

Kurki, Tommi – Nieminen, Tommi – Kallio, Heini & Behravan, Hamid 2014: Uusi puhesuomen variaatiota tarkasteleva hanke. Katse kohti prosodisia ilmiöitä. – Sananjalka 56 s. 186–195. URN: http://urn.fi/urn:nbn:fi:ele-1733815.

Kurki, Tommi – Inaba, Nobufumi – Kaivapalu, Annekatrin – Koponen, Maarit – Laippala, Veronika – Leblay, Christophe – Luutonen, Jorma – Mutta, Maarit – Nikulin, Markku & Reunanen, Elisa 2018: Digilang – Turun yliopiston digitaalisia kieliaineistoja kehittämässä. – Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods and Tools, p. 41–56. Studia Humaniora Ouluensia 17. Oulu: University of Oulu. URN: http://urn.fi/urn:isbn:9789526223216.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Saana Svärd

Kuva: Lauri Laine

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston muinaisen Lähi-idän tutkimuksen apulaisprofessori Saana Svärd kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin palveluita.

Kuka olet?

Olen Saana Svärd, muinaisen Lähi-idän tutkimuksen apulaisprofessori ja Suomen Akatemian rahoittaman huippuyksikön ”Muinaisen Lähi-idän imperiumit” johtaja.

Mikä on tutkimuksesi aihe?

Alunperin olen assyriologi, mikä tarkoittaa sitä että tutkin erilaisia historiallisia ilmiöitä alkukielisten lähteiden avulla, eli muinaisen Lähi-idän nuolenpäätekstien perusteella. Olen tutkinut erityisesti sitä, mitä näistä lähteistä voidaan päätellä naisten asemasta muinaisessa Mesopotamiassa. Tämä tutkimus jatkuu yhä, mutta viimeisen neljän vuoden aikana olen keskittynyt enemmän digitaalisten ihmistieteiden kehittämiseen alallani. Muinaisesta Lähi-idästä on säilynyt meille satojatuhansia tekstejä, ja vaikka vain osa niistä on digitoitu, tutkimusaineistoa on paljon.

Johtamassani tiimissä (huippuyksikön tiimi 1) olemme tehneet monenlaista tutkimusta yhdistäen kieliteknologisia menetelmiä assyriologiaan. Tämän tyyppinen kieliteknologinen tutkimus on uutta muinaisen Lähi-idän tutkimuksessa ja siinä on paljon tutkimuspotentiaalia. Viimeisin artikkelimme liittyy pelkoon. Miten nuolenpääkirjoituksissa kuvaillaan pelkoa? Tarkemmin sanottuna muodostimme semanttisen kentän viidestä pelkoon liittyvästä verbistä ja niiden johdannaisista. Tulokset osoittavat muun muassa sen, että pelkoa kuvaava sanasto oli tässä muinaisessa seemiläisessä kielessä (nimeltään akkadi) hyvin eriytynyttä. Eri tekstigenreissä käytettiin erilaista pelkosanastoa ja osa pelkosanoista oli varattu hyvinkin erikoistuneeseen käyttöön. Esimerkiksi sana pirittu ”pelko” esiintyy lähes pelkästään tietyntyyppisessä rukouksessa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki liittyy olennaisesti tutkimukseeni. Digitoidut nuolenpäälähteemme ovat peräisin Open Richly Annotated Cuneiform Corpus -portaalista, mutta ovat saatavilla Kielipankissa (oracc). Kielipankin Korp-työkalun avulla olemme voineet tutkia kiinnostavia sanaesiintymiä tehokkaasti. Kehittämillämme kieliteknologisilla välineillä saamme kiinnostavia tuloksia vaikkapa yksittäisen sanan semanttisista ulottuvuuksista, mutta niitä pitää sitten tarkemmin tutkia kontekstissaan ja tämä on helposti mahdollista Korpin kautta. Korppiin on myös lisätty linkit kuhunkin tekstiin emoprojekteissaan, Open Richly Annotated Cuneiform Corpus -portaalissa joten tutkija pääsee halutessaan vaikka valokuvaan asti kustakin tekstistä.

Kielipankin aineistoon liittyviä julkaisuja:

Svärd, Saana, Tero Alstola, Heidi Jauhiainen, Aleksi Sahala, and Krister Lindén. Fear in Akkadian Texts. In S.-W. Hsu and J. Llop-Radua (eds.), The Expression of Emotions in Ancient Egypt and Mesopotamia. Culture and History of the Ancient Near East (CHANE), 116. Brill. Ilmestyy joulukuussa 2020 (https://brill.com/view/title/57151)

Tero Alstola, Shana Zaia, Aleksi Sahala, Heidi Jauhiainen, Saana Svärd, Krister Linden. 2019. “Aššur and His Friends: A Statistical Analysis of Neo-Assyrian Texts” Journal of Cuneiform Studies 71, pp. 159-180. https://doi.org/10.1086/703859

Saana Svärd, Heidi Jauhiainen, Aleksi Sahala, Krister Lindén 2018 ”Semantic Domains in Akkadian Texts” in Vanessa Juloux, Amy Gansell, & Alessandro di Ludovico, (eds.) CyberResearch on the Ancient Near East and Neighboring Regions: Case Studies on Archaeological Data, Objects, Texts, and Digital Archiving. Digital Biblical Studies 2. Brill: Leiden, pp 224-256. DOI: https://doi.org/10.1163/9789004375086_009

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Tuomo Hiippala

Kuva: Veikko Somerpuro

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston englannin kielen ja digitaalisten ihmistieteiden apulaisprofessori Tuomo Hiippala kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin palveluita.

Kuka olet?

Olen Tuomo Hiippala, englannin kielen ja digitaalisten ihmistieteiden apulaisprofessori Helsingin yliopiston Kielten osastolla, jossa olen työskennellyt vuodesta 2018 lähtien.

Mikä on tutkimuksesi aihe?

Tutkin multimodaalisuutta, jolla tarkoitetaan sitä kuinka ihmisten välinen viestintä ja vuorovaikutus pohjautuvat usean ilmaisukeinon tarkoituksellisille yhdistelmille. Tämä ilmiö käsitetään nykyään luonnolliseksi osaksi viestintää ja vuorovaikutusta. Esimerkiksi kasvokkainen vuorovaikutus hyödyntää jatkuvasti puhutun kielen, eleiden, katseen ja kehon asennon koordinoituja yhdistelmiä, kun taas arkipäiväiset sivupohjaiset tekstit yhdistelevät saumattomasti kirjoitettua kieltä, valokuvia, diagrammeja, sommittelua ja muita ilmaisukeinoja viestiäkseen lukijalle.

Mitä ilmaisukeinoja yhdistellään ja miten riippuu pitkälti tilanteesta, jossa viestintä tapahtuu. Ihmiset kohtaavat päivittäisessä elämässään erittäin laajan joukon erilaisia viestintätilanteita, joihin he osallistuvat usein melko vaivattomasti. Minua kiinnostavat ne periaatteet, jotka ohjaavat eri ilmaisukeinojen kirjoa ja yhdistelmiä, ja mahdollistavat päivittäisen toimintamme eri viestintätilanteissa. Näiden periaatteiden kuvaus ja ymmärrys edellyttää empiiristä tutkimusta, jota hidastaa tällä hetkellä laajojen ja yksityiskohtaisten aineistojen puute. Tästä syystä olen tällä hetkellä erittäin kiinnostunut laskennallisista menetelmistä ja niiden sovelluksista multimodaalisen viestinnän empiiriseen tutkimukseen.

Miten Kielipankki liittyy tutkimukseesi?

Olen julkaissut Kielipankissa kaksi multimodaalista korpusta, joista toinen liittyy väitöskirjaani (GeM-HTB) ja toinen viimeaikaiseen tutkimushankkeeseeni (AI2D-RST). Kielipankki on mielestäni erittäin hyödyllinen palvelu korpusten pitkäaikaissäilytykseen ja jakeluun. Aion jakaa myös kehittämäni multimodaaliset korpukset myös jatkossa Kielipankin kautta.

Kielipankin aineistoon liittyviä julkaisuja:

Tuomo Hiippala (2016) Helsingin kaupungin matkailuesitteiden multimodaalinen korpus. Terra 128(2): 75-85.

Tuomo Hiippala, Malihe Alikhani, Jonas Haverinen, Timo Kalliokoski, Evanfiya Logacheva, Serafina Orekhova, Aino Tuomainen, Matthew Stone, John A. Bateman (2020) AI2D-RST: A multimodal corpus of 1000 primary school science diagrams. arXiv: arXiv:1912.03879

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Jenny Tarvainen

Jenny Tarvainen - kuva: Inka Huuskonen
Kuva: Inka Huuskonen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jyväskylän yliopiston tutkimusavustaja Jenny Tarvainen kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoa Kansainvälinen oppijansuomen korpus, ICLFI.

Kuka olet?

Olen Jenny Tarvainen. Valmistuin vuoden 2019 tammikuussa Jyväskylän yliopistosta maisteriksi suomen kieli pääaineenani. Tällä hetkellä teen töitä maahanmuuttajien suomen kielen opettajana, mutta tarkoituksenani on hakeutua jatko-opintoihin lähitulevaisuudessa. Ajauduin korpustutkimuksen maailmaan jo kandidaattivaiheessa, eikä loppua vielä näy. Kielipankki on siis tullut vuosien varrella varsin tutuksi.

Mikä on tutkimuksesi aihe?

Maisterintutkielmani (Tarvainen 2018) oli vertaileva korpustutkimus SAADA-verbin fraseologisista piirteistä natiivi- ja oppijansuomessa. Tavoitteenani oli kontrastiivisen oppijankielen analyysin (CIA) avulla selvittää, kuinka suomenoppijoiden SAADA-verbin käyttö eroaa natiivipuhujien tavasta käyttää kyseistä verbiä. Tarkastelin eroja verbistä käytettyjen muotojen sekä verbiä ympäröivien merkitysten kautta. Tarkastelin myös näiden muotojen ja merkitysten välistä suhdetta tilastollisin menetelmin. Mielenkiintoista oli, että suomea vieraana kielenä opiskelevien käytössä muotojen ja merkitysten välillä oli vahvempi yhteys kuin natiivien kirjoittamissa teksteissä, eli SAADA-verbin tietty muoto esiintyi oppijankielessä kiinteämmin kontekstin tietyn merkityksen kanssa: esimerkiksi verbimuodon saavat ympärillä puhutaan todennäköisesti perheestä tai yleisesti ihmisistä, kun taas perusmuodon saada ympärillä teemoja ovat paikka, suunta ja tila.

Lisäksi opintojen aikana sekä valmistumisen jälkeen olen tehnyt tutkimusavustajan työtä Jyväskylän yliopiston suomen kielen professori Jarmo Jantusen tutkimusprojekteissa. Näissä tutkimuksissa on tarkasteltu muun muassa sitä, kuinka homo- ja heteroseksuaaleista puhutaan mediassa (Jantunen 2018) ja millaisia diskursseja nousee esiin pääkaupunkiseudun eri kaupungeista puhuttaessa (tulossa). Näiden tutkimusprojektien aikana olen tutustunut muun muassa korpusavusteiseen diskurssintutkimukseen (CADS). Parhaillani työstän väitöskirjan tutkimussuunnitelmaa syksyn jatko-opinto-oikeushakua varten. Korpukset pysyvät osana tutkimustani: aion koneoppimisen avulla tarkastella pääkaupunkiseutuun liittyviä diskursseja Suomi24 -korpuksesta.

Miten Kielipankki liittyy tutkimukseesi?

Maisterintutkielmaani varten keräsin oppijankielen aineiston Kansainvälisestä oppijansuomen korpuksesta, ICLFI:stä. Kyseiseen korpukseen on kerätty suomea vieraana kielenä opiskelevien tekstejä, jotka on luokiteltu taitotasoittain. Itse käytin edistyneiden opiskelijoiden tekstejä, koska vertailuaineistona oli äidinkielisten suomen puhujien tuotoksia. Korpuksen monipuolisten tekstien vuoksi (esseet, referaatit, mielipidekirjoitukset, sähköpostiviestit, työhakemukset…) aineistolla pääsi todella tutkimaan oppijankieltä laajasti siten, ettei tullut tutkineeksi vain tietyn genren piirteitä tai tietyn äidinkielen vaikutusta.

Muissa tutkimuksissa on käytetty Suomi24 -korpusta. Laajasta korpuksesta on ollut mahdollista kerätä pienempiä osakorpuksia hakutulosten perusteella, kuten homo- ja hetero-korpukset ja pääkaupunkiseudun eri kaupunkien osakorpukset. Näistä on ollut mahdollista päästä kiinni osakorpuksissa ilmeneviin diskursseihin.

Kielipankin aineistoon liittyviä julkaisuja:

Tarvainen, Jenny 2018: SAADA-verbin fraseologiaa: vertaileva korpustutkimus oppijan- ja natiivikielestä. Maisterintutkielma. Jyväskylän yliopisto. https://jyx.jyu.fi/handle/123456789/59273?show=full

Jantunen, Jarmo H. 2018: Homot ja heterot Suomi24:ssä: analyysi digitaalisista diskursseista. Puhe ja kieli, 38(1), 3–22. https://doi.org/10.23997/pk.65488

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Researcher of the Month: Sam Hardwick

Sam Hardwich - kuva: Bess Hardwick
Photo: Bess Hardwick

 

Kielipankki – The Language Bank of Finland is a service for researchers using language resources. Sam Hardwick, project researcher at the University of Helsinki tells us about developing some of the tools provided by the Language Bank, Kielipankki.

Who are you?

I’m a freelance consultant, researcher and programmer. I started in language technology at the University of Helsinki in a research software project called HFST. We developed code for computational morphology, which ended up being used in eg. inflecting dictionaries and spellcheckers for languages with extensive morphology (like Finnish, Sámi and Greenlandic). Since then I’ve worked on the technical side of various infrastructure and research projects, and done private consulting work.

What is your research or development work topic?

Right now I’m involved with publishing a sentiment corpus for Finnish. This is a collection of texts gathered from social media with their sentiment – whether they are positive, neutral or negative – annotated by humans. This will be the basis for automatic sentiment classification for future corpora and tools.

I’m also involved with the ANEE-project, helping to make a treebank for Akkadian, which again will be the basis of an automatic annotation tool. Hopefully we’ll be ultimately able to automatically annotate more of the texts in this ancient language.

How is the development work related to Kielipankki?

I’ve done a lot of development work directly for Kielipankki. For example, right now I’m planning an API for accessing corpora directly from code. NLP applications are more and more the domain of general machine learning people, not just language experts, and there’s a lot of interest in our data and resources.

Publications related to the resources or tools:

Hardwick, S., Enqvist, E. J., Onikki-Rantajääskö, T. A., & Linden, B.K. J. (2018). Tieteen kansallinen termipankki (TTP) ja tiedonlouhinnan apuneuvot. Poster (in Finnish) at the Annual Conference of Linguistics, Helsinki, Finland.

I’ve published demonstrations for various bits of code and analysis, some of it perhaps comprehensible in English, here: https://www.kielipankki.fi/tools/demo/

 

The FIN-CLARIN consortium consists of a group of Finnish universities along with CSC – IT Center for Science and the Institute for the Languages of Finland (Kotus). FIN-CLARIN helps the researchers in Finland to use, to refine, to preserve and to share their language resources. The Language Bank of Finland is the collection of services that provides the language materials and tools for the research community.

All previously published Language Bank researcher interviews are stored in the Researcher of the Month archive.

Kuukauden tutkija: Sam Hardwick

Sam Hardwick - kuva: Bess Hardwick
Kuva: Bess Hardwick

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston projektitutkija Sam Hardwick kertoo, miten hän on ollut mukana tuottamassa Kielipankin työkaluja.

Kuka olet?

Olen freelance-konsultti, -tutkija ja -ohjelmoija. Urani kieliteknologian parissa alkoi Helsingin yliopistolla HFST-projektissa, jossa kehitettiin ohjelmistoja morfologian mallintamiseen ja sovelluskehitykseen. Niitä on käytetty mm. taivuttaviin käännössanakirjoihin ja oikeinkirjoitustyökaluihin kielille, joissa on rikas morfologia (kuten suomi, saamelaiskielet ja grönlanti). Sittemmin olen vastannut erilaisten akateemisten hankkeiden teknisestä puolesta sekä konsultoinut yksityisellä sektorilla.

Mikä on työsi aihe?

Tällä hetkellä olen tekemässä sentimenttikorpusta, eli kokoelmaa sosiaalisesta mediasta kerättyjä tekstinpätkiä, joiden tunneilmaisu (positiivinen, neutraali, negatiivinen) arvioidaan ihmisten toimesta. Näiden arvioiden pohjalta kehitetään myös automaattinen sentimenttitunnistin, joka on työkaluna itsessäänkin tarpeellinen ja jolla voidaan tulevaisuudessa annotoida uusissa aineistoissa ilmaistua tunnesävyä virke virkkeeltä.

Olen myös mukana ANEE-hankkeessa tekemässä puupankkia Akkadin kielelle, sekä tähän liittyvää automaattista analysointityökalua, jolla toivottavasti saadaan tämän muinaiskielen aineistoja analysoitua lisää automaattisesti.

Miten Kielipankki liittyy tutkimukseesi?

Olen tehnyt monenlaista kehitystyötä suoraan Kielipankkia varten – tällä hetkellä suunnitteilla on mm. ohjelmallinen rajapinta, jolla Kielipankin aineistoja voisi käyttää suoraan ohjelmakoodista. Nykyään kieliteknologisten työkalujen kehitys on yhä enemmän koneoppimisen yleisosaajien kiinnostuksen kohteena, ja monia kiinnostaa päästä käsiksi dataan – mitä enemmän ja mitä rikastetumpaa, sen parempi.

Kielipankin aineistoon liittyviä julkaisuja:

Käytimme E-Thesis -aineistoa, eli opinnäytetöitä, etsimään automatisoidusti tieteellisiä termejä Tieteen Termipankkia varten:

Hardwick, S., Enqvist, E. J., Onikki-Rantajääskö, T. A., & Linden, B.K. J. (2018). Tieteen kansallinen termipankki (TTP) ja tiedonlouhinnan apuneuvot. Posterin esittämispaikka: Kielitieteen päivät, Helsinki, Finland.

Sen toiminta näyttää tältä: https://www.kielipankki.fi/tools/demo/termipankki/matemaattis.html.

Olen julkaissut erilaisia aineistoja käyttäviä työkaluja sivulla https://www.kielipankki.fi/tools/demo/.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Anna Puupponen

Anna Puupponen - kuva: Tapio Laitinen
Kuva: Tapio Laitinen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jyväskylän yliopiston tutkijatohtori Anna Puupponen kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoja Suomalaisen viittomakielen korpus ja ProGram-aineisto, lumiukko- ja sammakkotarinat.

Kuka olet?

Olen Anna Puupponen ja työskentelen tutkijatohtorina Jyväskylän yliopiston viittomakielen keskuksessa. Sain väitöskirjani valmiiksi toukokuussa 2019 ja nyt teen väitöksen jälkeistä tutkimusta suomalaisesta viittomakielestä.

Mikä on tutkimuksesi aihe?

Väitöstutkimukseni aihe oli viittomakielilingvistiikassa hieman vähemmän huomiota saanut osa: pään ja kehon liikkeet. Tarkastelin väitöskirjassa viittojien tuottamia pään ja kehon liikkeitä sekä sitä, millainen rooli näillä liikkeellä on kielen rakenteessa, vuorovaikutuksen etenemisessä ja merkitysten välittymisessä.

Tällä hetkellä teen tutkimusta viittomakielen keskuksen projekteissa, joissa tarkastellaan kehollista kuvailua viitotuissa tarinoissa ja keskusteluissa, aikuisten ja lasten viittomisessa ilmeneviä yhtäläisyyksiä ja eroja, viittomisen prosessoinnista aivokuvantamalla paljastuvia piirteitä sekä äidinkielisten viittojien ja viittomakielen oppijoiden viittomisen sujuvuutta.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankissa on julkaistu suomalaisesta viittomakielestä kerättyjä multimodaalisia aineistoja, joita olen ollut rakentamassa sekä hyödyntänyt tutkimuksessani. Vuonna 2016 julkaistiin viitotuista tarinoista koostuva ProGram-aineisto, lumiukko- ja sammakkotarinat (Snowfrog) ja vuonna 2019 ensimmäinen osakokonaisuus Suomalaisen viittomakielen korpuksesta (Corpus FinSL). Viittomakielten lingvistisessä tutkimuksessa korpusaineistoilla voidaan ajatella olevan erityisen tärkeä rooli. Viittomakielet ovat vähemmistökielinä usein heikossa yhteiskunnallisessa asemassa, niiltä puuttuu pitkälle kehittyneitä, institutionaalisia standardeja, ja niiden periytyminen sukupolvelta toiselle on keskeytynyttä. Viittomakielten kuvauksia ja kielioppeja tehtäessä laajojen kieliaineistojen ja niissä esiintyvän variaation tarkastelu on tärkeää. Korpukset ovat myös tärkeässä roolissa viittomakielten opetuksen kehittämisessä.

Tämä aineistolähtöinen lähestymistapa oli olennaisessa roolissa väitöskirjaprojektissani. Käytin Kielipankissa julkaistuja viittomakieliaineistoja tutkimuksissa, joissa tarkastelin päällä ja keholla tuotettuja liikekokonaisuuksia ja niiden semioottisia piirteitä viitotuissa tarinoissa ja keskusteluissa. Kielipankissa julkaistut viittomakieliaineistot mahdollistivat myös suomalaisen ja ruotsalaisen viittomakielen välisen vertailun väitöskirjassani, sillä Snowfrog-aineisto ja Suomalaisen viittomakielen korpus ovat keruuperiaatteiltaan hyvin pitkälti samanlaisia kuin vastaavat ruotsalaisesta viittomakielestä julkaistut korpusaineistot.

Tällä hetkellä käytän Suomalaisen viittomakielen korpuksen aineistoa tutkimuksessa, jossa tarkastellaan eri-ikäisten viittojien kuvailevaa kielenkäyttöä. Kielipankissa julkaistu osa Suomalaisen viittomakielen korpuksesta sisältää viitottuja tarinoita ja keskusteluja 21 viittojalta, jotka ovat iältään 18–89-vuotiaita. Tutkimuksessa analysoidaan kyseistä eri-ikäisiltä aikuisilta kerättyä aineistoa sekä Jyväskylän yliopiston viittomakielen keskuksen VIKKE-projektin kieliaineistoa, joka on kerätty viittovilta lapsilta.

Kielipankin aineistoon liittyviä julkaisuja:

Puupponen, A. (2019). Understanding nonmanuality: A study on the actions of the head and body in Finnish Sign Language. Väitöskirja. Jyväskylän yliopisto.
Puupponen, A. (2019). Towards understanding nonmanuality: A semiotic treatment of signers’ head movements. Glossa: a journal of general linguistics 4(1): 39. 1–39. DOI: https://doi.org/10.5334/gjgl.709
Jantunen, T.; Mesch, J.; Puupponen, A. & Laaksonen, J. (2016). On the rhythm of head movements in Finnish and Swedish Sign Language sentences. In Proceedings of Speech Prosody 2016 [organized at Boston University, May 31–June 3, 2016], pp. 850–853
Puupposen väitöskirjaa esittelevä väitöstiedote Jyväskylän yliopiston verkkosivuilla.

Suomalaisen viittomakielen korpuksen koostajan näkökulma esiteltiin kuukauden tutkija Juhana Salosen haastattelussa toukokuussa 2020.

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Juhana Salonen

Juhana Salonen - kuva: Hanna-Kaisa Hämäläinen
Kuva: Hanna-Kaisa Hämäläinen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jyväskylän yliopiston projektituktija Juhana Salonen kertoo, miten hän on ollut mukana tuottamassa Kielipankin aineistoa Suomalaisen viittomakielen korpus.

Kuka olet?

Olen Juhana Salonen ja työskentelen projektitutkijana Jyväskylän yliopiston viittomakielen keskuksessa. Vastuullani on Suomen kansallisten viittomakielten (suomalainen ja suomenruotsalainen viittomakieli) korpustyö. Valmistuin filosofian maisteriksi suomalainen viittomakieli pääaineena syksyllä 2012.

Mikä on työsi aihe?

Työstän yhdessä tiimin kanssa molempien viittomakielten korpuksesta infrastruktuuria tutkimusta varten. Olen työskennellyt vuodesta 2014 lähtien korpusprojektissa, jonka aikana on kuvattu yhteensä 103 äidinkieleltään viittomakielistä kielenopasta ympäri Suomea. Toimin opastajana kuvauksissa, joissa pääsin läheltä seuraamaan kielenoppaiden keskusteluja ja kerrontaa yhteensä seitsemän eri kamerakulman taltioimana. Tulokseksi saatiin yli 700 tuntia videomateriaalia. Aineistonkeruun ja editoinnin jälkeen videoaineistoa alettiin annotoida ELAN-ohjelmalla (Eudico Linguistic Annotator). Annotointi toteutettiin siten, että viitotusta tekstivirrasta eroteltiin ilmauksia sekä viittoma- että virketasolla. Viittomat identifioitiin ID-glossien, jotka ovat verkkoyhteydessä Suomen Signbank -leksikkotietokantaan, avulla ja virkkeet käännettiin suomeksi. Olemme pyrkineet siihen, että suuren aineistokokonaisuuden annotointi olisi mahdollisimman systemaattista, jotta aineisto soveltuisi useiden tutkijoiden käyttöön ja sopisi erilaisiin tutkimustavoitteisiin.

Miten Kielipankki liittyy tutkimukseesi?

Korpustyömme ensisijaisina tavoitteina on sekä pitkäaikaissäilyttää aineistoa että julkaista siitä eri osia kielenoppaiden tutkimussuostumusten ja tietosuojalainsäädännön ehtojen mukaisesti. Kielipankki on tarjonnut loistavat puitteet tavoitteidemme toteuttamiseksi, mistä isot kiitokset. Ensimmäinen osakokonaisuus Suomalaisen viittomakielen korpuksesta (Corpus FinSL) siirrettiin Kielipankkiin maaliskuussa 2019. Corpus FinSL sisältää noin 14,5 tuntia videomateriaalia sekä tekstimuotoisia annotaatioita ja metatietoja yhteensä 21 viittojalta. Aineisto on jaettu kahteen osakorpukseen: Suomalaisen viittomakielen korpus: kerronta-aineisto (elisitoidut kertomukset) ja Suomalaisen viittomakielen korpus: keskusteluaineisto (keskustelut), joista ensimmäinen on julkisesti saatavilla ja toinen edellyttää tutkimussuunnitelmaa sekä henkilökohtaista käyttöoikeutta Kielipankin RES-lisenssin mukaisesti. Julkaistua aineistoa on hyödynnetty jo niin suomalaisen viittomakielen tutkimuksessa kuin opetuksessakin tähän mennessä, mikä on vasta alkusoittoa suurelle harppaukselle viittomakielisellä alalla (mm. opetusmateriaalin ja viittomakielen yhteiskunnallisen aseman kehittäminen).

Kielipankin aineistoon liittyviä julkaisuja:

· Salonen, J., Puupponen, A., Takkinen, R. & Jantunen, T. (2019). Suomen viittomakielten korpusta rakentamassa. In Jantunen, Jarmo Harri; Brunni, Sisko; Kunnas, Niina; Palviainen, Santeri; Västi, Katja (Eds.) Proceedings of the Research data and humanities (RDHUM) 2019 conference: data, methods and tools, Studia Humaniora Ouluensia, 17. Oulu: Oulun yliopisto, 83-98. http://urn.fi/urn:isbn:9789526223216

· Suomalaisen viittomakielen korpus (Corpus FinSL) Kielipankissa: http://urn.fi/urn:nbn:fi:lb-2019012321

· Suomen viittomakielten korpustyön kotisivut: http://r.jyu.fi/AB7

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Researcher of the Month: Juhana Salonen

Juhana Salonen - kuva: Hanna-Kaisa Hämäläinen
Photo: Hanna-Kaisa Hämäläinen

 

Kielipankki – The Language Bank of Finland is a service for researchers using language resources. Juhana Salonen, project researcher at the University of Jyväskylä tells us about publishing the resource Corpus of Finnish Sign Language.

Who are you?

My name is Juhana Salonen and I work as a project researcher in the Sign Language Centre of the University of Jyväskylä. I´m responsible for the corpus work of Finland´s national sign languages (Finnish and Finland-Swedish Sign Language). Majoring in Finnish Sign Language, I graduated with an M. Phil. in the fall of 2012.

What is your research topic?

Together with the team, I am working on an infrastructure for research on the corpora of both sign languages. I have been working in the corpus project since 2014, during which time we have filmed a total of 103 native sign language users from all over Finland. I acted as a guide in the filming sessions, where I was able to follow informants’ conversations and narrations up close while they were recorded by a total of seven different camera angles. The result was over 700 hours of video footage. After the data collection and editing, the video material was annotated using the ELAN program (Eudico Linguistic Annotator). The annotation was carried out by distinguishing utterances from the signed text stream at both the sign and sentence levels. The signs were identified with the help of ID-glosses that are connected online to a lexical database of the Finnish Signbank, and the sentences were translated into Finnish. We have tried to make the annotation of the large dataset as systematic as possible, so that the data can be applied and used by different researchers for a range of different research objectives.

How is the research related to Kielipankki?

The primary goals of our corpus work are to preserve the data in the long term, and to publish various parts of it, which will be done in accordance with the informants’ research consent and the terms of data protection legislation. The Language Bank has provided an excellent setting for achieving our goals, for which we are very grateful. The first subset of the Corpus of Finnish Sign Language (Corpus FinSL) was transferred to the Language Bank in March 2019. Corpus FinSL comprises approximately 14.5 hours of video material from 21 signers, together with textual annotations and metadata. The material is divided into two subcorpora (Corpus of Finnish Sign Language: elicited narratives and Corpus of Finnish Sign Language: conversations), the first of which is publicly available and the second of which requires a research plan and personal access rights, in accordance with the RES license of the Language Bank. The published data has already been exploited both in research on Finnish Sign Language and in teaching, which is only the prelude to a great leap forward in the field of sign language, for example in terms of the development of both learning materials and the social status of the language.

Publications related to the resource:

· Salonen, J., Puupponen, A., Takkinen, R. & Jantunen, T. (2019). Suomen viittomakielten korpusta rakentamassa [Building the corpus of Finland´s sign languages]. In Jantunen, Jarmo Harri; Brunni, Sisko; Kunnas, Niina; Palviainen, Santeri; Västi, Katja (Eds.) Proceedings of the Research data and humanities (RDHUM) 2019 conference: data, methods and tools, Studia Humaniora Ouluensia, 17. Oulu: Oulun yliopisto, 83-98. http://urn.fi/urn:isbn:9789526223216

· The Corpus of Finnish Sign Language (Corpus FinSL) in the Language Bank: http://urn.fi/urn:nbn:fi:lb-2019012321

· Homepages of the corpus work of Finland´s sign languages: http://r.jyu.fi/AB7

 

The FIN-CLARIN consortium consists of a group of Finnish universities along with CSC – IT Center for Science and the Institute for the Languages of Finland (Kotus). FIN-CLARIN helps the researchers in Finland to use, to refine, to preserve and to share their language resources. The Language Bank of Finland is the collection of services that provides the language materials and tools for the research community.

All previously published Language Bank researcher interviews are stored in the Researcher of the Month archive.

Researcher of the Month: Mikhail Mikhahilov

Mikhail Mikhailov - kuva: University of Helsinki
Photo: University of Helsinki

 

Kielipankki – The Language Bank of Finland is a service for researchers using language resources. Mikhail Mikhail, professor of Translation Studies at the Tampere University tells us about how he makes use of the resources ParFin, Finnish-Russian Parallel Corpus of Literary Texts and ParRus 2016, Russian-Finnish Parallel Corpus of Literary Texts.

Who are you?

I am Mikhail Mikhailov, Professor of Translation Studies (Finnish and Russian) at the Tampere University.

What is your research topic?

I collect and study multilingual text corpora with an emphasis on parallel corpora. Several language corpora were collected under my supervision, e.g. ParRus (Russian-Finnish corpus of literary texts), ParFin (Finnish-Russian corpus of literary texts), FiRuLex (Russian-Finnish comparable corpus of legal texts), PEST (Parallel Electronic Corpus of State Treaties, Finnish-Russian-Swedish-English), MLCCA (Multilingual Corpus of Contracts and Agreements). I also develop corpus management software. My research is on the border between linguistics and translation studies. I am trying to find out, what the difference is between texts initially written in language X and texts translated into language X. I am working with the language pair Finnish-Russian and to some extent with other pairs like Russian-English.

How is the research work related to Kielipankki?

I have been for quite a long time collaborating with the Language Bank. FIN-CLARIN has supported some of my corpus projects: ParRus 2016, Russian-Finnish Parallel Corpus of Literary Texts, ParFin, Finnish-Russian Parallel Corpus of Literary Texts and recently MLCCA which will be published in the Language Bank.

Publications related to the resource you have used:

Mikhailov Mikhail, Cooper Robert. (2016). Corpus Linguistics for Translation and Contrastive Studies: a guide for research. London and New York: Routledge.
Mikhailov, Mikhail. (2019). The Extent of Similarity: comparing texts by their frequency lists. Teoksessa Jantunen, Jarmo Harri et al (toim.) Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods And Tools. Oulu: Oulun yliopisto, 159-178. (Studia humaniora ouluensia 17).
Mikhailov Mikhail. (2017). Are Classical Principles of Corpus Compiling Applicable to Parallel Corpora of Literary Texts?. Teoksessa Zybatow Lew N, Stauder Andy, Ustaszewski Michael (toim.) Translation Studies and Translation Practice: Proceedings of the 2nd International TRANSLATA Conference, 2014 Part 1. Frankfurt am Main, Bern, Bruxelles, New York, Oxford, Warszawa, Wien: Peter Lang, 151-157. (Forum Translationswissenschaft 19).

 

The FIN-CLARIN consortium consists of a group of Finnish universities along with CSC – IT Center for Science and the Institute for the Languages of Finland (Kotus). FIN-CLARIN helps the researchers in Finland to use, to refine, to preserve and to share their language resources. The Language Bank of Finland is the collection of services that provides the language materials and tools for the research community.

All previously published Language Bank researcher interviews are stored in the Researcher of the Month archive.

Kuukauden tutkija: Mikhail Mikhailov

Mikhail Mikhailov - kuva: Helsingin yliopisto
Kuva: Helsingin yliopisto

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tampereen yliopiston käännöstieteen professori Mikhail Mikhailov kertoo, miten hän hyödyntää tutkimuksessaan Kielipankkiin tuottamiaan aineistoja ParFin 2016, suomi-venäjä kaunokirjallisten tekstien rinnakkaiskorpus ja ParRus 2016, venäjä-suomi kaunokirjallisten tekstien rinnakkaiskorpus.

Kuka olet?

Olen Mikhail Mikhailov, Tampereen yliopiston käännöstieteen professori (suomi ja venäjä).

Mikä on tutkimuksesi aihe?

Kokoan ja tutkin monikielisiä tekstikorpuksia, erityisesti rinnakkaiskorpuksia. Olen ohjannut monien aineistojen kokoamista, kuten esim. ParRus (kaunokirjallisten tekstien venäjä-suomi rinnakkaiskorpus), ParFin (kaunokirjallisten tekstien suomi-venäjä rinnakkaiskorpus), FiRuLex (oikeussäädösten vertaileva korpus suomi-venäjä), PEST (valtiosopimusten monikielinen rinnakkaiskorpus, suomi-venäjä-ruotsi-englanti), MLCCA (sopimustekstien monikielinen korpus). Kehitän myös korpushallintatyökaluja. Tutkimukseni sijoittuu lingvistiikan ja käännöstieteen välimaastoon: yritän saada selville, mikä ero on alun perin X-kielellä kirjoitettujen ja X-kielelle käännettyjen tekstien välillä. Teen tutkimusta suomi-venäjä -aineistolla ja jossain määrin myös muilla kielipareilla, esim. venäjä-englanti.

Miten Kielipankki liittyy tutkimukseesi?

Olen tehnyt pitkään yhteystyötä Kielipankin kanssa. FIN-CLARIN on rahoittanut useiden aineistojeni kokoamista. Näitä ovat ParRus 2016, venäjä-suomi kaunokirjallisten tekstien rinnakkaiskorpus, ParFin 2016, suomi-venäjä kaunokirjallisten tekstien rinnakkaiskorpus ja uusimpana MLCCA, joka tullaan julkaisemaan Kielipankissa.

Käytettyihin Kielipankin aineistoihin liittyviä julkaisuja:

Mikhailov Mikhail, Cooper Robert. (2016). Corpus Linguistics for Translation and Contrastive Studies: a guide for research. London and New York: Routledge.
Mikhailov, Mikhail. (2019). The Extent of Similarity: comparing texts by their frequency lists. Teoksessa Jantunen, Jarmo Harri et al (toim.) Proceedings of the Research Data and Humanities (RDHum) 2019 Conference: Data, Methods And Tools. Oulu: Oulun yliopisto, 159-178. (Studia humaniora ouluensia 17).
Mikhailov Mikhail. (2017). Are Classical Principles of Corpus Compiling Applicable to Parallel Corpora of Literary Texts?. Teoksessa Zybatow Lew N, Stauder Andy, Ustaszewski Michael (toim.) Translation Studies and Translation Practice: Proceedings of the 2nd International TRANSLATA Conference, 2014 Part 1. Frankfurt am Main, Bern, Bruxelles, New York, Oxford, Warszawa, Wien: Peter Lang, 151-157. (Forum Translationswissenschaft 19).

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Markus Mattila

Markus Mattila - kuva: Markus Mattila
Kuva: Markus Mattila

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Åbo Akademista valmistunut FM Markus Mattila kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoa Suomi 24 virkkeet -korpus (2017H2) (beta).

Kuka olet?

Olen Markus Mattila, viime vuonna Åbo Akademista valmistunut filosofian maisteri suomen kielen ja englannin kielen ja kirjallisuuden oppiaineista. Aikaisemmalta koulutukseltani olen kauppatieteen maisteri. Parhaillaan teen opettajansijaisuuksia ja suunnittelen jatko-opintoja.

Mikä on tutkielmasi aihe?

Suomen kielen pro gradu -tutkielmassani tutkin kielessä tapahtuvaa muutosta keskittyen suomen omistusliitteellisiin olotilanilmausidiomeihin ja niiden omistusliitteen kongruenssiin lauseen subjektin kanssa. Suosituksenmukaisesti omistusliitteen tulee mukautua subjektin persoonaan esim. olen huolissani vs. *olen huolissaan. Tutkimuskysymykseni, joihin työni vastaa, olivat:
• Kuinka yleistä on kongruoimattoman omistusliitteen käyttö olotilanilmausidiomeissa yksikön ensimmäisessä persoonassa?
• Onko kongruoimattoman eli suosituksenvastaisen muodon käytön osuudessa idiomin kokonaiskäytöstä tapahtunut muutoksia?
• Onko tutkimuksen idiomien välillä eroja siinä, miten yleistä suosituksenvastainen käyttö on?
Pilottitutkimuksen perusteella tutkittaviksi ilmauksiksi valikoituivat olla huolissaan, olla pahoillaan ja olla innoissaan. Vastauksia tutkimuskysymyksiini hain kolme aikajaksoa (2001—2006, 2007—2011 ja 2012—2017) käsittävällä korpustutkimuksella, jonka tulosten tilastolliset merkitsevyydet selvitettiin ristiintaulukoimalla ja Pearsonin χ²-testillä.

Miten Kielipankki liittyy tutkimukseen?

Tutkimusmenetelmänä korpustutkimus on omiaan mahdollistamaan tällaisen hieman harvinaisemman ilmiön tutkimisen. Koska kielenmuutos tapahtuu kontrolloidumman ja stabiilimman kirjoitetun kielen sijaan pääasiassa puhekielessä, valitsin tutkittavakseni Kielipankin laajan Suomi24-korpuksen, joka käsittää Suomi24-keskustelupalstalla vuosina 2001–2017 käydyt keskustelut. Epäviralliset ja nimimerkin takaa käydyt keskustelut muistuttavat puhekieltä huomattavasti enemmän kuin tekstit virallisissa dokumenteissa, uutisissa tai kirjallisuudessa ja ovat näin ollen hedelmällistä materiaalia tällaisen tutkimusaiheen luotaamiseen.

Tarkemmin ottaen tutkimukseni aineistona toimi Kielipankin Suomi 24 virkkeet -korpus (2017H2) (beta), jota käytin kokonaiskuvaa kartoittaessani sellaisenaan ja jonka sisältämät viestit jaoin ilmiössä tapahtunutta muutosta selvittäessäni kolmeen ajanjaksoon. Korpusajot tein Kielipankin selainpohjaisella Korp-konkordanssihakuohjelmalla, jonka käytön koin helppona ja mukavana. Omalta osaltaan siihen vaikutti erinomainen asiakastuki, jolle haluan vielä tässä yhteydessä välittää kiitokseni!

Käytettyyn Kielipankin aineistoon liittyviä julkaisuja:

Mattila, M. (2019): ” Olen pahoillani ja huolissaan” : Tutkimus persoonakongruenssista olotilanilmausidiomeissa Suomi24-korpuksessa 2001–2017, Pro gradu. Åbo Akademi. http://www.urn.fi/URN:NBN:fi-fe2019062421760

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Anita Nuopponen

Anita Nuopponen - kuva: Harri Huusko
Kuva: Harri Huusko

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Vaasan yliopiston teknisen viestinnän professori Anita Nuopponen kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoa Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio.

Kuka olet?

Olen Anita Nuopponen, teknisen viestinnän professori Vaasa yliopiston markkinoinnin ja viestinnän yksiköstä, viestintätieteiden oppiaineesta.

Mikä on tutkimuksen aihe?

Olen taas kerran palannut terminologisen tutkimuksen pariin, josta tein aikoinaan väitöskirjani 1994. Erityismielenkiintoni kohteena on edelleenkin käsitteiden väliset suhteet. Niistä laatimani luokittelu on vieläkin hyvin ajankohtainen, sillä etenkin tietojärjestelmissä ja monessa muussakin digitalisaatioon liittyvässä tarvitaan vastaavia luokitteluja. Kansainvälisten terminologia-alan ISO 704 standardin uuteen versioon ollaankin nyt ottamassa osaa niistä mukaan. Toinen ajankohtainen tutkimusmielenkiintoni, joka liittyy myös käsitesuhteisiin, on niitä hyödyntävän systemaattisen käsiteanalyysimenetelmän kehittäminen. Nyt minulla on työn alla artikkeli käsiteanalyysista tutkimustyöskentelyn apuvälineenä ja yhteistyöartikkeli terminologisten menetelmien käytöstä erikoiskielten opetuksessa eri alojen opiskelijoille. Molemmat ovat tulossa VAKKI-julkaisuihin.

Miten Kielipankki liittyy tutkimukseen?

Tällä hetkellä olen tutkimusvapaalla ja työskentelen osittain FIN-CLARINin hankkeessa, jossa tarkoitus on tehdä Kielipankin yhteyteen jotain vastaavaa kuin mitä olen vuodesta 1994 tehnyt Terminology Forum –sivustoni puitteissa. Olen siis palannut myös tässä vuosia sitten aloittamani tehtävän pariin! Kartoitan suomenkielisistä eri alojen verkkosanastoja ja laadin niistä linkkilistaa, mutta tarkoitus on myös mahdollisuuksien mukaan tallentaa itse sanastojakin Kielipankin resurssikokoelmiin. Eri alojen harrastajat, opettajat, yritykset, yhdistykset ja muut organisaatiot ovat laatineet aloiltaan verkkoon sanastoja, jotka voisivat olla hyödyllisiä monelle muullekin, kunhan ne vain löydettäisiin. Kaikki sanastot eivät päädy TSK:n TEPA termipankkiin tai Tieteen termipankkiin. Monet arvokkaatkin resurssit häviävät bittitaivaaseen, kun esimerkiksi sanaston laatija siirtyy toisiin tehtäviin, jää eläkkeelle tai kun yrityksen tai organisaation verkkosivustoa uusitaan.

Kielipankki tuli minulle tutuksi, kun tein vuoden 2015 Kielitieteen päiville esitelmän ”Vaikeasti käsitettävä käsitteen käsite”. Käytin korpuksen Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio vuoden 2000 aineistoa, josta tarkastelin käsitteen määritelmiä ja sitä, kuinka termiä tai sanaa käsite käytetään sekä kuinka käsitteistä puhutaan – keskityin lähinnä yleiskieleen. Sana käsite toimii yleisesti käytettynä sanana yleiskielessä kunkin kirjoittajan oman intuition mukaan ja usein tuo intuitio sattuu yhteen terminologisessa tutkimuksessa käytetyn ja yleiskielen sanakirjoissa annetun määrittelyn kanssa. Kuitenkin jo seuraavassa virkkeessä se saatetaan sekoittaa jo sanaan, termiin tai jopa ilmiöön, mitä tehdään hyvin yleisesti myös tieteellisessä kirjoittamisessa.

Käytettyyn Kielipankin aineistoon liittyviä julkaisuja:

Edellä mainittu käsite-esitelmä odottaa vielä julkaisemistaan. Nykyisen hankkeen osalta ei vielä ole Kielipankkiin suoraan liittyviä julkaisuja, mutta Terminology Forumiin liittyy kuitenkin eri yhteyksissä aiemmin pitämiäni esitelmiä ja artikkeleita verkon hyödyntämisestä terminologisten resurssien välittämisessä ja kokoamisessa yms. (Julkaisuluetteloni: http://lipas.uwasa.fi/~atn/AnitaNuopponen/index.html)

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Emma Sepänaho

Emma Sepänaho - kuva: Sofia Tikanmäki
Kuva: Sofia Tikanmäki

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston maisterivaiheen opiskelija Emma Sepänaho kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoa 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2 .

Kuka olet?

Olen Emma Sepänaho, neljännen vuoden suomen kielen opiskelija Helsingin yliopistosta. Teen parhaillaan sanastoaiheista pro gradu -tutkielmaa selkosuomesta.

Mikä on tutkimuksen aihe?

Tutkin opinnäytetyössäni selkokielisissä mediateksteissä esiintyviä pitkiä sanoja. Ainakin tällä hetkellä on tarkoitus keskittyä 20-merkkisiin ja tätä pidempiin sananmuotoihin. Aion tehdä morfologista analyysiä, tarkastella taivutusta ja sananmuodostusta, monimorfeemisuutta ja morfeemien yleisyyttä sekä sitä, millaisiin semanttisiin aihealueisiin näin pitkät sanat sijoittuvat. Koska selkokielen suosituksissa kehotetaan välttämään pitkien sanojen käyttöä, on mielenkiintoista, että näinkin pitkiä saneita löytyy pelkästään yhdestä selkokielikorpuksesta yli tuhat. Selkokieltä on Suomessa tutkittu toistaiseksi vähän, ja tutkielmani toivottavasti tuottaakin arvokasta perustietoa selkosuomen luonteesta.

Miten Kielipankki liittyy tutkimukseen?

Olen kerännyt tutkielmani aineiston Kielipankin Selkosanomat/Selkouutiset-osakorpuksesta, joka sisältyy Kielipankin aineistoon 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2 ja joka sisältää Selkosanomissa (ent. Selkouutiset) julkaistuja selkokielisiä mediatekstejä vuosilta 2006–2013. Korpus on tutkimukseni toteutuksen kannalta hyödyllinen, sillä Korp-käyttöliittymän ansiosta voin suoraan keskittyä hakulauseen tuottamiin saneisiin eikä sanoja tarvitse etsiä manuaalisesti selkokielisistä teksteistä. Alun perin olisin halunnut hakea korpuksesta yli kolmitavuisia kompleksisia sanoja, mutta se ei aineiston jäsennysominaisuuksista johtuen tyydyttävästi onnistunut. Onneksi kuitenkin pelkän merkkimäärän määrittelevä lausekekin tuottaa kelpo aineiston tutkimustani varten.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Kuukauden tutkija: Katri Leino

Katri Leino - kuva: Katri Leino
Kuva: Katri Leino

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aalto-yliopiston tutkijakoulutettava Katri Leino kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoja Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, lähdemateriaali ja Suomi 24 -korpus.

Kuka olet?

Olen Katri Leino, tohtorikoulutettava prof. Mikko Kurimon puheentunnistus-ryhmässä Aalto-yliopistossa. Valmistuin 2015 tietoliikennetekniikan diplomi-insinööriksi. Lopputyöni käsitteli puheentunnistimen adoptointia tietylle ympäristölle tai puhujalle. Ihmisten psykologia ja käyttäjän perspektiivi ovat aina kiinnostaneet minua. Halusinkin tuoda tämän kulman myös jatko-opintoihini. Jatkoin valmistumiseni jälkeen tohtoriopintoihin Kurimon ohjauksessa, mutta toisena ohjaajani toimii prof. Antti Oulasvirta, joka johtaa käyttöliittymiin ja käyttäjien mallintamiseen keskittyvää tutkimusryhmää Aalto-yliopistossa. Yhdistän tutkimuksessani kieliteknologiaa ja käyttäjämallintamisen oppeja saadakseni uuden kulman molempien alojen tutkimukseen.

Mikä on tutkimuksen aihe?

Emil Aaltosen säätiön rahoittamassa projektissa tutkin suomenkielisten tapaa kirjoittaa älypuhelimilla. Haluan löytää tapoja helpottaa ja nopeuttaa kirjoittamista, sillä suomalaiset usein kokevat puhelimella kirjoittamisen turhauttavaksi. Kosketusnäppäimistön haastavuuden ja huonon ennustavan tekstinsyötön lisäksi haluan selvittää miten lauseiden sisältö ja vaikeus vaikuttavat kirjoitusnopeuteen ja ovatko syyt kieliriippumattomia.

Keräämme tällä hetkellä kirjoitusnäytteitä selaimessa tehtävällä kirjoitustustestillä: http://kirjoitustesti.aalto.fi (englanninkielinen versio: http://typingtest.aalto.fi/). Testissä kirjoitetaan annettuja lauseita mahdollisimman nopeasti ja tarkasti. Kaikki näppäimistön painallukset aikaleimoineen tallennetaan aineistoksi, joka julkaistaan vuonna 2020. Englanninkielinen aineisto julkaistiin tänä vuonna: https://userinterfaces.aalto.fi/typing37k/. Tavoitteenamme on kerätä näytteitä mahdollisimman monenlaisilta ja monen tasoisilta kirjoittajilta, jotta pystymme tekemään tarkemman analyysin kirjoittamisen haasteista ja onnistumisista.

Miten Kielipankki liittyy tutkimukseen?

Kirjoitustestissä käytettävät lauseet on valikoitu Kielipankin Ylen suomenkielisen uutisarkiston selkouutisista (Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, lähdemateriaali) ja Suomi 24 -korpuksesta. Selkouutiset tarjosivat yksinkertaisia ja helposti muistettavia lauseita, jotka sopivat kirjoitustestiimme. Halusin perinteisen kirjakielisten uutislauseiden lisäksi myös lauseita, joita ihmiset oikeastikin kirjoittaisivat puhelimillaan. Suomi24 tarjoaa tähän tarkoitukseen sopivaa aitoa puhekieltä.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Researcher of the Month: Maija Saviniemi

Maija Saviniemi - kuva: Tero Mononen
Photo: Tero Mononen

 

Kielipankki – The Language Bank of Finland is a service for researchers using language resources. Maija Saviniemi, a university lecturer at the University of Oulu tells us about how she makes use of the resource Iijoki, the University of Oulu Päätalo collection, Kielipankki Korp version in her research.

Who are you?

I am Maija Saviniemi, university lecturer from Oulu, and a researcher in the Finnish language. I defended my doctoral thesis in 2015 on the area of language planning discourses, and my research interests include different sociolinguistic topics.

What is the research topic?

Before describing the topic, I would like to pay attention to the path in arriving to the present situation. Already during my doctoral dissertation research I found myself thinking about how many different approaches electronic data could open, starting from learning to know the nature of the data, and then particularly in the analysis phase. A couple of years ago, when writing the history of our subject, I spent some time learning about the creation of the Oulu corpus dating from 1967 onwards, which set me into thinking how I could promote the research traditions of making use of electronic resources in our department. A year ago, Sari Keskimaa defended her doctoral thesis at the University of Oulu on Kalle Päätalo’s Iijoki collection as a linguistic biography.

Actually, these three originally independent facts had somehow intertwined in my mind so that I found myself suggesting both to the Language Bank of Finland team and the right holders of Kalle Päätalo’s works to publish the whole Iijoki series as an electronic corpus. The Language Bank was immediately onboard. Also both the author’s family and Gummerus Publishers adopted a positive view to the project from the very beginning, and since Gummerus had published the 26 novels that form the Iijoki series as e-books already, processing the data into electronic format had in practice already been completed. Iijoki, University of Oulu Päätalo Collection was published just before the 100th anniversary of the author in November 2019.

For almost 2.5 years I have been preparing the symposium ”Kalle Päätalo tutkijoiden silmin [Research perspectives to Kalle Päätalo]” organized in November 2019 by the Faculty of Humanities at the University of Oulu in collaboration with the Oulu City Library. The father of the idea is professor Harri Mantila. In the symposium, papers on contemporary research on Päätalo in various fields were presented. My own presentation naturally focused on the Päätalo corpus published in Kielipankki as well as its use, and my ongoing research was presented as an example of how the corpus can be made use of. I am currently working on the first Päätalo discourse analysis research project supported by examples from corpora. I am interested in the reverse humour mentioned by Päätalo, which I am trying to catch with one of the affective characteristics of language, namely swearwords. In the future I am obviously interested in various kinds of key word analyses, where I can compare the Iijoki corpus with other literature corpora. There are actually no limits in finding various topics around Päätalo. The corpus lends itself to research on for example phonetic or morphological features or language use in Finland’s different dialects, White Sea Carelian, or Finnish spoken by Skolt Lapps. Idiolects of fictive figures are readily available: in addition to the main character, the Iijoki series presents around 2,000 minor characters. The corpus offers research settings not only in linguistics but also in many other fields. The Iijoki series contains extensive metalanguage and dialect. Numerous other fields can be studied in addition to linguistic topics. In his works, Päätalo makes ethnographic observations on working practices and folk medicine. In addition to folklore studies, the data can also be studied as a description of the independent Finland’s history: the Iijoki series contains the author’s life history from 1910’s up to 1990’s.

How is the research work related to Kielipankki?

My research on Iijoki focuses on the swear words in the lines of Hermanni Päätalo in the novel Loimujen aikaan and I compare them with other swear words in the work. I aim at functional, syntactic and etymologic ananlysis of the swear words. I now have an option of widening my close reading of one work by comparing my findings with the other works in the whole Iijoki series. For example, I have lately been contemplating on the swear words siivatta and ketehen.

This series of literary works with around 17,000 pages will definitely offer subjects for research for a long time forward. Linguistic material can be more easily searched now that the data has been published in electronic form. The corpus Iijoki, the University of Oulu Päätalo collection, Kielipankki Korp version comprising the Iijoki series has 5,280,750 tokens and 494,614 sentences. This is to my knowledge an exceptionally large text corpus comprising literary works of a single author. The data naturally contains a lot of dialect words, and the automatic processing of them is not straightforward. However, already at the current stage the corpus makes different discourse analysis based research projects possible. A person familiar with Päätalo’s works just recently predicted that Päätalo will be read after 50 years. Maybe the works will become popular again when enough time has passed from the life they describe. In any case, the corpus is now ready.

Publications related to the corpora

The papers in the symposium ”Kalle Päätalo tutkijoiden silmin” will be published as an academic refereed article collection around 2021 with the working title ”Iijoelta akatemiaan [From Iijoki to Academia]. My article on corpus based research on Päätalo will be part of this publication.

 

The FIN-CLARIN consortium consists of a group of Finnish universities along with CSC – IT Center for Science and the Institute for the Languages of Finland (Kotus). FIN-CLARIN helps the researchers in Finland to use, to refine, to preserve and to share their language resources. The Language Bank of Finland is the collection of services that provides the language materials and tools for the research community.

All previously published Language Bank researcher interviews are stored in the Researcher of the Month archive.

Kuukauden tutkija: Maija Saviniemi

Maija Saviniemi - kuva: Tero Mononen
Kuva: Tero Mononen

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Oulun yliopiston yliopistonlehtori Maija Saviniemi kertoo, miten hän hyödyntää tutkimuksessaan Kielipankin aineistoa Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp -versio.

Kuka olet?

Olen Maija Saviniemi, oululainen yliopistonlehtori ja suomen kielen tutkija. Olen väitellyt kielenhuoltodiskursseista vuonna 2015, ja kiinnostuksenkohteitani ovat erilaiset sosiolingvistiset aiheet.

Mikä on tutkimuksen aihe?

Ennen aiheen esittelyä täytyy hiukan taustoittaa, miten tähän hetkeen on tultu. Jo väitöskirjaa tehdessäni huomasin miettiväni, miten monenlaisia asioita sähköiset aineistot voisivat mahdollistaa ensinnäkin aineistoon perehtymisessä ja toisaalta erityisesti analyysivaiheessa. Laatiessani oppiaineemme 50-vuotishistoriikkiämme muutama vuosi sitten perehdyin jonkin verran Oulun korpuksen syntyvaiheisiin vuodesta 1967 lähtien ja aloin miettiä, miten voisin omalta osaltani ylläpitää laitoksemme sähköisten aineistojen tutkimusperinteitä. Vuosi sitten Sari Keskimaa väitteli meillä Oulussa Kalle Päätalon Iijoki-sarjasta kielielämäkertana.

Oikeastaan nämä kolme toisistaan alun perin erillistä asiaa ovat jotenkin punoutuneet mielessäni yhteen niin, että havaitsin ehdottavani sekä Kielipankin väelle että Kalle Päätalon tuotannon oikeuksien omistajille, voitaisiinko julkaista koko Iijoki-sarja korpuksena. Kielipankki oli heti mukana ajatuksessa. Myös sekä kirjailijan omaiset että Gummerus Kustannus suhtautuivat myötämielisesti hankkeeseen alusta saakka, ja koska Gummerus oli julkaissut Iijoki-sarjan 26 romaania e-kirjoina, niiden saattaminen sähköiseen muotoon oli jo käytännössä tehty. ”Iijoki, Oulun yliopiston Päätalo-kokoelma” näki päivänvalon kirjailijan 100-vuotissyntymäpäivän kynnyksellä marraskuussa 2019.

Vajaat 2,5 vuotta olen valmistellut ”Kalle Päätalo tutkijoiden silmin” -symposiumia, jonka järjesti marraskuussa 2019 Oulun yliopiston humanistinen tiedekunta yhteistyössä Oulun kaupunginkirjaston kanssa. Tapahtuman alkuperäisidea on professori Harri Mantilan. Symposiumissa esittelimme eri alojen ajankohtaista Päätalo-tutkimusta. Minä esittelin tietysti Kielipankin Päätalo-korpuksen käyttöönottoa ja korpuksen käytöstä esimerkkinä tekeillä olevaa tutkimustani. Olen parhaillaan tekemässä ensimmäistä korpusesimerkein tuettua diskurssianalyyttistä Päätalo-tutkimusta. Minua kiinnostaa Kalle Päätalon mainitsema käänteishuumori, jonka jäljille lähden yhden affektiivisen kielenpiirteen eli kirosanojen kautta.

Tulevaisuudessa minua tietysti kiinnostaa esimerkiksi erilaisten avainsana-analyysien tekeminen, joissa voin verrata Iijoki-sarja-korpusta muihin kaunokirjallisiin korpuksiin. Oikeastaan vain mielikuvitus on rajana erilaisten Päätalo-aiheiden ideoimisessa. Korpuksestahan voidaan tarkastella esimerkiksi kirjailijan kuvaamien Suomen eri murteiden, vienankarjalan tai kolttasaamelaisen puhuman suomen äänne- ja muotopiirteitä tai kielenkäytön tapoja. Fiktiivisten hahmojen idiolektejä on tutkittavana runsaasti: kirjasarjassahan esiintyy päähenkilön lisäksi noin 2 000 sivuhenkilöä. Korpus tarjoaa uusia tutkimusasetelmia kielitieteen lisäksi monille muille aloille. Iijoki-sarja sisältää valtavasti esimerkiksi metakielisiä havaintoja ja murretta. Kielitieteellisten aiheiden lisäksi siitä voidaan tutkia paljon muuta. Päätalo tekee kirjoissaan kansatieteellisiä havaintoja esimerkiksi työtavoista tai kansanlääkinnästä. Folklorististen aiheiden lisäksi sitä voidaan tarkastella myös itsenäisen Suomen historian kuvauksena: Iijoki-sarjahan kuvaa kirjailijan elämänvaiheita 1910-luvulta 1990-luvulle.

Miten Kielipankki liittyy tutkimukseen?

Tutkin Loimujen aikaan -teoksessa Hermanni Päätalon repliikeissä esiintyviä kirosanoja ja vertaan niitä teoksen muihin kirosanoihin. Tavoitteenani on tehdä kirosanoista funktionaalista, syntaktista ja etymologista analyysiä. Voin laajentaa yhden teoksen lähilukua vertaamalla havaintojani korpuksen avulla vaikkapa koko Iijoki-sarjaan. Viime päivinä pohdinnoissani ovat olleet kirjan kirosanoista esimerkiksi siivatta ja ketehen.

Noin 17 000 sivun laajuinen kaunokirjallinen teossarja tarjoaa varmasti tutkittavaa vielä pitkäksi aikaa. Toki kielellisten ainesten hakeminen siitä helpottuu nyt, kun aineisto on saatu digitaaliseen muotoon. Iijoki-sarjasta koostuvassa korpuksen versiossa Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp -versio on 5 280 750 sanetta ja 494 614 virkettä. Kyseessä on käsittääkseni poikkeuksellisen laaja yhden kirjoittajan (kaunokirjallisista) teksteistä koottu tekstikorpus. Totta kai aineisto sisältää huomattavan paljon murresanoja, joiden automaattinen jäsentäminen ei ole täysin mutkatonta. Kuitenkin jo tässä vaiheessa korpus mahdollistaa näppärästi esimerkiksi erilaisten diskurssianalyyttisten tutkimusten tekemisen.

Eräs Päätalo-harrastaja povasi minulle vastikään, että Päätaloa luetaan 50 vuoden kuluttua. Ehkä onkin niin, että teokset nousevat uudelleen suosioon, kunhan niiden kuvaamasta elämästä on kulunut jonkin verran aikaa. Joka tapauksessa korpus on jo nyt valmiina.

Aineistoon liittyviä julkaisuja

Kalle Päätalo tutkijoiden silmin -symposiumin esitelmistä on tarkoitus noin vuonna 2021 julkaista tieteellinen, vertaisarvioitu artikkelikokoelma, jonka työnimi on ”Iijoelta akatemiaan”. Tekeillä oleva artikkelini on tulossa kyseiseen julkaisuun.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

Hae Kielipankki-portaalista:
Emmi LahtiKuukauden tutkija: Emmi Lahti

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317