14.6.2022

Kuukauden tutkija: Jack Rueter

Jack Rueter Kuva: Jack Rueter

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Jack Rueter kertoo meille tutkimuksestaan, joka käsittelee vähemmistökielten morfosyntaktista kuvailua.

Kuka olet?

Olen Jack Rueter. Johdan tutkimushanketta digitaalisissa ihmistieteissä Helsingin yliopistolla ja toimin projektitutkijana suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa Turun yliopistolla. Tutkin joko käsin tai sääntöpohjaisilla järjestelmillä annotoitujen korpusten kontekstipohjaista disambiguointia, jolla tarkoitetaan tekstin sisältämien moniselitteisten muotojen ja ilmausten tulkintojen etsimistä. Siitä asti kun 17-vuotiaana lausuin ensimmäiset suomenkieliset sanani, olen pyrkinyt opettelemaan useita muitakin kieliä ja saavuttamaan niissä käytännön kielitaidon.

Mikä on tutkimuksesi aihe?

Opiskeluajoistani asti olen tehnyt tutkimusta uralilaisten ja muiden vähemmistökielten parissa ja asteittain syventänyt ymmärrystäni siitä, kuinka kieliteknologisia työkaluja ja käytäntöjä voitaisiin hyödyntää kielitieteellisessä perustutkimuksessa. Tein ensimmäisen komi-syrjäänin äärellistilaisen kuvauksen jo neljännesvuosisata sitten ja jatkoin ersän kielen aineistojen parissa 2000-luvun alussa. Kunnianhimoista yhteistyötä on kuitenkin uralilaiseen kielikuntaan kuuluvien kielten kuvauksessa tehty vasta kymmenen viime vuoden aikana. Näissä kuvauksissa on keskitytty sanaston, syntaksin sekä rikkaan mutta säännöllisen morfologian tutkimiseen. Lisäksi keskiössä on ollut ajatus siitä, että monikielisten työkalujen ja oppimisympäristöjen kehittäminen voisi edistää myös kielten dokumentointia.

Työni komi-syrjäänin kielen parissa alkoi 1990-luvun alkupuolella, kun istuin luentokurssilla Helsingin yliopistolla. Opettajamme E. Cypanov tarjosi meille oppitunteja, jotka pohjautuivat hänen kirjoittamiinsa venäjänkielisiin materiaaleihin. Komi–suomi- tai komi–englanti-sanakirjoja ei tuolloin ollut saatavilla. Niinpä ryhdyin kääntämään hänen sanastoaan lyhyeksi kolmikieliseksi komi–englanti–suomi-sanalistaksi, jonka sittemmin oikoluin ja laajensin Alfred Kordelinin säätiöltä saamani apurahan turvin. Sanalistat olivat tuolloin olennaisia etappeja äärellistilaisten kuvausten kehitystyössä. Vuonna 1995 pääsinkin Unix-järjestelmällä aloittamaan komi-syrjäänin mallintamisen professori Kimmo Koskenniemen opastamana.

Vuodesta 1996 aina vuoteen 2004 saakka vietin suuren osan ajastani komien, ersäläisten ja mokšalaisten keskuudessa. Opetin suomen kieltä Mordvan valtionyliopistossa Saranskissa, Mordvassa, joka sijaitsee noin 600 km Moskovasta itään. Kielenopetuksen lisäksi ryhdyin keräämään ja digitoimaan mordvankielistä kirjallisuutta. Samalla opin molemmat kirjakielet ja verkostoiduin niin ammattikielenkäyttäjien kuin natiivipuhujien kanssa. Henkilökohtaisilta tuttaviltani sain näistä kielistä lisää tietoa ja äidinkielisiä kuvauksia, jotka muodostivat pohjan kielten asianmukaiselle dokumentaatiolle. Tähän aikaan tutustuin myös muihin Venäjällä puhuttaviin kieliin sekä loin yhteyksiä Turun ja Tromssan yliopistojen kielentutkimukseen.

Saranskin opetustehtävieni päätyttyä pääsin mukaan Giellatekno-nimisen avoimen lähdekoodin infrastruktuurin työhön Tromssassa. Trond Trosterud kollegoineen oli kiinnostunut työstäni komin kielen parissa ja he halusivat saada sen mukaan Barentsin ja napa-alueen kielten kieliteknologiaa koskevaan kehitystyöhönsä. On sanomattakin selvää, että suostuin tähän ehdotukseen. Niinpä avoimena lähdekoodina julkaistusta komin kielestä tuli uusi palanen laajaan sanakirjoja ja morfologioita koskevaan työhön, johon osallistuin Helsingistä käsin aloittaessani siellä jatko-opintojani. Kieliteknologia vaikutti voimakkaasti myös ersän kielen morfologisten ilmiöiden luokitteluun, jota dokumentoin väitöskirjassani vuonna 2010 ja josta tutkimustyöni vielä myöhemmin huomattavasti laajeni osana Koneen Säätiön rahoittamaa Kieliohjelmaa (2012–2021).

Kieliohjelman aikana tehtiin laajoja pilotteja ja hankkeita, joissa digitoitiin Kansalliskirjaston Fenno-Ugrica-kokoelmaan uhanalaisten suomen sukulaiskielten aineistoja 1920–40-luvuilta. Aineistojen valmisteleminen ja jatkotyöstäminen helpotti myöhempää aunuksenkarjalan, liivin, vuorimarin, mokšan ja tundranenetsin sanaston ja morfologian tutkimustani. Niissä menestyminen oli luonnollisesti mahdollista, koska mukana oli ryhmä kieliasiantuntijoita ja koska kyseisistä kielistä oli saatavissa aiempia kuvauksia. Avoimen lähdekoodin projekteina kielidokumentaatioon keskittyneet hankkeet hyödynsivät myös avointa Helsinki Finite-State Technology (HFST) -kirjastoa sekä avointa saamen kieliteknologian tutkimusinfrastruktuuria (Giellatekno) ja työkaluvarantoa (Divvun) Norjan Tromssassa. Näistä teknologioista saamaani kokemusta sovelsin muihin vähemmistökieliin, kuten inkeroiseen, koltansaameen, niittymariin, udmurttiin, võroon, komi-permjakiin, mansiin ja jopa Amazonin alueella puhuttavaan apurinãan sekä Pohjois-Amerikan länsirannikon pohjoisosien lushootseediin. Tuloksena syntyi kokoelma morfologiaa osaavia verkkosanakirjoja (mm. aunuksenkarjalalle, koltansaamelle, ersälle ja mokšalle) sekä älykäs tietokoneavusteinen kielenoppimisen ympäristö (ICALL), kuten koltansaamen Nuõrti, joka on ottanut mallia pohjoissaamelle tehdystä Davvi-nimisestä ICALL-ympäristöstä. Divvun-kokoelmassa on mukana myös arkikielen kirjoittamista helpottavia työkaluja sekä oikolukutyökaluja.

Sanastossa tai morfologiassa on järkeä vain, jos niitä voi soveltaa laajemmin – syntaksiin ja merkitysten muodostamiseen, kuten kääntämiseen. Anssi Yli-Jyrän ansiosta tutustuin 2010-luvun lopulla Universal Dependencies -projektiin. Aloitin ersän kielen puupankilla ja tein kehitystyötä mokšan, komi-syrjäänin, komi-permjakin, koltansaamen ja apurinãn parissa yhteistyössä Helsingin, Turun, Oulun, Saranskin, Syktyvkarin, Tromssan, Tarton, Göttingenin, Belémin and Bloomingtonin tutkijoiden kanssa. Puupankkien kanssa työskentelyä voi toisaalta pitää keinona välittää kielten dokumentaatiota erilaisille käyttäjäryhmille, ja toisaalta se toimii avoimena julkaisuarkistona, jossa voidaan kehittää morfologisen analyysin jälkeen tehtävää rajoitekieliopillista työtä. Kun kantavana voimana on merkityksellinen morfosyntaksi, päästään Apertiumin ja keskenään läheisesti sukua olevien kielten pintakäännösten mallinnukseen.

Apertium sai alkunsa kääntämisestä katalaanin ja espanjan sekä muiden sukulaiskielten välillä. Sen tekemissä konekäännöksissä huolehdittiin aluksi lähdekielen sanaston muuntamisesta kohdekielelle, jota seurasi morfologisen tiedon siirtäminen ja lopulta syntaksin mukauttaminen kohdekieleen, idiomit huomioiden. Kun läheisiä sukulaiskieliä pystytään kääntämään toistensa välillä tällaisella menetelmällä, voitaisiin menetelmää mahdollisesti hyödyntää myös silloin, kun tarkoituksena olisi mitata kielimuotojen etäisyyttä toisiinsa sen tiedon pohjalta, mitä niistä on dokumentoitu. Esimerkiksi pintamuotojen siirtotyökalujen kehittäminen varsinaiskarjalalle, aunuksenkarjalalle ja suomelle on johtanut sanakirjojen kehitystyöhön, jossa Giella-infrastruktuurin tarjoamaa morfologista kuvausta on sovellettu Akusanat-verkkosanakirjaan sekä Googlen järjestämässä ”Summer of Code” -ohjelmointitapahtumassa Apertiumin kautta. Apertiumiin tulossa olevat kieliparit saattavat pitää sisällään ersän ja mokšan, jotka ovat viime aikoina saaneet lisätukea myös Turun yliopiston Digilang-projektissa tehdyn tutkimuksen myötä.

Miten Kielipankki liittyy tutkimukseesi?

Viime vuosituhannen lopulla aloin kerätä mokšan-, ersän- ja kominkielistä kirjallisuutta niiden kirjoittajilta ja julkaisijoilta tutkimuskäyttöä varten Helsingin yliopiston korpuspalvelimelle (UHLCS), jolta ne on sittemmin siirretty Kielipankkiin. FIN-CLARIN-infrastruktuuri on käyttänyt aikaa ja resursseja vanhempien UHLCS-aineistojen työstämiseen käyttökelpoisempaan muotoon sekä tarjonnut ohjeistusta uudempien korpusten kehitystyöhön. Sen ansiosta minulla on ollut mahdollisuus siirtää Kielipankin Korp-palvelimelle ersän ja mokšan kielelle tekemäni ERME-aineistot sekä Erik Axelsonin kanssa valmistelemani Raamatun jakeita uralilaisille kielille -korpus (Pabivus), josta kiitos kuuluu myös Raamatunkäännösinstituutille. Parhaillaan teemme Korp-palvelimelle Universal Dependencies -mallin mukaista suomalais-ugrilaisten kielten korpusta. Toivoakseni Turun yliopistossa mordvalaisten kielten syntaksin parissa tekemäni työ parantaa Kielipankissa olevien vähemmistökielten korpusten laatua. Entistä tarkempi morfologinen analyysi, joka on sääntöpohjainen ja huomioi myös kontekstin, mahdollistaa puheentunnistus- ja puhesynteesiteknologioiden kehittämisen myös vähemmän dokumentoiduille vähemmistökielille.

Julkaisuja

Rueter, J., Partanen, N., Hämäläinen, M., & Trosterud, T. (2021). Overview of Open-Source Morphology Development for the Komi-Zyrian Language: Past and Future. In Proceedings of the Seventh International Workshop on Computational Linguistics of Uralic Languages (pp. 62–72). The Association for Computational Linguistics. https://aclanthology.org/2021.iwclul-1.4.pdf

Hämäläinen, M., Rueter, J., & Alnajjar, K. (2021). Documentação de línguas ameaçadas na era digital. Linha D’Água, 34(2), 47-64. https://doi.org/10.11606/issn.2236-4242.v34i2p47-64

Rueter, J., Hämäläinen, M., & Partanen, N. (2020). Open-Source Morphology for Endangered Mordvinic Languages. In Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS) (pp. 94–100). The Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.nlposs-1.13

Hämäläinen, M., Alnajjar, K., Rueter, J., Lehtinen, M., & Partanen, N. (2021). An Online Tool Developed for Post-Editing the New Skolt Sami Dictionary. In I. Kosem, M. Cukr, M. Jakubíček, J. Kallas, S. Krek, & C. Tiberius (Eds.), Electronic lexicography in the 21st century (eLex 2021). Proceedings of the eLex 2021 conference (pp. 653-664). (Electronic lexicography in the 21st century (eLex 2021). Proceedings of the eLex 2021 conference). Lexical Computing CZ s.r.o.. Saatavilla: https://elex.link/elex2021/wp-content/uploads/2021/08/eLex_2021_42_pp653-664.pdf

Rueter, J., Pereira de Freitas, M. F., Facundes, S., Hämäläinen, M., & Partanen, N. (2021). Apurinã Universal Dependencies Treebank. In M. Mager, A. Oncevay, A. Rios, I. V. Meza Ruiz, A. Palmer, G. Neubig, & K. Kann (Eds.), Proceedings of the First Workshop on Natural Language Processing for Indigenous Languages of the Americas (pp. 28-33). The Association for Computational Linguistics. DOI: 10.18653/v1/2021.americasnlp-1.4

Rueter, J. (2020). Корпус национальных мордовских языков: принципы разработки и перспективы функционирования/ действия. In ФИННО-УГОРСКИЕ НАРОДЫ В КОНТЕКСТЕ ФОРМИРОВАНИЯ ОБЩЕРОССИЙСКОЙ ГРАЖДАНСКОЙ ИДЕНТИЧНОСТИ И МЕНЯЮЩЕЙСЯ ОКРУЖАЮЩЕЙ СРЕДЫ (pp. 118-127). Издательский центр Историко-социологического института. https://www.researchgate.net/publication/342869938_Corpus_of_the_national_languages_Erzya_and_Moksha_priciples_of_development_and_perspectives_of_functionactionKorpus_nacionalnyh_mordovskih_azykov_principy_razrabotki_i_perspektivy_funkcionirovania_dej

Rueter, J. (Author), & Axelson, E. (Author). (2020). Raamatun jakeita uralilaisille kielille, rinnakkaiskorpus, sekoitettu, Korp [tekstikorpus]. Software, Kielipankki. Saatavilla: http://urn.fi/urn:nbn:fi:lb-2020021119

Rueter, J., Partanen, N., & Ponomareva, L. (2020). On the questions in developing computational infrastructure for Komi-Permyak. In T. A. Pirinen, F. M. Tyers, & M. Rießler (Eds.), Proceedings of the Sixth International Workshop on Computational Linguistics of Uralic Languages (pp. 15–25). The Association for Computational Linguistics. DOI: 10.18653/v1/2020.iwclul-1.3

Rueter, J. M. (2020). Linguistic Distance between Erzya and Moksha. Dependent Morphology. In Е. Ф. Клементьева, Т. И. Мочалова, & И. Н. Рябов (Eds.), ФИННО-УГОРСКИЕ ЯЗЫКИ В СОВРЕМЕННОМ МИРЕ: ФУНКЦИОНИРОВАНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ: Материалы Всероссийской научно-практической конференции, посвященной 95-летию заслуженного деятеля науки РФ, доктора филологических наук, профессора Цыганкина Дмитрия Васильевича (pp. 90-110). МГУ им. Н. П. Огарёва. Saatavilla: http://hdl.handle.net/10138/330042

Rueter, J., Partanen, N., & Pirinen, T. A. (2021). Numerals and what counts. In M. D. Lhoneux, & R. Tsarfaty (Eds.), Fifth Workshop on Universal Dependencies : Proceedings (pp. 151–159). The Association for Computational Linguistics. Saatavilla: https://aclanthology.org/2021.udw-1.13

Rueter, J., & Hämäläinen, M. (2020). Prerequisites For Shallow-Transfer Machine Translation Of Mordvin Languages: Language Documentation With A Purpose. In Материалы Международного образовательного салона (pp. 18-29). Ижевск: Институт компьютерных исследований. Saatavilla: http://hdl.handle.net/10138/325962

Rueter, J. M. (Accepted/In press). Mordva. In R. Valijärvi & D. Abondolo (Eds.), The Uralic Languages Routledge.

Lisätietoa Kielipankissa olevista resursseista

Muita kieliresursseja ja repositorioita

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.