10.12.2020

Kuukauden tutkija: Tommi Jauhiainen

Kuva: Heidi Jauhiainen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Parivuotista post doc-kauttaan parhaillaan aloitteleva Kielipankin projektisuunnittelija Tommi Jauhiainen kertoo Kielipankin palveluihin ja aineistoihin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Tommi Jauhiainen ja toimin tällä hetkellä Kielipankissa projektisuunnittelijana. Vuodenvaihteessa 2020-21 siirryn post doc-tutkijaksi Vaikuttavuussäätiön myöntämällä apurahalla.

Mikä on tutkimuksesi aihe?

Viimeisen hieman yli kymmenen vuoden aikana olen tutkinut erityisesti tekstin kielen automaattista tunnistamista. Kirjoitin aiheesta graduni 2010 ja väitöskirjani 2019. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai samankaltaisia menetelmiä voidaan käyttää myös tekstien lajitteluun esimerkiksi aihealueiden suhteen.

Tunnistamisen vaikeustaso vaihtelee hyvin paljon tilanteen mukaan. Tehtävä on helppo, jos valittavina on vain muutamia toisistaan selvästi eroavia kieliä, kuten vaikka suomi ja ruotsi, ja jos tekstit ovat kohtuullisen pitkiä, esimerkiksi useiden virkkeiden mittaisia. Mikäli kieliä on satoja, kielet ovat lähellä toisiaan (esim. kveeni ja meänkieli) ja/tai tekstit ovat lyhyitä (esim. vain yksittäisiä sanoja), niiden tunnistaminen saattaa olla hyvin vaikeaa.

Tekstien kielen automaattisesta tunnistuksesta kirjoittamamme laaja katsaus ilmestyi viime vuonna ”Journal of Artificial Intelligence”-lehdessä. Työstämme samasta aiheesta tällä hetkellä myös oppikirjaa, joka julkaistaan Morgan & Claypoolin ”Synthesis Lectures on Human Language Technologies”-sarjassa toivottavasti vuoden 2021 loppupuolella.

Olen osallistunut väitöstutkimukseni aikana ja sen jälkeen useisiin kansainvälisiin kilpailuihin (shared tasks), joissa on keskitytty etenkin lähellä toisiaan olevien kielten tai murteiden erottelemiseen toisistaan. Vuonna 2018 voitimme sveitsinsaksan murteisiin ja intialaisiin kieliin keskittyneet kilpailut ja viime vuonna mandariinikiinan eri versioihin keskittyneen kilpailun. Olen myös jäsenenä ”Muinaisen Lähi-idän imperiumit”-huippuyksikössä, jossa olen tutkinut, kuinka nuolenpäillä kirjoitetun akkadin ja sumerin eri murteita voisi erotella toisistaan. Järjestin tästä aiheesta viime vuonna kansainvälisen kilpailun, jonka voitti kanadalainen tutkimusryhmä syväoppimista käyttämällä.

Tulevassa Vaikuttavuussäätiön rahoittamassa ”Language Identification of Speech and Text”-hankkeessa siirryn tutkimaan erityisesti puheen kielen tunnistamista tekstin kielen tunnistamisen lisäksi. Puheen ja tekstin kielten tunnistamisen tutkimus on tähän saakka ollut hyvin eriytynyttä, ja tarkoitukseni on saada aikaan enemmän yhteistyötä näiden kahden tutkimusalan välille.

Miten Kielipankki liittyy tutkimukseesi?

Suurin osa väitöstutkimuksestani tehtiin Suomalais-ugrilaiset kielet ja internet -projektissa, joka toimi Kielipankkia ylläpitävän FIN-CLARIN-tutkimusryhmän osana. Projektissa etsimme internetistä pienillä uralilaisilla kielillä kirjoitettuja verkkosivuja, teimme niistä portaalisivuston ja koostimme niiden sisältämästä tekstistä virkekorpuksia. Keräyksen aikana ja virkekorpuksia luodessa käytimme automaattista kielentunnistusta. Portaalisivusto, Wanca, on nyt osana Kielipankin ylläpitämiä työkaluja ja Wanca 2016 -aineisto löytyy Kielipankista kolmena eri versiona. Wanca 2017 -aineisto on käytössä meneillään olevassa ULI (Uralic Language Identification) kilpailussa ja aineisto julkaistaan ensi vuoden aikana.

Kielipankkiin liittyviä julkaisuja:

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2015). The Finno-Ugric Languages and the Internet project. In First International Workshop on Computational Linguistics for Uralic Languages: Proceedings of the Workshop (Vol. 2, pp. 87–98). (Septentrio Conference Series; Vol. 2015, No. 2). Septentrio Academic Publishing. https://doi.org/10.7557/scs.2015.2

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2015). Language Set Identification in Noisy Synthetic Multilingual Documents. In Computational Linguistics and Intelligent Text Processing (Vol. Part I, pp. 633-643). (Lecture Notes in Computer Science; Vol. 9041). Springer International Publishing AG. https://doi.org/10.1007/978-3-319-18111-0_48

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2016). HeLI, a Word-Based Backoff Method for Language Identification. In Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects: VarDial3, Osaka, Japan, December 12 2016 (pp. 153-162). https://www.aclweb.org/anthology/W16-4820/

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2017). Evaluation of language identification methods using 285 languages. In 21st Nordic Conference of Computational Linguistics: Proceedings of the Conference (pp. 183-191). (Linkping Electronic Conference Proceedings; No. 31). Linköping University Electronic Press. https://www.aclweb.org/anthology/W17-0221/

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). Iterative Language Model Adaptation for Indo-Aryan Language Identification. In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 66-75). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-3907

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2018). HeLI-based Experiments in Swiss German Dialect Identification. In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018) (pp. 254-262). The Association for Computational Linguistics. http://aclweb.org/anthology/W18-3929

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2019). Wanca in Korp: Text corpora for underresourced Uralic languages. In Proceedings of the Research data and humanities (RDHUM) 2019 conference : data, methods and tools (pp. 21-40). Studia Humaniora Ouluensia; No. 17. University of Oulu.

Jauhiainen, T., Linden, K., & Jauhiainen, H. (2019). Language Model Adaptation for Language and Dialect Identification of Text. Natural Language Engineering, 25(5), 561-583. [135132491900038]. https://doi.org/10.1017/S135132491900038X

Jauhiainen, T. (2019). Language identification in texts. University of Helsinki. http://urn.fi/URN:ISBN:978-951-51-5131-5

Jauhiainen, T., Jauhiainen, H., Alstola, T., & Linden, K. (2019). Language and Dialect Identification of Cuneiform Texts. In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 89-98). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1409/https://www.aclweb.org/anthology/W19-1409/

Jauhiainen, T., Jauhiainen, H., & Linden, K. (2019). Discriminating between Mandarin Chinese and Swiss-German varieties using adaptive language models. In Proceedings of the Sixth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2019) (pp. 178-187). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1419/

Jauhiainen, T., Lui, M., Zampieri, M., Baldwin, T., & Lindén, K. (2019). Automatic Language Identification in Texts: A Survey. Journal of Artificial Intelligence Research, 65, 675-782. https://doi.org/10.1613/jair.1.11675

Zampieri, M., Malmasi, S., Scherrer, Y., Samardžic, T., Tyers, F., Silfverberg, M. P., Klyueva, N., Pan, T-L., Huang, C-R., Ionescu, R. T., Butnaru, A., & Jauhiainen, T. S. (2019). A Report on the Third VarDial Evaluation Campaign. In Proceedings of the (pp. 1-16). The Association for Computational Linguistics. https://www.aclweb.org/anthology/W19-1401/

Jauhiainen, H., Jauhiainen, T., & Linden, K. (2020). Building Web Corpora for Minority Languages. In Proceedings of the 12th Web as Corpus Workshop (pp. 23-32). The Association for Computational Linguistics. https://www.aclweb.org/anthology/2020.wac-1.4

Gaman, M., Hovy, D., Ionescu, R. T., Jauhiainen, H., Jauhiainen, T., Linden, K., Ljubešić, N., Partanen, N., Purschke, C., Scherrer, Y., & Zampieri, M. (Accepted/In press). A Report on the VarDial Evaluation Campaign 2020. In Proceedings of VarDial 2020

Jauhiainen, T., Jauhiainen, H., Partanen, N., & Linden, K. (Accepted/In press). Uralic Language Identification (ULI) 2020 shared task dataset and the Wanca 2017 corpora. In Proceedings of VarDial 2020 https://arxiv.org/pdf/2008.12169.pdf

Lindgren, M., Jauhiainen, T., & Kurimo, M. (2020). Releasing a toolkit and comparing the performance of language embeddings across various spoken language identification datasets. In Proceedings of Interspeech 2020 (pp. 467-471) http://www.interspeech2020.org/uploadfile/pdf/Mon-1-11-5.pdf

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.