13.10.2023

In English

Kuukauden tutkija: Anna Dmitrieva

Anna Dmitrieva
Anna Dmitrieva (takana) ja Aleksandra Konovalova (edessä), Suomi-selkosuomi-rinnakkaiskorpuksen tekijät. Kuva: Anna Dmitrieva

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Anna Dmitrieva kertoo meille selkokielistämiseen liittyvästä tutkimuksestaan. Laskennalliset menetelmät ja rinnakkaisaineistojen koostaminen ovat olennainen osa hänen työtään.

Kuka olet?

Olen Anna Dmitrieva, väitöskirjatutkija Helsingin yliopiston kielentutkimuksen tohtoriohjelmassa HELSLANGissa.

Mikä on tutkimuksesi aihe?

Pääasiallinen kiinnostukseni on tekstin selkokielistäminen. Olen opiskellut tietokonelingvistiikkaa vuodesta 2012, kun aloitin kandidaatinopintoni. Sen jälkeen olen tehnyt paljon luonnollisen kielen käsittelyyn (NLP) liittyviä asioita, mutta tekstin yksinkertaistaminen on ollut keskiössä etenkin jatko-opintojeni aikana.

Selkokielistäminen on prosessi, jossa tekstistä tehdään ”yksinkertaisempi”. Selkokielistetyn tekstin pitäisi olla helppolukuisempi ja laajemman yleisön saavutettavissa. NLP:ssä tätä prosessia voidaan lähestyä yksikielisenä konekäännösongelmana. Koulutamme malleja, joilla voidaan kääntää tai muuntaa tekstiä: tietyllä kielellä laaditusta lähdetekstistä saadaan ”yksinkertaisempi” versio samalla kielellä. Tähän tehtävään tarvitaan tyypillisesti paljon rinnakkaisdataa, jossa jokaiselle lähdetekstille on olemassa vastaava ”helppo” kohdeteksti.

Työskentelen sellaisten kielten parissa, joista ei vielä ole paljon selkokielistettyjä aineistoja, koostan niistä aineistoja ja koulutan selkokielistämismalleja. Väitöstutkimukseni aikana olen koonnut venäjän ja suomen kielen selkokielistämisaineistoja ja -malleja. Tutkin myös kontrolloitua selkokielistämistä, jossa pyritään säätelemään selkokielistämismallin tuotoksen tiettyjä kielellisiä ominaisuuksia.

Miten Kielipankki liittyy tutkimukseesi?

Suomalaisena yliopisto-opiskelijana olen luonnollisesti ajatellut tehdä suomen kielelle selkokielistämismallin. Koska suomen kielelle ei ollut olemassa rinnakkaisia selkokielikorpuksia, minun oli tehtävä sellainen itse. Ilmeisin valinta aineistolähteeksi oli Ylen suomenkielisen uutisarkiston selkouutiset: ne ovat olemassa tekstimuodossa, niitä on ollut olemassa suhteellisen kauan ja niille on vastineet ”tavallisessa” suomessa. Oli huojentavaa huomata, ettei minun tarvinnut itse haravoida uutisia Ylen API:n kautta, sillä kaikki arkistot olivat jo Kielipankissa.

Minun oli kuitenkin ratkaistava ongelma, joka liittyi selkokielisen suomen ja tavallisen suomen uutisten kohdistamiseen keskenään. Käytin automaattista kohdistusmenetelmää, mutta työn tueksi ei ollut tarjolla valmista dokumenttiparien testijoukkoa, jolla olisin voinut tarkistaa kohdistustuloksen laadun. Ystäväni Aleksandra Konovalova (Turun yliopisto) tuli apuun ja arvioi itse 1919 dokumenttiparia. Yhdessä rakensimme Suomen ja selkosuomen rinnakkaiskorpuksen, joka on nyt saatavilla Kielipankissa. Parhaillaan olen lisäämässä uusia dokumenttipareja sekä tuotan aineistosta lausetasolla kohdistettua versiota, joka toivottavasti myös tulee valmistuttuaan saataville Kielipankkiin.

Julkaisuja

Dmitrieva, A. & Konovalova, A. Creating a parallel Finnish—Easy Finnish dataset from news articles. Jun 2023, Proceedings of the 1st Workshop on Open Community-Driven Machine Translation. Esplá-Gomis, M., Forcada, M., Kuzman, T., Ljubešić, N., van Noord, R., Ramírez-Sánchez, G., Tiedemann, J. & Toral, A. (eds.). Universitat d’Alacant, p. 21-26 6 p. https://macocu.eu/static/media/proceedings.37b7e88ce3dbab99adf9.pdf#page=27

Dmitrieva, A. Automatic text simplification of Russian texts using control tokens. May 2023, Proceedings of the 9th Workshop on Slavic Natural Language Processing 2023 (SlavicNLP 2023). Piskorski, J., Marcińczuk, M. & Nakov, et al., P. (eds.). Stroudsburg: Association for Computational Linguistics (ACL), p. 70-77 8 p. DOI: 10.18653/v1/2023.bsnlp-1.9

Dmitrieva, A. The role of language technology in accessible communication research. Jun 2023, Emerging Fields in Easy Language and Accessible Communication Research. Deilen, S., Hansen-Schirra, S., Hernández Garrido, S., Maaß, C. & Tardel, A. (eds.). Frank & Timme, p. 319-338 20 p. (Easy – Plain – Accessible; vol. 14). https://researchportal.helsinki.fi/fi/publications/the-role-of-language-technology-in-accessible-communication-resea

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.