21.10.2025

Kuukauden tutkija: Dejan Porjazovski

Kuva: Taru Tanhuanpää

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Dejan Porjazovski kertoo meille tutkimuksestaan, joka liittyy automaattiseen puhutun kielen ymmärtämiseen.

Kuka olet?

Olen Dejan Porjazovski. Tulin Suomeen vuonna 2018 opiskelemaan Aalto-yliopiston maisteriohjelmaan Machine Learning, Data Science, and Artificial Intelligence. Kiinnostukseni kieliteknologiaa kohtaan sai minut liittymään Aalto-yliopiston puheentunnistusryhmään, ensin kesäharjoittelijana ja sen jälkeen maisterintyötä tekemään ja tohtorikoulutettavaksi. Väittelin tohtoriksi toukokuussa 2025.

Valmistumiseni jälkeen siirryin koneoppimisinsinööriksi Aivot Labiin, jossa työskentelen puheesta-tekstiksi- ja tekstistä-puheeksi-järjestelmien sekä suurten kielimallien parissa rakentaakseni suomen kielellä keskustelevia tekoälyavustajia terveydenhuollon alalle.

Mikä on tutkimuksesi aihe?

Väitöskirjani käsitteli automaattista puhutun kielen ymmärtämistä. Keskityin tutkimuksessani kieliin, jotka ovat matalasti resursoituja eli niille on tarjolla kieliaineistoja ja kieliteknologista tukea vain vähänlaisesti. Puhutun kielen ymmärtäminen (eng. spoken language understanding, SLU) on kattotermi, joka kattaa erilaiset puhe- ja kieliteknologiat, joiden avulla tietokoneet voivat ymmärtää ihmisen puhetta.

Tarkastelin väitöstutkimuksessani erilaisia puheen upotuksen (eng. embedding) menetelmiä sekä sitä, miten datamäärä vaikuttaa menetelmien suorituskykyyn. Pyrin myös selvittämään, onko eri menetelmillä kieliriippumattomia ominaisuuksia, mikä on erittäin tärkeää varsinkin kielille, joille on tarjolla kieliteknologisia resursseja vain vähän.

Lisäksi vertasin kahta paradigmaa, joiden pohjalta voi rakentaa puhutun kielen ymmärtämisen järjestelmiä: modulaarista mallia ja end-to-end-mallia (E2E). E2E-mallit vaativat suuren määrän dataa tehtävän oppimiseen. Modulaariset järjestelmät ovat datatehokkaampia, mutta ne ovat myös monimutkaisempia. Nämä asiat selvisivät, kun vertailin E2E- ja modulaarisia järjestelmiä erilaisissa puhutun kielen ymmärtämisen tehtävissä, kuten nimettyjen entiteettien tunnistamisessa (eng. named entity recognition, NER) ja puheenaiheiden tunnistamisessa, keskittyen pääasiassa suomeen, mutta myös muihin kieliin.

Tutkimukseni viimeinen osa-alue liittyy E2E-mallien kykyyn tehdä yleistyksiä puhutun kielen ymmärtämiseen liittyvissä tehtävissä. Kun vuorovaikutukselliset handsfree-laitteet yleistyvät, on tärkeää, että niiden järjestelmät toimivat luotettavasti. Tämä korostuu etenkin tilanteissa, joissa järjestelmät kohtaavat dataa, jota ne eivät ole kohdanneet aiemmin koulutusvaiheensa aikana.

Miten Kielipankki liittyy tutkimukseesi?

Käytin tutkimukseni aikana Aallon puheentunnistuskorpusta kehittääkseni modulaarisia ja E2E-menetelmillä rakennettuja NER-malleja puhutulle suomen kielelle.

Osallistuin myös Lahjoita puhetta (puhelahjat) -aineiston koostamiseen. Aineisto sisältää yli 3000 tuntia puhetta, johon on kerätty erilaisia metatietoja puhujista, kuten ikä, sukupuoli ja puheenaihe. Kehitin aineiston avulla spontaanisti puhutulle suomelle järjestelmän, jolla voi tunnistaa puheenaiheen sekä malleja, joilla voi poimia puheesta metatietoja. Tätä tutkimusta tein ollessani mukana LAREINA-hankkeessa.

Valikoituja julkaisuja

Porjazovski, D., Grósz, T., & Kurimo, M. (2024). From raw speech to fixed representations: A comprehensive evaluation of speech embedding techniques. IEEE/ACM Transactions on Audio, Speech, and Language Processing. DOI: 10.1109/TASLP.2024.3426301

Porjazovski, D., Grósz, T., & Kurimo, M. (2023, September). Topic identification for spontaneous speech: Enriching audio features with embedded linguistic information. In 2023 31st European Signal Processing Conference (EUSIPCO) (pp. 396-400). IEEE. DOI: 10.23919/EUSIPCO58844.2023.10289822

Moisio, A., Porjazovski, D., Rouhe, A., Getman, Y., Virkkunen, A., AlGhezi, R., … & Kurimo, M. (2023). Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Language Resources and Evaluation, 57(3), 1295-1327. DOI: 10.1007/s10579-022-09606-3

Porjazovski, D., Leinonen, J., & Kurimo, M. (2021, August). Attention-based end-to-end named entity recognition from speech. In International Conference on Text, Speech, and Dialogue (pp. 469-480). Cham: Springer International Publishing. DOI: 10.1007/978-3-030-83527-9_40

Porjazovski, D., Leinonen, J., & Kurimo, M. (2020, October). Named entity recognition for spoken finnish. In Proceedings of the 2nd International Workshop on AI for Smart TV Content Production, Access and Delivery (pp. 25-29). DOI: 10.1145/3422839.3423066

Aineistoja

Linkkejä

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.