
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Dejan Porjazovski kertoo meille tutkimuksestaan, joka liittyy automaattiseen puhutun kielen ymmärtämiseen.
Olen Dejan Porjazovski. Tulin Suomeen vuonna 2018 opiskelemaan Aalto-yliopiston maisteriohjelmaan Machine Learning, Data Science, and Artificial Intelligence. Kiinnostukseni kieliteknologiaa kohtaan sai minut liittymään Aalto-yliopiston puheentunnistusryhmään, ensin kesäharjoittelijana ja sen jälkeen maisterintyötä tekemään ja tohtorikoulutettavaksi. Väittelin tohtoriksi toukokuussa 2025.
Valmistumiseni jälkeen siirryin koneoppimisinsinööriksi Aivot Labiin, jossa työskentelen puheesta-tekstiksi- ja tekstistä-puheeksi-järjestelmien sekä suurten kielimallien parissa rakentaakseni suomen kielellä keskustelevia tekoälyavustajia terveydenhuollon alalle.
Väitöskirjani käsitteli automaattista puhutun kielen ymmärtämistä. Keskityin tutkimuksessani kieliin, jotka ovat matalasti resursoituja eli niille on tarjolla kieliaineistoja ja kieliteknologista tukea vain vähänlaisesti. Puhutun kielen ymmärtäminen (eng. spoken language understanding, SLU) on kattotermi, joka kattaa erilaiset puhe- ja kieliteknologiat, joiden avulla tietokoneet voivat ymmärtää ihmisen puhetta.
Tarkastelin väitöstutkimuksessani erilaisia puheen upotuksen (eng. embedding) menetelmiä sekä sitä, miten datamäärä vaikuttaa menetelmien suorituskykyyn. Pyrin myös selvittämään, onko eri menetelmillä kieliriippumattomia ominaisuuksia, mikä on erittäin tärkeää varsinkin kielille, joille on tarjolla kieliteknologisia resursseja vain vähän.
Lisäksi vertasin kahta paradigmaa, joiden pohjalta voi rakentaa puhutun kielen ymmärtämisen järjestelmiä: modulaarista mallia ja end-to-end-mallia (E2E). E2E-mallit vaativat suuren määrän dataa tehtävän oppimiseen. Modulaariset järjestelmät ovat datatehokkaampia, mutta ne ovat myös monimutkaisempia. Nämä asiat selvisivät, kun vertailin E2E- ja modulaarisia järjestelmiä erilaisissa puhutun kielen ymmärtämisen tehtävissä, kuten nimettyjen entiteettien tunnistamisessa (eng. named entity recognition, NER) ja puheenaiheiden tunnistamisessa, keskittyen pääasiassa suomeen, mutta myös muihin kieliin.
Tutkimukseni viimeinen osa-alue liittyy E2E-mallien kykyyn tehdä yleistyksiä puhutun kielen ymmärtämiseen liittyvissä tehtävissä. Kun vuorovaikutukselliset handsfree-laitteet yleistyvät, on tärkeää, että niiden järjestelmät toimivat luotettavasti. Tämä korostuu etenkin tilanteissa, joissa järjestelmät kohtaavat dataa, jota ne eivät ole kohdanneet aiemmin koulutusvaiheensa aikana.
Käytin tutkimukseni aikana Aallon puheentunnistuskorpusta kehittääkseni modulaarisia ja E2E-menetelmillä rakennettuja NER-malleja puhutulle suomen kielelle.
Osallistuin myös Lahjoita puhetta (puhelahjat) -aineiston koostamiseen. Aineisto sisältää yli 3000 tuntia puhetta, johon on kerätty erilaisia metatietoja puhujista, kuten ikä, sukupuoli ja puheenaihe. Kehitin aineiston avulla spontaanisti puhutulle suomelle järjestelmän, jolla voi tunnistaa puheenaiheen sekä malleja, joilla voi poimia puheesta metatietoja. Tätä tutkimusta tein ollessani mukana LAREINA-hankkeessa.
Porjazovski, D., Grósz, T., & Kurimo, M. (2024). From raw speech to fixed representations: A comprehensive evaluation of speech embedding techniques. IEEE/ACM Transactions on Audio, Speech, and Language Processing. DOI: 10.1109/TASLP.2024.3426301
Porjazovski, D., Grósz, T., & Kurimo, M. (2023, September). Topic identification for spontaneous speech: Enriching audio features with embedded linguistic information. In 2023 31st European Signal Processing Conference (EUSIPCO) (pp. 396-400). IEEE. DOI: 10.23919/EUSIPCO58844.2023.10289822
Moisio, A., Porjazovski, D., Rouhe, A., Getman, Y., Virkkunen, A., AlGhezi, R., … & Kurimo, M. (2023). Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks. Language Resources and Evaluation, 57(3), 1295-1327. DOI: 10.1007/s10579-022-09606-3
Porjazovski, D., Leinonen, J., & Kurimo, M. (2021, August). Attention-based end-to-end named entity recognition from speech. In International Conference on Text, Speech, and Dialogue (pp. 469-480). Cham: Springer International Publishing. DOI: 10.1007/978-3-030-83527-9_40
Porjazovski, D., Leinonen, J., & Kurimo, M. (2020, October). Named entity recognition for spoken finnish. In Proceedings of the 2nd International Workshop on AI for Smart TV Content Production, Access and Delivery (pp. 25-29). DOI: 10.1145/3422839.3423066
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.