14.11.2018

Kuukauden tutkijat: Niklas Edenmyr, Ali Basirat ja Marc Tang

Niklas Edenmyr, Ali Basirat, Marc Tang - kuva: Ali Basirat
Kuva: Ali Basirat

 

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Uppsalan yliopiston kielitieteilijät Niklas Edenmyr, Ali Basirat ja Marc Tang kertovat tekemästään tutkimuksesta, jossa he ovat hyödyntäneet Kielipankin aineistoa Helsinki Corpus of Swahili 2.0 (HCS 2.0) Downloadable Annotated Version.

Keitä olette?

Olemme Niklas Edenmyr, Ali Basirat ja Marc Tang. Olemme kielitieteilijöitä Uppsalan yliopistossa Ruotsissa. Ryhmässämme Niklas työskentelee Afrikan kielten, Ali tietokonelingvistiikan ja Marc kvantitatiivisen lingvistisen typologian parissa.

Mikä on tutkimuksenne aihe?

Teemme juuri nyt tutkimusta kahden eri hankkeen välisessä yhteistyössä. Ne ovat Principal word embedding ja Linguistic Diversity. Tavoitteena ensimmäisessä hankkeessa on testata ja parantaa sanaupotusten hyödyntämistä kieliaineiston käsittelyssä, kun taas jälkimmäisessä tutkitaan kieltenvälisiä nominien luokittelujärjestelmien rakenteita (esim. kieliopillista sukua). Molemmissa hankkeissa yhteistä on pyrkimys selvittää, miten sanaupotustieto voi olla avuksi tunnistettaessa kieliopillista sukua useissa maailman kielissä.

Miten Kielipankki liittyy tutkimukseenne?

Yksi tällä hetkellä tutkimistamme kielistä on swahili (Niger-Congo). Sen nominien luokittelujärjestelmä on suhteellisen monimutkainen, kielessä kun on yli 15 nominaalista luokkaa. Käytämme tutkimuksessamme Kielipankin aineistoa Helsinki Corpus of Swahili 2.0 (HCS 2.0) Downloadable Annotated Version, joka sisältää noin 25 miljoonaa annotoitua sanaa. Sen avulla voimme opettaa menetelmälle sanaupotusmalleja ja testaamme, voivatko sanavektorit olla avuksi nominaalisten luokkien tunnistamisessa swahilin kielessä.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.