2.7.2020

Kuukauden tutkija: Sam Hardwick

Sam Hardwick - kuva: Bess Hardwick
Kuva: Bess Hardwick

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston projektitutkija Sam Hardwick kertoo, miten hän on ollut mukana tuottamassa Kielipankin työkaluja.

Kuka olet?

Olen freelance-konsultti, -tutkija ja -ohjelmoija. Urani kieliteknologian parissa alkoi Helsingin yliopistolla HFST-projektissa, jossa kehitettiin ohjelmistoja morfologian mallintamiseen ja sovelluskehitykseen. Niitä on käytetty mm. taivuttaviin käännössanakirjoihin ja oikeinkirjoitustyökaluihin kielille, joissa on rikas morfologia (kuten suomi, saamelaiskielet ja grönlanti). Sittemmin olen vastannut erilaisten akateemisten hankkeiden teknisestä puolesta sekä konsultoinut yksityisellä sektorilla.

Mikä on työsi aihe?

Tällä hetkellä olen tekemässä sentimenttikorpusta, eli kokoelmaa sosiaalisesta mediasta kerättyjä tekstinpätkiä, joiden tunneilmaisu (positiivinen, neutraali, negatiivinen) arvioidaan ihmisten toimesta. Näiden arvioiden pohjalta kehitetään myös automaattinen sentimenttitunnistin, joka on työkaluna itsessäänkin tarpeellinen ja jolla voidaan tulevaisuudessa annotoida uusissa aineistoissa ilmaistua tunnesävyä virke virkkeeltä.

Olen myös mukana ANEE-hankkeessa tekemässä puupankkia Akkadin kielelle, sekä tähän liittyvää automaattista analysointityökalua, jolla toivottavasti saadaan tämän muinaiskielen aineistoja analysoitua lisää automaattisesti.

Miten Kielipankki liittyy tutkimukseesi?

Olen tehnyt monenlaista kehitystyötä suoraan Kielipankkia varten – tällä hetkellä suunnitteilla on mm. ohjelmallinen rajapinta, jolla Kielipankin aineistoja voisi käyttää suoraan ohjelmakoodista. Nykyään kieliteknologisten työkalujen kehitys on yhä enemmän koneoppimisen yleisosaajien kiinnostuksen kohteena, ja monia kiinnostaa päästä käsiksi dataan – mitä enemmän ja mitä rikastetumpaa, sen parempi.

Kielipankin aineistoon liittyviä julkaisuja:

Käytimme E-Thesis -aineistoa, eli opinnäytetöitä, etsimään automatisoidusti tieteellisiä termejä Tieteen Termipankkia varten:

Hardwick, S., Enqvist, E. J., Onikki-Rantajääskö, T. A., & Linden, B.K. J. (2018). Tieteen kansallinen termipankki (TTP) ja tiedonlouhinnan apuneuvot. Posterin esittämispaikka: Kielitieteen päivät, Helsinki, Finland.

Sen toiminta näyttää tältä: https://www.kielipankki.fi/tools/demo/termipankki/matemaattis.html.

Olen julkaissut erilaisia aineistoja käyttäviä työkaluja sivulla https://www.kielipankki.fi/tools/demo/.

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.