In English

Kuukauden tutkija: Harri Uusitalo

Harri Uusitalo
Kuva: Timo Tuovinen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Harri Uusitalo kertoo meille tutkimuksistaan erilaisten ja eri-ikäisten suomenkielisten tekstiaineistojen parissa.

Kuka olet?

Olen tutkijatohtori Harri Uusitalo Turun yliopistosta. Olen suomen kielen tutkija ja työskentelen tällä hetkellä historian, kulttuurin ja taiteiden tutkimuksen laitoksella monitieteisissä hankkeissa Fauna et Flora Fennica sekä Kadonneet, uhanalaiset ja saapuneet lajit – Ihmisten suhde Itämeren muuttuvaan biodiversiteettiin. Tutkimusryhmissä tarkastelemme suomalaisten historiallista luontosuhdetta.

Mikä on tutkimuksesi aihe?

Olen tutkinut eri-ikäisiä suomenkielisiä tekstiaineistoja alkaen Agricolan ajoista aina nykykieleen asti. Väitöstutkimukseni käsitteli 1600-luvun lakikieltä, ja viime aikoina ympäristöaiheet ja ekolingvistiset näkökulmat ovat temmanneet minut mukaansa.

Miten Kielipankki liittyy tutkimukseesi?

Olen yhdessä kollegojeni kanssa hyödyntänyt Kielipankin aineistoja muutamissa tutkimuksissani. Esimerkiksi Karita Suomalaisen kanssa tutkimme Suomi24-aineistoa ja Korp-työkalua käyttäen, miten hyvin suomalaiset tunnistavat vieraslajeja ja miten he niistä keskustelevat. Duha Elsayedin ja Heidi Salmen kanssa puolestaan käytimme Mikael Agricolan teosten morfosyntaktista tietokantaa, kun tarkastelimme Agricolan teosten A-infinitiivin translatiiveja.

Tulevissa tutkimuksissani hyödynnän mainittujen lisäksi varmasti monia muitakin Kielipankissa olevia aineistoja kuten Vanhan kirjasuomen korpusta, Varhaisnykysuomen korpusta ja Kansalliskirjaston lehtikokoelmaa.

Julkaisuja

Uusitalo Harri, Lähdesmäki Heta, Sonck-Rautio Kirsi, Latva Otto, Salmi Hannu & Alenius Teija (tulossa): Alien Plants between Practices and Representations: the Cases of European Spruce and Beach Rose in Finland. Plant Perspectives.

Uusitalo Harri & Suomalainen Karita 2023: Ecolinguistic Approach to Online Finnish Discourse on Invasive Alien Species. Language@Internet 21. https://www.languageatinternet.org/articles/2023/uusitalo

Elsayed Duha, Salmi Heidi & Uusitalo Harri 2022: A-infinitiivin translatiivi Mikael Agricolan teksteissä. Sananjalka 64. Suomen Kielen Seura, Turku. DOI: 10.30673/sja.107377

Aineistoja ja työkaluja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Tanja Säily

Tanja Säily
Kuva: Veikko Somerpuro

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tanja Säily kertoo meille englannin kielen tutkimuksestaan, jossa yhdistyvät korpuslingvistiikka, digitaaliset ihmistieteet ja historiallinen sosiolingvistiikka.

Kuka olet?

Olen Tanja Säily, englannin kielen apulaisprofessori Helsingin yliopistossa.

Mikä on tutkimuksesi aihe?

Tutkin englannin kielen vaihtelua ja muutosta sosiolingvistisestä näkökulmasta. Tutkimuksessani yhdistyvät korpuslingvistiikka, digitaaliset ihmistieteet ja historiallinen sosiolingvistiikka. Teen paljon yhteistyötä muiden kielentutkijoiden sekä historioitsijoiden kanssa; lisäksi kehitän uusia menetelmiä datatieteilijöiden ja kieliteknologien kanssa. Tutkin sosiolingvististä vaihtelua erityisesti kielellisessä produktiivisuudessa, kuten uudissanojen käytössä. Olen tutkinut myös sukupuolittuneita tyylejä ja kielenmuutoksen nopeuteen vaikuttavia tekijöitä.

Miten Kielipankki liittyy tutkimukseesi?

Käytän englannin kielen tekstikorpuksia, joita olen lisännyt myös Kielipankkiin itseni ja muiden käyttöön. Tällä hetkellä tutkin erilaisten kielellisten konstruktioiden produktiivisuutta Corpus of Historical American English (COHA) -aineistossa (mm. Säily & Vartiainen, tulossa). Olen käyttänyt korpusta Korp-työkalulla ja ladannut sen myös omalle koneelleni.

Olen laatinut historiallisen korpuslingvistiikan menetelmistä avoimesti saatavilla olevan oppimateriaalin graduntekijöille ja muille kiinnostuneille. Se on talletettu Kielitieteen metodipankkiin, ja harjoitustehtävissä käytetty Helsinki Corpus of English Texts -aineiston varhaisuusenglannin osio löytyy Kielipankista.

Julkaisuja

Tässä lyhyt luettelo muutamista tuoreimmista julkaisuistani; koko lista löytyy osoitteesta https://tanjasaily.fi/publications/

Accepted. Säily, Tanja, Martin Hilpert & Jukka Suomela. New approaches to investigating change in derivational productivity: Gender and internal factors in the development of -ity and -ness, 1600–1800. Patricia Ronan, Theresa Neumaier, Lisa Westermayer, Andreas Weilinghoff & Sarah Buschfeld (eds.), Crossing boundaries through corpora: Innovative approaches to corpus linguistics (Studies in Corpus Linguistics). Amsterdam: John Benjamins.

Accepted. Säily, Tanja & Turo Vartiainen. Historical linguistics. Michaela Mahlberg & Gavin Brooks (eds.), Bloomsbury handbook of corpus linguistics. London: Bloomsbury.

Accepted. Säily, Tanja, Turo Vartiainen, Harri Siirtola & Terttu Nevalainen. Changing styles of letter-writing? Evidence from 400 years of early English letters in a POS-tagged corpus. Luisella Caon, Moragh Gordon & Thijs Porck (eds.), Unlocking the history of English: Pragmatics, prescriptivism and text types (Current Issues in Linguistic Theory). Amsterdam: John Benjamins.

2023. Landert, Daniela, Tanja Säily & Mika Hämäläinen. TV series as disseminators of emerging vocabulary: Non-codified expressions in the TV Corpus. ICAME Journal 47(1): 63–79. DOI: 10.2478/icame-2023-0004

2022. Rodríguez-Puente, Paula, Tanja Säily & Jukka Suomela. New methods for analysing diachronic suffix competition across registers: How -ity gained ground on -ness in Early Modern English. International Journal of Corpus Linguistics27(4): 506–528. Special issue, Corpus studies of language through time, ed. by Tony McEnery, Gavin Brookes & Isobelle Clarke. DOI: 10.1075/ijcl.22014.rod

2021. Säily, Tanja, Eetu Mäkelä & Mika Hämäläinen. From plenipotentiary to puddingless: Users and uses of new words in early English letters. Mika Hämäläinen, Niko Partanen & Khalid Alnajjar (eds.), Multilingual Facilitation, 153–169. Helsinki: University of Helsinki. DOI: 10.31885/9789515150257.15

2020. Mäkelä, Eetu, Krista Lagus, Leo Lahti, Tanja Säily, Mikko Tolonen, Mika Hämäläinen, Samuli Kaislaniemi & Terttu Nevalainen. Wrangling with non-standard data. Sanita Reinsone, Inguna Skadiņa, Anda Baklāne & Jānis Daugavietis (eds.), Proceedings of the Digital Humanities in the Nordic Countries 5th Conference, Riga, Latvia, October 21–23, 2020 (CEUR Workshop Proceedings 2612), 81–96. Aachen: CEUR-WS.org. DHN 2020 Best Paper Award. http://ceur-ws.org/Vol-2612/paper6.pdf

2020. Nevalainen, Terttu, Tanja Säily, Turo Vartiainen, Aatu Liimatta & Jefrey Lijffijt. History of English as punctuated equilibria? A meta-analysis of the rate of linguistic change in Middle English. Journal of Historical Sociolinguistics 6(2): article 20190008. Special issue, Comparative Sociolinguistic Perspectives on the Rate of Linguistic Change, ed. by Terttu Nevalainen, Tanja Säily & Turo Vartiainen. DOI:10.1515/jhsl-2019-0008

2019. Hill, Mark J., Ville Vaara, Tanja Säily, Leo Lahti & Mikko Tolonen. Reconstructing intellectual networks: From the ESTC’s bibliographic metadata to historical material. Costanza Navarretta, Manex Agirrezabal & Bente Maegaard (eds.), Proceedings of the Digital Humanities in the Nordic Countries 4th Conference, Copenhagen, Denmark, March 6–8, 2019 (CEUR Workshop Proceedings 2364), 201–219. Aachen: CEUR-WS.org. DHN 2019 Best Paper Award. http://ceur-ws.org/Vol-2364/19_paper.pdf

2018. Säily, Tanja. Change or variation? Productivity of the suffixes -ness and -ity. Terttu Nevalainen, Minna Palander-Collin & Tanja Säily (eds.), Patterns of Change in 18th-century English: A Sociolinguistic Approach (Advances in Historical Sociolinguistics 8), 197–218. Amsterdam: John Benjamins. DOI: 10.1075/ahs.8

Aineistoja ja oppimateriaaleja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Liisa Mustanoja

Liisa Mustanoja
Kuva: Antti Yrjönen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Liisa Mustanoja kertoo meille sosiolingvistiikkaan liittyvästä tutkimuksestaan. Puhekielen muuttumista on mahdollista tutkia pitkittäiskorpuksen avulla, joka mahdollistaa samojen henkilöiden puheen tarkastelun eri ajanhetkillä.

Kuka olet?

Olen FT Liisa Mustanoja Tampereelta. Työskentelen suomen kielen yliopistonlehtorina Tampereen yliopiston Informaatioteknologian ja viestinnän tiedekunnan Kielten yksikössä. Tammikuusta 2024 alkaen hoidan Kielten yksikön päällikön tehtävää seuraavan viisivuotiskauden ajan. Olen myös suomen kielen dosentti Oulun yliopistossa erityisalanani sosiolingvistiikka.

Mikä on tutkimuksesi aihe?

Kaikki tähänastinen tutkimukseni on sijoittunut sosiolingvistiikan suuren sateenvarjon alle. Olen kiinnostunut kielen ja yhteiskunnan suhteesta, erityisesti kaikenlaisesta muutoksesta, murroksesta ja liikkeestä. Väitöstutkimuksessani tarkastelin Tampereen puhekielen muuttumista idiolektitasolla. Kyseessä oli niin sanottu reaaliaikainen paneelitutkimus, jossa tarkastelin samojen ihmisten kieltä kahden aikapisteen valossa. Myöhemmin olen yhdessä kollegojeni kanssa laajentanut tutkimusta Helsingin puhekieleen, ja olemme ottaneet mukaan myös kolmannen aikapisteen. Tarkastelun kohteena on ollut suurelta osin kielen äänne- ja muotorakenne, mutta aineistot ovat mahdollistaneet myös sosiofoneettista otetta. Yhdessä artikkelissa selvitimme esimerkiksi äänenkorkeuden muutoksia ajan myötä.

Variaationtutkimuksellisen polun lisäksi olen kiinnostunut puhutun ja kirjoitetun kielen rajapinnasta, ja se onkin tarjoillut toisen tutkimuksellisen suunnan, nimittäin kirjetutkimuksen. Olen tutkinut yksin ja yhdessä suomen kielen opiskelijoiden kanssa toisen maailmansodan aikaista kirjeenvaihtoa. Koska muuta yhteydenpitokeinoa ei sota-aikana ollut, kynään tarttuivat kaikki iästä, ammatista tai koulutustaustasta riippumatta. Vaikka kirjeaineistot ovat vanhoja, on niiden kautta avautunut olennaisia näköaloja ihmisten välisen yhteyden merkitykseen kriisiaikoina sekä arkeen ja ihmisyyteen maailman myllerryksen keskellä.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankissa on jo jonkin aikaa ollut säilytteillä Helsingin puhekielen pitkittäiskorpus, joka on tarjonnut minulle ja kollegoilleni tärkeän aineistolähteen kielenmuutoksen tutkimiseen. Tämä korpus saa toivon mukaan Kielipankkiin aivan lähikuukausina pikkusisaren, nimittäin Tampereen puhekielen pitkittäiskorpuksen. Tampereen puhekieltä on tallennettu entuudestaan 1970- ja 1990-luvuilla. Vuonna 2019 käynnistin vielä Tampereella kolmannen kierroksen aineistonkeruun, jota on opiskelijavoimin jatkettu aivan näihin päiviin saakka. FIN-CLARINilta saamani rahoituksen turvin minun on ollut mahdollista palkata myös joksikin aikaa aputyövoimaa aineiston työstämiseen. Nyt kaikki on aivan viimeisiä paperitöitä vaille valmiina. Henkilötietoja sisältävien puheaineistojen siirrossa ja arkistoinnissa on omat kommervenkkinsä, mutta Kielipankki on ehdottomasti paras mahdollinen loppusijoituspaikka näille arvokkaille pitkittäisaineistoille. Aineiston luovuttamisen kynnyksellä tuntuu, että materiaalia pitäisi olla enemmän ja täydellisempää ja että litteraattejakin pitäisi loputtomiin tarkistaa. Mutta oikeasti jokainen pienikin aineistolisäys Kielipankkiin on hieno lahja tutkijayhteisölle. Ja aineistojen edes osittaisen avaamisen myötä joku muukin pääsee halutessaan litterointitalkoisiin!

Kielipankin aineistoista haluan vielä mainita Suomi24-korpuksen, joka soveltuu mukavasti opiskelijatöihin. Muutenkin nykypäivänä, kun tietosuoja-asiat askarruttavat entistä enemmän, opiskelijoita on huojentavaa ohjata näiden valmiiden aineistojen pariin. Itsellenikin Kielipankissa on vielä paljon uutta ihmeteltävää. Kiinnostukseni sota-ajan kirjeisiin on esimerkiksi vienyt minut hiljattain Kalle Päätalon Iijoki-sarjan korpuksen äärelle, ja olen ollut aivan yllättynyt tämänkin runsaudensarven tutkimuksellisista mahdollisuuksista.

Julkaisuja

Mustanoja Liisa, O’Dell Michael & Lappalainen Hanna, 2022: Helsinkiläis- ja tamperelaispuhujien äänenkorkeuden muutokset 1970-luvulta 2010-luvulle. Puhe ja kieli. https://doi.org/10.23997/pk.121404

Kuparinen Olli, Santaharju Jenni, Leino Unni, Mustanoja Liisa & Peltonen Jaakko 2022: Katomuotojen eteneminen hd-yhtymässä Helsingin puhekielessä. Virittäjä 126, s. 316–338. https://doi.org/10.23982/vir.100585

Kuparinen Olli, Peltonen Jaakko, Mustanoja Liisa, Leino Unni & Santaharju Jenni, 2021: Lects in Helsinki Finnish – a probabilistic component modeling approach. Language Variation and Change. https://doi.org/10.1017/S0954394521000041

Lappalainen Hanna, Mustanoja Liisa & O’Dell Michael, 2019: Miten ja milloin yksilön kieli muuttuu? Helsinkiläisidiolektien muutos ja muutoksen tutkimuksen menetelmät. Virittäjä 123, s. 550–581. https://doi.org/10.23982/vir.67808

Kuparinen Olli, Mustanoja Liisa, Peltonen Jaakko, Santaharju Jenni & Leino Unni, 2019: Muutosmallit kolmen aikapisteen pitkittäisaineiston valossa. Sananjalka 61. s. 30–56. https://doi.org/10.30673/sja.80056

Mustanoja Liisa, 2018: Sydämellisiä kirjeitä talvisodasta. Hämäläisten sotilaiden kiitoskirjeet aikansa kielen ja kirjeenvaihtokulttuurin heijastajina. Sisko Brunni, Niina Kunnas, Santeri Palviainen ja Jari Sivonen (toim.), Kuinka mahottomasti nää tekkiit. Juhlakirja Harri Mantilan 60-vuotispäivän kunniaksi. Studia humaniora ouluensia 16. Oulu, s. 251–285. https://urn.fi/URN:ISBN:9789526221120

Mustanoja Liisa (toim.), 2017: Arjen sirpaleita ja suuria tunteita: Kirjeet sodan sanoittajina ja ihmissuhteiden ylläpitäjinä 1939–1944. Tampere Studies in Language, Translation and Literature B5. Tampereen yliopisto. https://urn.fi/URN:ISBN:978-952-03-0527-7

Mustanoja Liisa, 2011: Idiolekti ja sen muuttuminen: reaaliaikatutkimus Tampereen puhekielestä. Tampere: Tampere University Press. https://urn.fi/urn:isbn:978-951-44-8417-9

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Tiina Onikki-Rantajääskö

Tiina Onikki-Rantajääskö
Kuva: Veikko Somerpuro

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tiina Onikki-Rantajääskö kertoo meille Tieteen termipankin toimintaperiaatteista sekä kutsuu kiinnostuneita asiantuntijoita mukaan termitalkootöihin.

Kuka olet?

Olen Tiina Onikki-Rantajääskö, suomen kielen professori Helsingin yliopistossa. Vedän myös Tieteen termipankkia.

Mikä on tutkimuksesi aihe?

Olen ylipäänsä kiinnostunut siitä, miten sanasto ja kieliopilliset rakenteet jäsentävät kielellistä merkitystä ja toimivat myös suhteessa laajempaan tekstikontekstiin. Eniten olen julkaissut suomen paikallissijajärjestelmään liittyvää tutkimusta. Tällä hetkellä saan seurata nuorempien tutkijoiden pyrkimyksiä yhdistää laadullista ja määrällistä tutkimusta Eetu Mäkelän kanssa pyörittämässämme ja Koneen Säätiön rahoittamassa hankkeessa Alustat ja retoriset ryhmästrategiat. Itseäni kiinnostaa erityisesti kysymys, voivatko jotkin konstruktiot indikoida laajempia diskurssirakenteita. Oma aikani menee kuitenkin tänä talvena oikeusministeriön asettamana suomen kielen selvityshenkilönä.

Miten Kielipankki liittyy tutkimukseesi?

Käytän Kielipankin suomen kielen aineistoja jatkuvasti, kun on tarpeen saada tietoa jonkin sanan tai kieliopillisen elementin käyttöyhteyksistä. Useita aiemminkin hyödyntämiäni aineistoja löytyy nykyisin Kielipankista, kuten oman projektini kokoama HS.fi-uutiskommenttiaineisto.

Lisäksi Tieteen termipankki toimii FIN-CLARIAH-tutkimusinfrastruktuurissa yhteistyössä Kielipankin kanssa. Tämä näkyy mm. siinä, että termipankin verkkopalveluun pääsee myös Kielipankin kautta. Termipankilla on myös oma työntekijä, jonka palkkaamisen FIN-CLARIAH-hanke mahdollistaa (Suomen Akatemian FIRI-rahoitus). Tarvetta on myös kieliteknologiselle yhteistyölle.

Tieteen termipankki on edelleen sisällöllisen rakentumisen vaiheessa. Pyrimme saamaan yhä enemmän eri tieteenalojen tutkijoita mukaan termityöhön ja koko ajan uusia tieteenaloja liittymään termipankkiin. Tieteen termien määrittely ja muun käsitteitä koskevan taustatiedon antaminen vaatii kunkin alan asiantuntemusta. Menetelmänä on siksi asiantuntijoiden rajoitettu talkoistaminen (niche sourcing), jota projektisuunnittelijamme tukee. Tavoitteena on edistää tieteen monikielisyyttä sen lisäksi, että tarjotaan avointa tietoa, joka kertoo tieteellisestä tiedonmuodostuksesta ja helpottaa tieteen hyödyntämistä. Tieteen käsitteet ovat tutkimuksen ytimessä. Monikielisyyttä auttaa erityisesti se, että termeille annetaan käännösvastineita eri kielillä. Suomen kieli on keskiössä, koska suomen kieltä halutaan kehittää tieteen kielenä. Määritelmiä ja käsitesivuja on kuitenkin mahdollista esittää muillakin kielillä kuin suomeksi. Termipankki avaa siten mahdollisuuksia kansainväliseen yhteistyöhön. Erityisesti monikielisille ja monitieteisille tutkimusryhmille termipankki on mahdollisuus yhteisen terminologisen maaperän muokkaamiseen. Kaikki kiinnostuneet ovat tervetulleita mukaan.

Tutkimuksellinen kiinnostukseni Tieteen termipankissa kohdistuu mm. taustatiedon kehysten esittämiseen ja prototyyppisyyden ilmenemiseen sekä yhteistoiminnallisuuteen: tieteen termipankin asiantuntijoiden verkosto ja verkkopalvelu vaikuttavat toisiinsa ja muodostavat toiminnan kentän, joka poikkeaa perinteisistä tutkimushankkeista.

Julkaisuja

Enqvist, Johanna & Tiina Onikki.Rantajääskö & Kaarina Pitkänen-Heikkilä 2021: Terminology work as open, communal and collaborative crowdsourcing practice of academic communities. – Terminology 27:1, Pp. 56-79. DOI: 10.1075/term.00058.enq

Jaakola, Minna & Tiina Onikki-Rantajääskö (eds.) 2023: The Finnish Cases System: Cognitive Linguistic Perspectives. Helsinki:SKS. DOI: doi.org/10.21435/sflin.23

Kettunen, Harri & Tiina Onikki-Rantajääskö (tulossa): Vetenskapstermbanken i Finland i samhällets tjänst. – Publikation Nordterm 2023.

Kettunen, Harri & Tiina Onikki-Rantajääskö (tulossa): Tieteen termipankki tieteentekemisen ytimessä. – Kieliviesti 2/2023.

Onikki-Rantajääskö, Tiina & Harri Kettunen 2023: Vuosi 2022 Tieteen termipankissa: Laajenemista uusille aihealueille ja tunnustuspalkintoja avoimen tieteen edistämisestä. – Tieteen termipankin blogi. Helmikuu/2023. https://blogs.helsinki.fi/tieteentermipankki/2023/02/16/vuosi-2022-tieteen-termipankissa-laajenemista-uusille-aihealueille-ja-tunnustuspalkintoja-avoimen-tieteen-edistamisesta/

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Aleksi Sahala

Aleksi Sahala
Kuva: Marianne Ough

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Aleksi Sahala kertoo meille, millä tavoin kieliteknologian menetelmiä voidaan soveltaa muinaisten tekstien tutkimukseen, esim. tekstimateriaalin annotointiin ja sisällölliseen analyysiin.

Kuka olet?

Olen Aleksi Sahala, assyriologian ja kieliteknologian tutkijatohtori. Työskentelen tällä hetkellä Helsingin yliopistolla Suomen Akatemian rahoittamassa The Origins of Emesal -projektissa, jossa päämääränä on selvittää sumerin liturgisen kielimuodon, emesalin, syntyä ja kehitystä kieliteknologian menetelmin.

Tein maisterin opinnot kieliteknologiassa ja assyriologiassa, ja väittelin tohtoriksi Helsingin yliopistolla aiheesta Contributions to Computational Assyriology. Vietin syyslukukauden 2022 vierailevana tutkijana Berkeleyn yliopistolla Kaliforniassa, ja suunnitelmissa on tehdä toinen tutkijavierailu Innsbruckin yliopistolle Itävaltaan 2024. Olen toiminut tiiviissä yhteistyössä myös Helsingin yliopistolla toimivan Muinaisen Lähi-idän imperiumit -huippuyksikön kanssa.

Mikä on tutkimuksesi aihe?

Tutkin kieliteknologian menetelmien soveltamista muinaisten tekstien annotointiin ja sisällölliseen analyysiin. Olen erityisesti keskittynyt muinaisen Mesopotamian nuolenpääteksteihin, joita laadittiin sumeriksi noin vuosien 3200 eaa. ja 100 jaa., ja akkadiksi noin vuosien 2500 eaa. ja 100 jaa. välisenä aikana. Tämän tekstimateriaalin koneellinen analysointi on hankalaa muutamastakin syystä. Ensinnäkin dataa on verrattain vähän (muutamia miljoonia sanoja), ja toiseksi tekstimateriaali on melko fragmentaarista, sillä se on tyypillisesti kasattu savitaulujen säilyneistä palasista tai näiden muinaisista kopioista. Sanoja, niiden osia tai kokonaisia rivejä saattaa siis puuttua. Kolmanneksi niin nuolenpääkirjoitusjärjestelmä kuin sumerin ja akkadin kielten muoto-opitkin ovat monimutkaisia. Tämän johdosta useat sanat saattavat esiintyä teoreettisesti useissa tuhansissa kieliopillisissa muodoissa, ja nämä muodot voidaan puolestaan kirjoittaa jopa kymmenillä eri tavoilla.

Tärkein kiintopiste tutkimuksessani on ollut se, kuinka täysin annotoimattomasta tekstistä eli translitteraatiosta päästään mahdollisimman automaattisesti visualisoimaan esimerkiksi käsitteiden tai henkilöiden välisiä suhteita käyttämällä satoja tai tuhansia tekstejä lähdemateriaalina yhtäaikaisesti. Vaikka assyriologit ovatkin digitoineet yli 20 000 akkadinkielistä ja yli 100 000 sumerinkielistä tekstiä, perinteisesti tutkimus on perustunut siihen, että tekstejä lähiluetaan yksitellen, mikä saattaa tehdä laajojen, tekstien välisten kaavamaisuuksien hahmottamisesta haasteellista. Tietokoneavusteinen tutkimus pyrkii paikkaamaan tätä aukkoa.

Olen kehittänyt työkaluja akkadin kielen morfologiseen analyysiin (BabyFST), useiden historiallisten kielten neuroverkkopohjaiseen perusmuotoistukseen eli lemmaukseen sekä sanaluokkajäsennykseen, joilla kirjoitusjärjestelmän ja muoto-opillisen monimutkaisuuden aiheuttamia ongelmia voidaan lieventää (BabyLemmatizer). Lisäksi olen tutkinut sitä, kuinka käsitteiden semanttisia suhteita voidaan laskea ja visualisoida pienissä ja rikkonaisissa korpuksissa sanavektoreiden ja assosiaatiomittojen avulla (PMI Embeddings).

Tällä hetkellä tutkimukseni keskittyy erityisesti erääseen sumerin kielen kielimuotoon, emesaliin, jota käytettiin muun muassa liturgisissa teksteissä. Tätä kielimuotoa on dokumentoitu vasta sumerin kuoltua puhuttuna kielenä muinaisbabylonialaisten kirjureiden laatimissa teksteissä, eikä sen tarkkaa käyttökontekstia ja kehityshistoriaa edelleenkään tunneta. Projektissa paitsi annotoidaan emesalia sisältäviä tekstejä, myös pyritään luomaan malleja, joilla voidaan ennustaa ja selittää emesalin käyttökonteksteja. Emesal-tekstejä ei koskaan laadittu kokonaan tällä kielimuodolla, vaan ne kirjoitettiin sumeriksi, ja vain osa sanoista kirjoitettiin emesaliksi ilmaisemaan, että kyseinen rivi tai katkelma tulisi lukea tällä kielimuodolla. Kyseessä on siis eräänlainen koodinvaihto kahden eri kielimuodon välillä, mutta ne kontekstit, joissa muodoista vaihdettiin toiseen eivät ole edelleenkään selviä. Tiedetään vain, että tyypillisesti emesalia esiintyi liturgisissa teksteissä sekä tietyissä tekstityypeissä kuvaamaan jumalattarien tai naispuolisten henkilöiden puhetta. Näissäkään tosin kielimuodon käyttö ei ole johdonmukaista.

Mikäli erilaisia kaavamaisuuksia tämän kielimuodon käytölle voidaan hahmottaa, tarkoitus on tutkia sitä, kuinka kielimuoto alkujaan syntyi, ja kuinka se kehittyi sen noin 2000-vuotisen käyttöhistorian aikana. Aihe on haasteellinen, sillä emesalia sisältäviä tekstejä ei ole säilynyt kuin muutama tuhat.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankki on tehnyt yhteistyötä Muinaisen Lähi-idän imperiumit -huippuyksikön kanssa pääsääntöisesti annotoimalla nuolenpääkirjoituksella laadittuja tekstiaineistoja Korp-konkordanssipalveluun. Olen vastannut näiden aineistojen keräämisestä ja muuntamisesta tarvittavaan VRT-muotoon sekä näiden annotoinnista ja harmonisoinnista kehittämilläni työkaluilla, jotta aineistoja voidaan käyttää Korpissa.

Viimeisin projekti on ollut Achemenet-korpuksen sisältämien uusbabylonialaisten laki- ja hallinnollisten tekstien annotointi ja harmonisointi jo olemassa olevien tekstikokoelmien kanssa.

Julkaisuja

Alstola, T., Zaia, S., Sahala, A., Jauhiainen, H., Svärd, S., & Lindén, K. (2019). Aššur and his friends: a statistical analysis of neo-assyrian texts. Journal of Cuneiform Studies, 71(1), 159–180. http://hdl.handle.net/10138/303986

Alstola, T., Jauhiainen, H., Svärd, S., Sahala, A., & Lindén, K. (2023). Digital Approaches to Analyzing and Translating Emotion: What Is Love?. In The Routledge Handbook of Emotions in the Ancient Near East. Taylor & Francis. http://hdl.handle.net/10138/348398

Bennet, E. & Sahala, A. (2023). Using Word Embeddings for Identifying Emotions Relating to the Body in a Neo-Assyrian Corpus. In Proceedings of the Ancient Natural Language Processing Workshop at RANLP 2023. http://hdl.handle.net/10138/565513

Ihalainen, P. & Sahala, A. (2020). Evolving Conceptualisations of Internationalism in the UK Parliament. Digital Histories, 199.

Luukko, M., Sahala, A., Hardwick, S., & Lindén, K. (2020). Akkadian treebank for early neo-assyrian royal inscriptions. In Proceedings of the 19th International Workshop on Treebanks and Linguistic Theories. The Association for Computational Linguistics. http://hdl.handle.net/10138/322305

Sahala, A. J. A. (2017). Johdatus sumerin kieleen. Suomen itämainen seura.

Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020). BabyFST: Towards a finite-state based computational model of ancient babylonian. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3886–3894). http://hdl.handle.net/10138/317691

Sahala, A., Silfverberg, M., Arppe, A., & Lindén, K. (2020). Automated phonological transcription of Akkadian cuneiform text. In Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). European Language Resources Association (ELRA). http://hdl.handle.net/10138/317688

Sahala, A. (2021). Contributions to Computational Assyriology. PhD Thesis. University of Helsinki. http://urn.fi/URN:ISBN:978-951-51-7416-1

Sahala, A., & Töyräänvuori, J. (2022). Kirjoitustaidon kehittyminen. Teoksessa Svärd, S. & Töyräänvuori, J. (toim.), Muinaisen Lähi-idän imperiumit. Kadonneiden suurvaltojen kukoistus ja tuho, s.49–69. Gaudeamus, Helsinki.

Sahala, A., & Svärd, S. (2022). Language technology approach to “seeing” in Akkadian. In The Routledge Handbook of the Senses in the Ancient Near East. Taylor & Francis. http://hdl.handle.net/10138/339256

Sahala, A., Alstola, T., Valk, J., & Lindén, K. (2023, June). Lemmatizing and POS-tagging Akkadian with BabyLemmatizer and Dictionary-Based Post-Correction. In Selected papers from the CLARIN Annual Conference 2022 (pp. 111–119). http://hdl.handle.net/10138/563733

Sahala, A. & Lindén, K. (2023). A Neural Pipeline for Lemmatizing and POS-tagging Cuneiform Languages. In Proceedings of the Ancient Natural Language Processing Workshop at RANLP 2023.

Svärd, S., Jauhiainen, H., Sahala, A., & Lindén, K. (2018). Semantic Domains in Akkadian Texts. CyberResearch on the Ancient Near East and Neighboring Regions. Case Studies on Archaeological Data, Objects, Texts, and Digital Archiving, 2, 224–256. http://hdl.handle.net/10138/241805

Svärd, S., Alstola, T., Jauhiainen, H., Sahala, A., & Lindén, K. (2020). Fear in akkadian texts: New digital perspectives on lexical semantics. In The Expression of Emotions in Ancient Egypt and Mesopotamia (pp. 470–502). Brill. http://hdl.handle.net/10138/328017

Työkaluja

  • BabyLemmatizer, OpenNMT:hen perustuva neuroverkkopohjainen lemmatisaattori ja taggeri. Esiopetettuja malleja muinaiskreikalle, latinalle, akkadin eri murteille, sumerille ja urartulle.
  • BabyFST, äärellistilainen Fomalla kirjoitettu transduktori akkadin ja erityisesti babylonian morfologialle.
  • PMI-Embeddings, hyperparametrisoitu työkalu sanavektorimallien luomiseen pienistä tekstiaineistoista hyödyntäen erilaisia sana-assosiaatiomittoja ja pääakselihajotelmaa.

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Anna Dmitrieva

Anna Dmitrieva
Anna Dmitrieva (takana) ja Aleksandra Konovalova (edessä), Suomi-selkosuomi-rinnakkaiskorpuksen tekijät. Kuva: Anna Dmitrieva

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Anna Dmitrieva kertoo meille selkokielistämiseen liittyvästä tutkimuksestaan. Laskennalliset menetelmät ja rinnakkaisaineistojen koostaminen ovat olennainen osa hänen työtään.

Kuka olet?

Olen Anna Dmitrieva, väitöskirjatutkija Helsingin yliopiston kielentutkimuksen tohtoriohjelmassa HELSLANGissa.

Mikä on tutkimuksesi aihe?

Pääasiallinen kiinnostukseni on tekstin selkokielistäminen. Olen opiskellut tietokonelingvistiikkaa vuodesta 2012, kun aloitin kandidaatinopintoni. Sen jälkeen olen tehnyt paljon luonnollisen kielen käsittelyyn (NLP) liittyviä asioita, mutta tekstin yksinkertaistaminen on ollut keskiössä etenkin jatko-opintojeni aikana.

Selkokielistäminen on prosessi, jossa tekstistä tehdään ”yksinkertaisempi”. Selkokielistetyn tekstin pitäisi olla helppolukuisempi ja laajemman yleisön saavutettavissa. NLP:ssä tätä prosessia voidaan lähestyä yksikielisenä konekäännösongelmana. Koulutamme malleja, joilla voidaan kääntää tai muuntaa tekstiä: tietyllä kielellä laaditusta lähdetekstistä saadaan ”yksinkertaisempi” versio samalla kielellä. Tähän tehtävään tarvitaan tyypillisesti paljon rinnakkaisdataa, jossa jokaiselle lähdetekstille on olemassa vastaava ”helppo” kohdeteksti.

Työskentelen sellaisten kielten parissa, joista ei vielä ole paljon selkokielistettyjä aineistoja, koostan niistä aineistoja ja koulutan selkokielistämismalleja. Väitöstutkimukseni aikana olen koonnut venäjän ja suomen kielen selkokielistämisaineistoja ja -malleja. Tutkin myös kontrolloitua selkokielistämistä, jossa pyritään säätelemään selkokielistämismallin tuotoksen tiettyjä kielellisiä ominaisuuksia.

Miten Kielipankki liittyy tutkimukseesi?

Suomalaisena yliopisto-opiskelijana olen luonnollisesti ajatellut tehdä suomen kielelle selkokielistämismallin. Koska suomen kielelle ei ollut olemassa rinnakkaisia selkokielikorpuksia, minun oli tehtävä sellainen itse. Ilmeisin valinta aineistolähteeksi oli Ylen suomenkielisen uutisarkiston selkouutiset: ne ovat olemassa tekstimuodossa, niitä on ollut olemassa suhteellisen kauan ja niille on vastineet ”tavallisessa” suomessa. Oli huojentavaa huomata, ettei minun tarvinnut itse haravoida uutisia Ylen API:n kautta, sillä kaikki arkistot olivat jo Kielipankissa.

Minun oli kuitenkin ratkaistava ongelma, joka liittyi selkokielisen suomen ja tavallisen suomen uutisten kohdistamiseen keskenään. Käytin automaattista kohdistusmenetelmää, mutta työn tueksi ei ollut tarjolla valmista dokumenttiparien testijoukkoa, jolla olisin voinut tarkistaa kohdistustuloksen laadun. Ystäväni Aleksandra Konovalova (Turun yliopisto) tuli apuun ja arvioi itse 1919 dokumenttiparia. Yhdessä rakensimme Suomen ja selkosuomen rinnakkaiskorpuksen, joka on nyt saatavilla Kielipankissa. Parhaillaan olen lisäämässä uusia dokumenttipareja sekä tuotan aineistosta lausetasolla kohdistettua versiota, joka toivottavasti myös tulee valmistuttuaan saataville Kielipankkiin.

Julkaisuja

Dmitrieva, A. & Konovalova, A. Creating a parallel Finnish—Easy Finnish dataset from news articles. Jun 2023, Proceedings of the 1st Workshop on Open Community-Driven Machine Translation. Esplá-Gomis, M., Forcada, M., Kuzman, T., Ljubešić, N., van Noord, R., Ramírez-Sánchez, G., Tiedemann, J. & Toral, A. (eds.). Universitat d’Alacant, p. 21-26 6 p. https://macocu.eu/static/media/proceedings.37b7e88ce3dbab99adf9.pdf#page=27

Dmitrieva, A. Automatic text simplification of Russian texts using control tokens. May 2023, Proceedings of the 9th Workshop on Slavic Natural Language Processing 2023 (SlavicNLP 2023). Piskorski, J., Marcińczuk, M. & Nakov, et al., P. (eds.). Stroudsburg: Association for Computational Linguistics (ACL), p. 70-77 8 p. DOI: 10.18653/v1/2023.bsnlp-1.9

Dmitrieva, A. The role of language technology in accessible communication research. Jun 2023, Emerging Fields in Easy Language and Accessible Communication Research. Deilen, S., Hansen-Schirra, S., Hernández Garrido, S., Maaß, C. & Tardel, A. (eds.). Frank & Timme, p. 319-338 20 p. (Easy – Plain – Accessible; vol. 14). https://researchportal.helsinki.fi/fi/publications/the-role-of-language-technology-in-accessible-communication-resea

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Sampo Pyysalo

Sampo Pyysalo
Kuva: Pasi Leino / Turun yliopisto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Sampo Pyysalo kertoo meille luonnollisen kielen käsittelyyn liittyvästä tutkimuksestaan. Avoimesti saatavilla olevat suuret kielimallit ovat välttämättömiä, jotta myös suomen kaltaisille pienille kielille voidaan luoda ChatGPT:n kaltaisia työkaluja.

Kuka olet?

Olen Sampo Pyysalo, yliopistotutkija Turun yliopiston TurkuNLP-ryhmässä.

Mikä on tutkimuksesi aihe?

Tutkin luonnollisen kielen käsittelyn koneoppimismenetelmiä, ja keskityn erityisesti suomenkielisen tekstin käsittelyyn sekä biolääketieteen alan tieteellisen kirjallisuuden analysointiin. Viimeisimmät työni ovat liittyneet suurten neuroverkkopohjaisten kielimallien kouluttamiseen. Tällaisiin lukeutuvat yleiset ”perusmallit”, kuten FinBERT ja FinGPT, sekä tehtäväkohtaiset mallit, kuten nimettyjen entiteettien tunnistusmalli (Fin-NER) suomen kielelle. Työskentelen myös datan parissa. Koostan raakatekstiaineistoja perusmallien valvomatonta opettamista varten sekä pyöritän käsinannotointihankkeita Turku NER– ja TurkuONE-korpusten kaltaisten aineistojen tuottamiseksi, sillä niitä tarvitaan perusmallien valvottuun opettamiseen.

Suuria neuroverkkopohjaisia kielimalleja käytetään nykyaikaisessa luonnollisen kielen käsittelyssä hyvin laajasti ja niihin perustuvat myös ChatGPT:n kaltaiset työkalut. Useimmat tällaiset mallit kuitenkin keskittyvät englannin kieleen, eivätkä monet parhaista kielimalleista ole julkisesti saatavilla. Uskomme, että FinBERTin ja FinGPT:n tyyppiset avoimesti saatavilla olevat suomenkieliset mallit ovat välttämättömiä, jotta suomen kielelle voidaan rakentaa yhtä kyvykkäitä työkaluja kuin englannin kielelle.

Miten Kielipankki liittyy tutkimukseesi?

Suurten kielimallien luomiseen alusta alkaen tarvitaan miljardeja sanoja tekstiä, eikä tämän kokoisia suomen kielen kokoelmia ole helposti saatavilla. Jotta olemme saaneet koottua riittävän suuria korpuksia kielimallien koulutusta varten, olemme hyödyntäneet monenlaisia lähteitä, ml. verkkosivujen haravointia ja Kielipankin kautta saatavilla olevia aineistoja, kuten Ylen ja STT:n uutisarkistoja sekä Suomi24-korpusta. TurkuNLP:n luomia aineistoja jaamme muiden kanavien ohella myös Kielipankin kautta.

Toivoaksemme voimme jo lähitulevaisuudessa tarjota tutkijoille Kielipankin kautta pääsyn niihin kokotekstiaineistoihin, joita olemme kielimallien luomisessa käyttäneet. Näin tutkimustyömme toistettavuus paranee ja suomen kielen mallien luominen helpottuu.

Julkaisuja

J. Luoma & LH. Chang & F. Ginter & S. Pyysalo. 2021. Fine-grained Named Entity Annotation for Finnish. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), pages 135–144, Reykjavik, Iceland (Online). Linköping University Electronic Press, Sweden. https://aclanthology.org/2021.nodalida-main.14

A. Virtanen & J. Kanerva & R. Ilo & J. Luoma & J. Luotolahti & T. Salakoski & F. Ginter & S. Pyysalo. 2019. Multilingual is not enough: BERT for Finnish. In CoRR, abs/1912.07076. https://doi.org/10.48550/arXiv.1912.07076

Aineistoja

Lisätietoa

  • TurkuNLP group of the University of Turku
  • FinBERT, TurkuNLP-ryhmän kehittämä suomenkielinen versio Googlen syväoppivasta BERT-tekoälymallista
  • FinGPT, GPT-3:n kaltaisia generatiivisia suomen kielen malleja
  • Finnish NER, suomenkielisten nimettyjen entiteettien tunnistin (Named Entity Recognizer), joka pohjautuu FinBERTiin sekä UD_Finnish-TDT-puupankkiin lisättyyn nimettyjen entiteettien annotaatiokerrokseen

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Nobufumi Inaba

Nobufumi Inaba
Kuva: Krista Teeri

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Nobufumi Inaba kertoo meille valmistelemastaan korpuksesta, joka tuo kielenmuutoksesta kiinnostuneiden tutkijoiden saataville lähdetekstin vuodelta 1526.

Kuka olet?

Olen Nobufumi Inaba, erikoistutkija Turun yliopiston Suomen ja sen sukukielten arkistossa. Arkisto kuuluu suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineeseen. Tällä nimellä arkisto on toiminut vasta pari vuotta, mutta sen suomen kielen puoli, josta vastaan, tunnettiin aiemmin nimellä Lauseopin arkisto. Monille suomen kielen tutkijoille lienee tuttu myös samaa nimeä kantava korpus. Olen ollut mukana suunnittelemassa ja toteuttamassa oppiaineemme hankkeiden ja arkistomme piirissä valmistettujen korpusten mm. teknisiä ratkaisuja. Olen myös tehnyt korpustiimien sisäiseen käyttöön tarkoitettuja työkaluja.

Mikä on tutkimuksesi aihe?

Kiinnostuksen kohteenani on ollut kielenmuutos ja sen syiden selvittäminen. Väitöskirjassani selvitin suomen kielen ns. datiivigenetiivin juuria ja aineistoni koostui enimmäkseen vanhojen kirjakielten teksteistä. Viime vuosina olen tutkinut sanojen taivuttamatta jättämistä suomen kielessä ja aineistoni koostuu erään sijaintipohjaisen pelin peliyhteisön chat-keskusteluista sekä pelipaikoilla itse nauhoittamistani puheista.

Nyt olen palannut vanhan kirjakielen pariin. Valmistelen korpusta vuoden 1526 ruotsinkielisestä Uudesta testamentista, joka on eräs Mikael Agricolan käyttämistä lähdeteksteistä ja jota on pidetty uusruotsin kauden alkamisen symbolina. Tulevan korpuksen on tarkoitus tukea Agricolan teosten kielen tutkimista. Tekstin tärkeys ei ole vain symbolinen. Mielestäni tämän varhaisemman Uuden testamentin teksti on kielenmuutoksista kiinnostuneille huomattavasti arvokkaampi lähde kuin vuoden 1541 koko Raamattu (Gustav Vasas bibel), sillä siinä kieltä ei ole nähtävästi säädelty toisin kuin koko Raamatussa, jossa on paljon yrityksiä säädellä ja johdonmukaistaa kielenaineksia sanastosta lauseoppiin. Lisäksi vuoden 1526 Uusi testamentti sisältää silmiinpistävän määrän puhutun kielen aineksia, jollaiset on vuoden 1541 Raamatusta yritetty karsia. Annotoinnin helpottamiseksi tehty tekstin esikoodaus on nyt valmis ja näillä näkymin aloitan annotoinnin syksyllä 2023.

Miten Kielipankki liittyy tutkimukseesi?

Meillä on ollut Kielipankin kanssa hyvä työnjako jo Lauseopin arkiston ajoilta. Turun yliopisto tuottaa kieliaineistoja ja ne julkaistaan tiedeyhteisölle Kielipankissa. Kotimaisten kielten keskuksen kanssa yhteistyönä valmistetut Lauseopin arkiston murrekorpus ja Mikael Agricolan teosten morfosyntaktinen tietokanta sekä Turun yliopistossa valmistettu Arkisyn-korpus, joka on merkittävä nykysuomen arkikeskustelun annotoitu aineisto, on julkaistu kaikki Kielipankin Korp-hakuliittymässä. Luonnollisesti Kielipankki tulee olemaan myös tällä hetkellä työstämäni ruotsinkielisen Uuden testamentin korpuksen julkaisupaikka.

Julkaisuja

Nobufumi Inaba (2015). Suomen datiivigenetiivin juuret vertailevan menetelmän valossa. Suomalais-Ugrilaisen Seuran toimituksia 272. https://www.sgr.fi/fi/items/show/78

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Niina Kunnas

Niina Kunnas
Kuva: Mikko Törmänen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Niina Kunnas kertoo meille mm. meänkieleen ja muihin vähemmistökieliin liittyvästä tutkimuksestaan.

Kuka olet?

Olen Niina Kunnas, suomen kielen dosentti ja yliopistonlehtori Oulun yliopistossa. Lisäksi työskentelen osa-aikaisena suomen kielen professorina Sámi allaskuvlassa Koutokeinossa Norjassa.

Mikä on tutkimuksesi aihe?

Tutkimukseni edustaa sosiolingvistiikkaa, kansanlingvistiikkaa sekä vähemmistökielten tutkimusta. Olen tehnyt muun muassa variaationtutkimusta, kielikäsitysten tutkimusta sekä vähemmistökielten tilanteisiin liittyvää tutkimusta.

Miten Kielipankki liittyy tutkimukseesi?

Viime vuosina Kielipankki on liittynyt tutkimukseeni monella tavalla. Ensinnäkin olemme vuonna 2019 keränneet yhdessä opiskelijoideni kanssa puhutun meänkielen korpuksen, joka on alun perin tallennettukin siinä tarkoituksessa, että se siirretään Kielipankkiin kaikkien tutkijoiden saataville. Korpus sisältää puhuttua meänkieltä useasta meänkielen puhuma-alueen pitäjästä, ja sen keruuseen on kannustanut Heikki Paunonen. Haastatellut ovat osin samoja, joita on aiemmin tallennettu 1990-luvulla. Paunonen on tallentanut samoista pitäjistä puhetta myös 1960-luvulla, joten kokonaisuudessaan aineistot mahdollistavat kolmen tallennuskierroksen seuruututkimuksen tekemisen puhutusta meänkielestä.

Kielipankin aineistoista olen hyödyntänyt viime aikoina myös Iijoki, Oulun yliopiston Päätalo-kokoelma -nimistä korpusta Korp-palvelimella. Korpus sisältää kaikki Kalle Päätalon kirjoittaman Iijoki-sarjan romaanit, ja sen laajuus on yli 5 miljoonaa sanetta. Tätä aineistoa käytämme Liisa Mustanojan ja Maija Saviniemen kanssa tutkimuksessamme, jossa tarkastelemme Iijoki-sarjassa esiintyviä vienankarjalankielisiä jaksoja, niiden funktiota ja niihin liittyviä affekteja. Korpus on mahdollistanut nopean aineistohaun, ja tutkimuksen tulokset julkaistaan artikkelissa, joka ilmestynee teoksessa, jonka työnimi on Päättymätön savotta. Analyyseja Kalle Päätalon tuotannosta -teoksessa.

Julkaisuja

Kunnas, Niina 2019: Karjalan kieli Oulun seudulla. – Harri Mantila, Maija Saviniemi & Niina Kunnas (toim.), Oulu kieliyhteisönä. 144–199. Helsinki: Suomalaisen Kirjallisuuden Seura.

Saviniemi, Maija, Kunnas, Niina, Mantila, Harri, Paukkunen, Ulla & Rajala, Elina 2019: Oulua havainnoimassa. – Harri Mantila, Maija Saviniemi & Niina Kunnas (toim.), Oulu kieliyhteisönä. 276–318. Helsinki: Suomalaisen Kirjallisuuden Seura.

Vaattovaara, Johanna, Kunnas, Niina & Saviniemi, Maija 2018: Stadi imitoituna. – Sisko Brunni, Niina Kunnas, Santeri Palviainen & Jari Sivonen (toim.), Kuinka mahottomasti nää tekkiit. Juhlakirja Harri Mantilan 60-vuotispäivän kunniaksi. Studia Humaniora Ouluensia 16. Oulun yliopisto. http://jultika.oulu.fi/files/isbn9789526221120.pdf

Kunnas, Niina 2018: Viena Karelians as observers of dialect differences in their heritage language. – Marjatta Palander, Helka Riionheimo & Vesa Koivisto (eds.), On the border of language and dialect. 123–155. Studia Fennica Linguistica 21. Helsinki: Suomalaisen Kirjallisuuden Seura.

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Mikael Varjo

Mikael Varjo
Kuva: Emmi Saari

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mikael Varjo kertoo meille tutkimuksestaan, joka käsittelee suomenkielisten arkikeskustelujen nollasubjektilauseita Arkisyn-korpuksessa.

Kuka olet?

Olen Mikael Varjo ja toimin tällä hetkellä yliopisto-opettajana Turun yliopistossa. Väittelin maaliskuussa 2023 nollasubjektilauseista niin ikään Turun yliopistossa. Kiinnostuksen kohteeni ovat moninaiset ja ulottuvat suomen kielen opettamisesta ja tutkimisesta toisena ja vieraana kielenä aina käyttöpohjaiseen syntaksin tutkimukseen.

Mikä on tutkimuksesi aihe?

Väitöstutkimukseni käsittelee nollasubjektilauseita suomenkielisessä arkikeskustelussa. Aineistoni olen kerännyt suomenkielisten arkikeskustelujen morfosyntaktisesti annotoidusta Arkisyn-korpuksesta, jota olin myös itse projektitutkijana rakentamassa vuosina 2015–2016 ennen oman väitöstutkimukseni aloittamista.

Aiempi nollapersoonatutkimus on kvalitatiivisesti painottunutta, ja tutkimukseni tarkoituksena onkin täydentää sitä yhdistelemällä kvantitatiivista korpuslingvististä ja kvalitatiivista vuorovaikutuslingvististä tutkimusotetta. Tarkastelen tutkimuksessani siis nollasubjektilauseiden ominaispiirteitä, variaatiota, käyttöyhteyksiä ja tehtäviä vuorovaikutuksessa. Tutkimuksessani selviää, että nollapersoonaan tyypillisesti liitetyt kieliopilliset ja semanttiset ominaisuudet myös erottelevat nollasubjektilauseiden alakategorioita toisistaan. Alakategorioiden erot näkyvät arkikeskustelussa myös vuorovaikutuksen tasolla. Tyypillisesti nollasubjektilauseilla ilmaistaan esimerkiksi asennoitumista puheenaiheeseen (eihän siinä voi olla vihainen), suunnitellaan (yhteistä) toimintaa (jos kävisi auton kanssa et kävisi saunomassa ja tulisi takaisin), jaetaan kokemuksia, tunteita ja haluja (sitä haluaisi soittaa enemmän kitaraa) tai annetaan direktiivejä (sen voi laittaa jo takaisin kaappiin).

Miten Kielipankki liittyy tutkimukseesi?

Arkisyn-korpus on saatavissa Kielipankin kautta. Lisäksi Kielipankki tarjosi väitöstutkimukseni alkumetreillä tärkeää tukea, kun olin ottamassa ensi askeliani kieliteknologian, luonnollisen kielen käsittelyn ja automaattisen tekstiprosessoinnin parissa. Puhutun kielen nollasubjektilauseiden saattaminen helposti käsiteltävään ja väitöstutkimukseni tarpeita vastaavaan muotoon on vaatinut vuosien varrella runsaasti uuden opettelua, ja Kielipankin Aineistoklinikka-menetelmäkurssin avustuksella pääsin syksyllä 2015 opettelussa alkuun.

Julkaisuja

Varjo, Mikael. 2022. Greater than zero? A study of referentially open and specific necessity constructions in Finnish everyday conversation. Eesti Ja Soome-Ugri Keeleteaduse Ajakiri. Journal of Estonian and Finno-Ugric Linguistics, 13(2), 5–46. https://doi.org/10.12697/jeful.2022.13.2.01

Suomalainen, Karita & Mikael Varjo. 2020. When personal is interpersonal. Organizing interaction with deictically open personal constructions in Finnish everyday conversations. Journal of Pragmatics, 168, 98–118. https://doi.org/10.1016/j.pragma.2020.06.003

Varjo, Mikael. 2019. It Takes All Kinds to Make a Zero: Employing Multiple Correspondence Analysis to Categorize an Open Personal Construction in Conversational Finnish. Corpus Linguistics Research, 5, 55–87. https://doi.org/10.18659/clr.2019.5.03

Varjo, Mikael ja Karita Suomalainen. 2018. From zero to ‘you’ and back: A mixed methods study comparing the use of two open personal constructions in Finnish. Nordic Journal of Linguistics, 41(3), 333–366. https://doi.org/10.1017/s0332586518000215

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Rosa González Hautamäki

Rosa González Hautamäki
Kuva: Ville Hautamäki

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Rosa González Hautamäki kertoo meille tutkimuksistaan, jotka liittyvät puhujakohtaiseen vaihteluun ja äänimuuntelun vaikutuksiin. Yhteistyössä Itä-Suomen yliopiston Laskennallisen puheen tutkimusryhmän kanssa koottu AVOID-korpus on arvokas aineisto muunnellun puheäänen tutkimiseen.

Kuka olet?

Olen Rosa González Hautamäki, tutkijatohtori logopedian tutkimusyksikössä Oulun yliopistossa ja vieraileva tutkija Itä-Suomen yliopiston humanistisella osastolla. Väittelin tohtoriksi tietojenkäsittelytieteestä ja teen jatkuvaa yhteistyötä Itä-Suomen yliopiston tietojenkäsittelytieteen laitoksen ja National University of Singapore (NUS) Human Language Technology Laboratoryn kanssa.

Mikä on tutkimuksesi aihe?

Tutkimukseni keskittyy puhujan tunnistamisen yhteydessä ilmenevään puhujakohtaiseen vaihteluun. Puhe on kompleksinen signaali, joka vaihtelee useiden tekijöiden, kuten iän, terveydentilan ja tunnetilan mukaan. On siis odotettavissa, ettei puhuja lausu samaa ilmausta täsmälleen samalla tavalla useita kertoja. Jatko-opintojeni aikana tutkin äänimuuntelun vaikutuksia äänivertailuihin, joita suorittivat kuuntelijat tai automaattiset järjestelmät. Keskityin alkuperäisessä tutkimuksessani matkimiseen ja äänen naamioimiseen, sillä on otettava huomioon, etteivät kaikki puhujat välttämättä ole yhteistyöhaluisia ollessaan vuorovaikutuksessa puhujantunnistusjärjestelmien kanssa. Tutkimuksemme osoitti, että yksinkertaisetkin tekniikat oman äänen naamioimiseksi voivat heikentää automaattisten järjestelmien suorituskykyä ja samalla vaikeuttaa puhujavertailun tekemistä myös kuuntelijoille.

Sittemmin puhujakohtaista vaihtelua koskevissa tutkimuksissani olen keskittynyt tunnistamaan tekijöitä, jotka vaikuttavat puhujan todennuksen onnistumiseen, sisältäen niin tahalliset kuin tahattomatkin äänenmuunnokset. Nämä havainnot ovat tärkeitä myös silloin, kun analysoidaan puhetta muissa puheteknologisissa tarkoituksissa, kuten puhehuijaushyökkäysten tai puheen kuulonvaraisen havaitsemisen tutkimuksessa. Kun tutkitaan automaattisten järjestelmien tekemien päätöksiin vaikuttavia tekijöitä, voidaan parantaa järjestelmien luotettavuutta.

Tällä hetkellä käytän puheanalyysiin liittyvässä tutkimuksessani esimerkiksi koneoppimismalleja, joiden aineisto on peräisin arvioinneista, joita on käytetty tunnistamaan lasten kielellisiä kehityshäiriöitä. On hienoa saada olla mukana motivoituneessa tutkijaryhmässä, joka tutkii puhetta sekä keinoja lasten puheenkehityksen parissa työskentelevien tukemiseen.

Miten Kielipankki liittyy tutkimukseesi?

Väitöstutkimukseni aikana tein yhteistyötä Itä-Suomen yliopiston Laskennallisen puheen tutkimusryhmän kanssa kerätäkseni aineiston, jolla voisi tutkia äänen naamioimista. Kielipankki antoi meille erittäin tärkeää tukea tarjoamalla tietoja, joita tarvittiin aineiston keräämiseen ja valmisteluun sekä lopuksi sen julkaisemiseen kielivarana. Tuloksena syntynyt aineisto, nimeltään Muunnellun puheen korpus (Corpus of Age-related Voice Disguise, AVOID), sisältää äänitallenteita suomenkielisten puhujien puheesta sekä heidän omalla äänellään että heidän yrittäessään naamioida ikäänsä.

Eräässä tutkimuksessa käytimme AVOID-korpusta analysoidaksemme tiettyjen akustisten piirteiden muutosten vaikutusta automaattisiin puhujantunnistusjärjestelmiin ja havaitsimme, että ero pitkän aikavälin perustaajuudessa (F0) haittasi puhujan tunnistamista eniten myös silloin, kun automaattisessa järjestelmässä hyödynnettiin äänen spektraalisia piirteitä.

Toisessa tutkimuksessa, jossa käytettiin AVOID-korpusta, arvioimme ikään liittyvien stereotypioiden toimivuutta äänen naamioimisstrategiana puhujia vertailtaessa. Kuuntelijat arvioivat sekä puhujan todellista ikää että hänen esittämäänsä ikää, kun hän yritti kuulostaa lapselta tai vanhukselta. Tulokset osoittivat, että kuuntelijoiden tekemät ikäarviot naispuolisten puhujien esittämistä äänistä osuivat lähemmäs puhujien tavoittelemaa kohdeikää, kun taas miespuolisista puhujista tehdyt ikäarviot vastasivat puhujien tavoitteita vain vanhusäänien osalta.

Kaiken kaikkiaan AVOID-korpus on arvokas aineisto ihmisten itse muunnellun puheäänen tutkimukseen. Toivomme, että jatkotutkimusten myötä olisi mahdollista rakentaa järjestelmiä, jotka ovat kyvyiltään entistä vakaampia naamioituja ääniä kohtaan.

Julkaisuja

González Hautamäki, R., Hautamäki, V., and Kinnunen, T. (2019). ”On Limits of Automatic Speaker Verification: Explaining Degraded Recognizer Score Through Acoustic Changes Resulting from Voice Disguise”, The Journal of the Acoustic Society of America 146, 693. https://doi.org/10.1121/1.5119240

González Hautamäki,R., Sahidullah, Md., Hautamäki, V., and Kinnunen,T. (2017). ”Acoustical and perceptual study of voice disguise by age modification in speaker verification”, Speech Communication, Volume 95, Pages 1-15, https://doi.org/10.1016/j.specom.2017.10.002

González Hautamäki, R., Sahidullah, Md., Kinnunen, T., and Hautamäki, V (2016). ”Age-Related Voice Disguise and its Impact in Speaker Verification Accuracy”, Odyssey: The Speaker and Language Recognition Workshop, Bilbao, Spain, pages 277-282, http://dx.doi.org/10.21437/Odyssey.2016-40

González Hautamäki, R., Kanervisto, A., Hautamäki, V., and Kinnunen, T. (2018). ”Perceptual Evaluation of the Effectiveness of Voice Disguise by Age Modification”, Odyssey: The Speaker and Language Recognition Workshop, Les Sables d’Olonne, France, pages 320-326, http://dx.doi.org/10.21437/Odyssey.2018-45

Aineistoja

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Johanna Vaattovaara

Johanna Vaattovaara
Kuva: Antti Yrjönen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Johanna Vaattovaara kertoo meille kielitietoisuuteen ja kieliasenteisiin liittyvistä tutkimuksistaan.

Kuka olet?

Olen Johanna Vaattovaara, suomen kielen professori Tampereen yliopiston Informaatioteknologian ja viestinnän tiedekunnassa Kielten yksikössä.

Mikä on tutkimuksesi aihe?

Tutkimukseni edustavat sosiolingvistiikkaa ja kieli-ideologiatutkimusta, pääosin kielitietoisuus- ja asennetutkimusta. Olen tutkinut jonkin verran myös kielellistä variaatiota ja kielenmuutosta, mihin erilaiset korpukset ovat olleet hyvin arvokas resurssi. Korpuksista on ollut hyötyä myös tutkimusasetelmien suunnittelussa, etenkin kieliasennetutkimuksen saralla. Esimerkiksi Suomi24-korpusta olen viime vuosina eri tavoin hyödyntänyt tutkimuksissa, joissa olen yhdessä Elizabeth Petersonin ja osin myös Ylva Birin ja Turo Hiltusen kanssa tutkinut englanninkielisten ilmausten integroitumista osaksi suomen kielen käyttöä.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankin korpuksista olen hyödyntänyt tähän mennessä Suomi24-aineistoja, erityisesti Suomi24 2016H2 -korpusta. Parhaillaan olen käynnistämässä tutkimushanketta Arkisuomien kielitietoisuudet ja muutos, jota rahoittaa Koneen Säätiö (2023–25). Sen puitteissa kerätään erilaisin menetelmin kielitietoisuus- ja asenneaineistoja, kuten valtakunnallinen kyselyaineisto, jonka jakamista suunnittelemme Kielipankin kautta.

Aiemmin olen jakanut aineistoja Kotimaisten kielten (tutkimus)keskuksen arkistojen kautta. Saatavilla Kotuksesta on väitöskirjaa varten keräämäni, yhden abiturienttivuosikerran parissa keräämäni haastatteluaineisto Tornionlaakson Pellosta. Post doc -vaiheessa keräsin Marja-Leena Sorjosen johtamassa, Suomen Akatemian vuosina 2009–2012 rahoittamassa hankkeessa Helsingin suomea – monimuotoisuus, sosiaalinen identiteetti ja kielelliset asenteet kaupunkiympäristössä reaktio- ja haastatteluaineiston Tiedekeskus Heurekan aulassa. Myös tähän metalingvististä materiaalia tarjoavaan korpukseen voi saada tutkimusluvan Kotuksesta.

Julkaisuja

Peterson, E., Hiltunen, T., Vaattovaara, J. 2022. A place for pliis in Finnish: A discourse-pragmatic variation account of position. – Elizabeth Peterson, Turo Hiltunen & Joseph Kern (eds.), Discourse-Pragmatic Variation and Change: Theory, Innovations, Contact, pp. 272–292. Cambridge University Press. DOI: 10.1017/9781108864183.015

Peterson, E., Biri, Y., Vaattovaara, J. 2022. Grammatical and social structures of English-sourced swear words in Finnish discourse. – Martín-Solano, R. & San Segundo, R. (eds.), Corpus linguistics and Anglicisms, pp. 49–70. Peter Lang Publishing. DOI: 10.3726/b19222

Vaattovaara, J. & Peterson, E. 2019. Same old paska or new shit? On the stylistic boundaries and social meaning potentials of a loanword in Finnish. – Ampersand 6/2019 (Special Issue, E. Zenner, A. Calude & L. Rosseel (eds.), Lexical borrowing as expression of culture, identity and attitude – empirical investigations into the social meaning potential of loanwords.) DOI: 10.1016/j.amper.2019.100057

Vaattovaara, J. 2012. Spatial concerns for the study of social meaning of linguistic variables – an experimental approach. – Hanna Lehti-Eklund, Camilla Lindholm & Caroline Sandström (eds.), Folkmålsstudier : Meddelanden från Föreningen för Nordisk Filologi 2012/50, pp. 175–209. https://journal.fi/folkmalsstudier/article/view/82136

Nuolijärvi, Pirkko & Vaattovaara, Johanna 2011. De-standardisation in progress in Finnish society? – T. Kristiansen & N. Coupland (eds.), Standard Languages and Language Standards in a Changing Europe, pp. 67–74. Oslo: Novus Forlag. http://omp.novus.no/index.php/novus/catalog/view/3/5/163

Vaattovaara, Johanna 2009. Meän tapa puhua: Tornionlaakso pellolaisnuorten subjektiivisena paikkana ja murrealueena. Helsinki: Suomalaisen Kirjallisuuden Seura (304 pp.). Suomalaisen Kirjallisuuden Seuran toimituksia 1224. http://urn.fi/URN:ISBN:978-952-222-100-1

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Noora Hoffrén

Noora Hoffrén
Kuva: Essi Ekman

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Noora Hoffrén kertoo meille väitöskirjatutkimuksestaan, jonka aiheena on konstruoitu toiminta suomalaisessa viittomakielessä ja suomen kielessä.

Kuka olet?

Olen Noora Hoffrén, viittomakielen tulkki ja väitöskirjatutkija. Teen artikkeliväitöskirjaa Jyväskylän yliopiston Kieli- ja viestintätieteiden laitoksella, viittomakielen keskuksella (VKK).

Mikä on tutkimuksesi aihe?

Väitöskirjani aihe on eläytymällä näyttäminen eli konstruoitu toiminta. Kun puhuja tai viittoja eläytyy jonkin toisen hahmon rooliin ja näyttää tämän hahmon ajatuksia, puhetta, tunteita tai toimintaa, hän konstruoi toimintaa. Konstruoitu toiminta ei aina ole ilmeistä tai voimakasta. Usein – varsinkin viittomakielessä – se sulautuu niin tiiviisti osaksi muuta kieltä, ettei sitä aina erota paljaalla silmällä. Tutkin konstruoitua toimintaa sekä suomalaisessa viittomakielessä että suomen kielessä. Väitöskirjani kytkeytyy osaksi Jyväskylän yliopiston meneillään olevaa ShowTell-projektia.

Miten Kielipankki liittyy tutkimukseesi?

Käytän tutkimusaineistona Suomalaisen viittomakielen korpusta, josta osa on jo julkaistu ja ladattavissa Kielipankissa (CFINSL). Aineisto sisältää useista kuvakulmista kuvattujen videoiden lisäksi perustason annotaatioita ja metatietoja. Se, että tällainen korpusaineisto on ylipäätänsä olemassa, mahdollistaa konstruoidun toiminnan tutkimisen parhaalla mahdollisella tavalla.

Tavoitteenani on kerätä viittomakielisen aineiston rinnalle suomenkielinen videokorpus, joka myös tallennetaan Kielipankkiin. Suomenkielinen videokorpus kerätään pareittain kuudelta äidinkieleltään suomenkieliseltä puhujalta. Aineiston keräämisessä käytetään vastaavia menetelmiä kuin Suomalaisen viittomakielen korpuksen keruussa. Tämä tarkoittaa esimerkiksi useamman kameran käyttöä kuvaussessioissa ja samojen elisitointimateriaalien (mm. ”Lumiukko” ja ”Sammakko, missä olet?” –kuvakirjojen) käyttöä.

Julkaisuja

Hoffrén, Noora 2019. Kuvailevien viittomien ja konstruoidun toiminnan yhteispeli. Pro gradu -tutkielma. Jyväskylän yliopisto. Saatavilla: http://urn.fi/URN:NBN:fi:jyu-201910144419

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Kuukauden tutkija: Maria Sarhemaa

Maria Sarhemaa
Kuva: K-Art Foto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Maria Sarhemaa kertoo meille tutkimuksestaan, jossa hän on selvittänyt etunimien appellatiivistumista. Verkkokeskustelut ovat hedelmällinen aineistolähde epämuodollisen, puhekielenomaisen kielen tutkimiseen.

Kuka olet?

Olen Maria Sarhemaa, väitöskirjatutkija Helsingin yliopiston suomen kielen oppiaineesta. Teen väitöskirjaa Koneen säätiön apurahalla.

Mikä on tutkimuksesi aihe?

Tutkin etunimien appellatiivistumista suomen kielessä eli sellaisia tyypillisesti kielen epämuodollisiin rekistereihin kuuluvia sanoja, joiden taustalla on jokin etunimi. Tällaisia ovat esimerkiksi ’oksennusta’ merkitsevä yrjö ja tietynlaista teinipoikaa merkitsevä jonne, mutta on myös yhdyssanoja, joiden osana on appellatiivistunut etunimi, esimerkiksi baarimikko. Väitöstutkimuksessani kartoitan appellatiivistumista kielenilmiönä suomen kielessä ja osajulkaisuissa tutkin appellatiivistuneen osan sisältäviä yhdyssanoja, ’tyhmää’ merkitseviä ilmauksia uuno, tauno ja urpo sekä jonnet ei muista -konstruktiota.

Miten Kielipankki liittyy tutkimukseesi?

Keräsin Kielipankin Suomi24-korpuksesta aineistoa uunoa, taunoa ja urpoa käsittelevään artikkeliini. Suomi24 on tutkimusaiheeni kannalta hedelmällinen aineistolähde, sillä appellatiivistuneita ilmauksia käytetään runsaasti etenkin epämuodollisessa kielessä ja Suomi24:ssä käytetty kieli on usein puhekielen omaista. Olen kerännyt samasta korpuksesta aineistoa myös tekeillä olevaan jonnet ei muista -konstruktiota käsittelevään artikkeliini sekä FT Lasse Hämäläisen kanssa tekemääni tutkimukseen jonne-appellatiivista.

Julkaisuja

Hämäläinen, Lasse & Sarhemaa, Maria 2022: Jonnen jäljillä: Appellatiivisen jonnen alkuvaiheet verkkokeskusteluaineistojen valossa. Sananjalka 64, 255–269. https://doi.org/10.30673/sja.114194

Sarhemaa, Maria 2021: Tavan tauno uunoilee urpokaupungissa: Nimien Uuno, Tauno ja Urpo appellatiivistuminen ja appellatiivien käyttö Suomi24-keskustelupalstalla. Sananjalka 63, 103–129. https://doi.org/10.30673/sja.107278

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

In English

Månadens forskare: Therese Lindström Tiedemann

Therese Lindström Tiedemann
Foto: Tove Tiedemann

Språkbanken i Finland (Kielipankki) är en tjänst för forskare som använder språkresurser. Therese Lindström Tiedemann berättar om sin forskning om svenska som andraspråk. Det finns ett klart behov av att fortsätta utveckla finlandssvenska korpusar för att säkerställa att kommande studier inte bara tar sverigesvenska i beaktande utan också inkluderar finlandssvenska.

Vem är du?

Jag heter Therese Lindström Tiedemann och jag är universitetslektor i svenska språket vid Helsingfors universitet. Förutom svenska språket intresserar jag mig också för allmän lingvistik. Min doktorsavhandling skrev jag om grammatikaliseringens historia som språkvetenskapligt koncept, dvs inom språkvetenskapens historia.

Vad är ditt forskningsområde?

De senaste åren har jag mest forskat om svenska som andraspråk och i min forskning använder jag mig mycket av korpuslingvistiska metoder. Dessutom har jag tillsammans med kollegor också testat att använda mig av crowdsourcing. Jag forskar också om andra ämnen såsom grammatikalisering, språkvetenskapens historia, grammatikdidaktik och metaspråklig kunskap.

Hur är din forskning relaterad till Språkbanken i Finland?

Det är främst i koppling till min forskning inom svenska som andraspråk och i samband med undervisning som jag kommit att använda mig av Språkbankens (Finland) resurser. Jag har bland annat använt mig av den svenska delen av Topling-korpusen, och för närvarande leder jag vår fakultets del av Digisvenska-projektet där vi skapar en korpus över texter från de digitala studentskrivningarna i medellång svenska för att kunna studera hur de digitala studentskrivningarna samspelar med läroplanen och rättvisan och transparensen i provresultaten. Vi kommer bland annat att studera hur den språkliga bredden i form av den lexikala variationen relaterar till poäng och vitsord i proven, men också verbböjningen och satsadverbialen samt den språkliga exaktheten i form av normenligheten.

Tidigare har jag gjort försök att studera ordet ’nog’ med hjälp av Sinebrychoffkorpusen tillsammans med Jan Lindström, men i slutänden behövde arbetet göras främst med en mer omfattande textversion av korpusen och inte genom den version som finns i Korp.

Svenskspråkiga resurser i Finland behöver utvecklas

Jag har också ett mer allmänt intresse för vilka svenskspråkiga resurser som finns tillgängliga i Språkbanken (Finland) eftersom jag själv forskar om svenska och undervisar studenter i nordiska språk och gör mycket utifrån korpusbaserade metoder. Det gör det viktigt att veta vad jag kan rekommendera att studerande kan göra med hjälp av korpusar. Det finns absolut ett behov av att fortsätta utveckla finlandssvenska korpusar för att se till att vi kan beskriva finlandssvenska på liknande sätt som vi kan sverigesvenska, och så att kommande studier inte bara tar sverigesvenska i beaktande utan också inkluderar finlandssvenska. I den finländska kontexten kan vi också se att det i vissa korpusar finns såväl finska som svenska och att det finns behov av att fundera på hur man på bästa sätt skulle kunna studera hur och när svenska används i dessa korpusar och om det här är representativt för hur svenska används i dessa kontexter i Finland. Det här gäller t.ex. korpusen över riksdagens plenarsessioner (Eduskunnan täysistunnot), där svenska ord i nuläget bara taggas som utländska ord vilket gör att forskningsmöjligheterna på den delen av datan försvåras. Men samtidigt gör detta att vi tydligt kan se att svenska ord toppar och dominerar listan över de ord som taggats som utländska ord i plenarsessionerna. Men det vore intressant att fundera över hur man skulle kunna hantera dessa delar som svenskspråkiga, samt om det på något vis kunde vara möjligt annotera svenskspråkiga delar som svenska och på så vis göra det lättare att studera dem utifrån ett svenskspråkigt perspektiv.

I koppling till mitt intresse för de svenskspråkiga resurserna har jag också ett intresse för interoperabilitet mellan olika korpusar och resurser, transparens för forskningsdata och jämförbarhet mellan olika källor för det svenska språket. Eftersom väldigt många korpusar för det svenska språket finns vid Språkbanken Text (Sverige) och vi har ett behov av att kunna jämföra med dessa så ser jag ett behov av information om hur jämförbara korpusarna är, om korpusar här på Språkbanken (Finland) har annoterats på samma vis osv. Det här är av vikt för att se till att finlandssvenska och svenska inlärningskorpusar som finns här i Finland ska kunna jämföras med de korpusar som finns i Sverige och på så vis ge finlandssvenska och andraspråkssvenska (L2-svenska) med finska som förstaspråk (L1) en tydlig och rättvis plats i forskning om svenska och L2-svenska i allmänhet.

Som del av mitt arbete med korpusar har jag tillsammans med kollegor också intresserat mig för att kontrollera hur väl den automatiska annoteringen fungerar, speciellt på material skrivet av andraspråksinlärare. Vi har kontrollerat annoteringen av kursbokstexter (skrivna av L1-talare men ämnade för, eller utvalda för, L2-inlärare), texter skrivna av L2-inlärare och texter skrivna av L2-talare som sedan ”normaliserats” (dvs. standardiserats i form av t.ex. stavning) för att underlätta annotering, sökningar och jämförelser. Resultaten visade att texter skrivna av inlärare ofta är något sämre annoterade men inte alltid. Lemmatisering, ordklasstaggning och betydelsedisambiguering visade sig fungera så pass bra att de kan användas i studier också av L2-svenska, även om betydelsedisambigueringen var mer problematisk. Det fanns större problem med dependensanalys (jfr satsanalys), samt även flerordsenheter visade sig vara problematiska speciellt i inlärartexter. Flerordsannoteringen var dock så pass bra ändå att vi drog slutsatsen att den var bra nog som grund för vårt arbete, men man bör vara medveten om att några kan missas och att flerordsannoteringen bygger på vilka flerordsenheter som finns i Saldo, samt hur de har beskrivits i Saldo. Det visade sig nämligen kunna variera huruvida det sågs som att en preposition var del av flerordsenheten eller inte.

När språkforskare använder sig av korpusar för att studera språkbruk, historiska förändringar eller inlärares språkutveckling så är det ytterst viktigt att det finns tydlig information om hur korpusen har samlats in och vilken metadata som finns tillgänglig. Jag har därför också intresserat mig för hur metadata om korpusar förvaras och kopplas till korpusar så att användare kan hitta information som kan vara av vikt för att t.ex. veta hur pass jämförbara data ur olika korpusar är och hur representativ en viss korpus kan anses vara. Det här är en viktig del av arbetet med att göra data inte bara tillgängligt men också vetenskapligt användbart. Finns det inte tillräckligt med information om korpusen så kan det vara att språkforskare inte kan använda den för att de kommer att kritiseras för att de inte kan beskriva urvalet de arbetat med. För ett pluricentriskt språk som svenska är det väldigt viktigt att data som samlas in i de olika länderna där språket talas är jämförbara och när man använder sig av korpusar innebär det här också att det är viktigt att veta hur datan har behandlats och annoterats.

Jag är väldigt glad att vi fått fler svenska korpusar i Språkbanken (Finland) under de senaste åren. Jag hoppas att det i framtiden ska komma ännu fler finlandssvenska korpusar i Språkbanken och att de ska annoteras såsom de svenska korpusarna vid Språkbanken Text (Sverige) och att information om datan ska ges så att studerande och forskare relativt enkelt kan hitta jämförelsebart material samt veta hur representativt materialet är för en viss typ av språk (t.ex. en dialekt, tidningsspråk).

Nyligen avslutade projekt och några framtida steg

Under de kommande åren ska jag arbeta på ett projekt om pseudonymisering av språkliga data (Mormor Karl är 27 år). Pseudonymisering innebär att man ändrar uppgifter såsom namn på personer, platser osv. till pseudonymer i datan, när uppgifterna är sådana att de riskerar att avslöja vem som skrivit texten. Inom projektet kommer vi att studera hur pseudonymisering påverkar lingvistiska data i form av läsbarhet och bedömning för att bidra till bättre möjligheter till pseudonymisering men också bättre kunskap om hur pseudonymisering påverkar forskningsdata inom humaniora vilket är ett viktigt led i att arbeta för öppna data som kan återanvändas så att resultat kan reproduceras och uppföljningsstudier kan göras på data som redan finns insamlade samtidigt som man skydda människors identitet.

I koppling till det projekt som jag precis har avslutat tillsammans med Elena Volodina, Göteborg (L2 profiler – Utveckling av lexikala och grammatiska kompetenser i invandrarsvenska) har vi släppt ett dataset med manuella morfologiska analyser av lexem som ingår i material riktade mot inlärare av svenska som andraspråk eller producerade av personer med svenska som andraspråk (CoDeRooMor). Den här resursen har nu uppdaterats en del och kommer att släppas som del av resursen Svenska L2-profiler under 2023. Svenska L2-profiler är en resurs där man kan söka på t.ex. ord, tempus, morfem eller ordbildningsmönster för att se hur dessa förekommer på olika färdighetsnivåer (enligt CEFR, Common European Framework of Reference for languages) i så väl kursböcker för svenska som andraspråk som inlärartexter på olika CEFR-nivåer. De resurser som vi skapat finns dock vid Språkbanken Text (Sverige), men är eller ska bli öppet tillgängliga.

Under åren har jag också varit involverad i utvecklingen av ett verktyg för annotering i koppling till forskning om svenska (Legato) och Lärka-plattformens användning för undervisning om satsdelar, ordklasser och semantiska roller. CALL-plattformen Lärka har jag använt i min egen grammatikundervisning och på så vis kunnat återkoppla kring till utvecklarna. Tillsammans med Volodina har jag också använt plattformen till att samla in anonyma data om vad studerande ofta gör rätt och fel när de övar på dessa kategorier, vilket kan användas till forskning om metaspråklig kunskap och förmåga att analysera svenska språket grammatiskt.

Förutom hur min forskning kopplar till Språkbankens resurser och intresseområden är jag också projektledare för Finland Swedish Online (FSO), en onlinekurs i finlandssvenska som skapats på Helsingfors universitet utifrån en isländsk modell (Icelandic Online). FSO ingår numera i SAFMORIL som är ett av CLARIN:s K-Centrum. Min förhoppning har varit att FSO inte bara skulle vara ett sätt att stöjda andras språkinlärning men också en möjlighet att studera språkinlärning genom att se om det kunde vara möjligt att följa inlärares utveckling i deras användning av FSO om de gav tillstånd till detta. (Inom Icelandic Online har forskning kring språkinlärning gjorts utifrån deras data.)

Referenser

Alfter, D., Borin, L., Pilán, I., Lindström Tiedemann, T. & Volodina, E. 2019a. Lärka: From Language learning platform to infrastructure for research and language learning. I: Selected papers from the CLARIN Annual Conference 2018. Linköping: Linköping university press. 14s. http://www.ep.liu.se/ecp/159/001/ecp18159001.pdf

Alfter, D., Lindström Tiedemann, T. & Volodina, E. 2019b. LEGATO: A flexible lexicographic annotation tool. I: Hartmann, M. & Plank, B. (red.), The 22nd Nordic Conference on Computational Linguistics (NoDaLiDa): Proceedings of the conference. Linköping: Linköping University Electronic Press. s. 382–388. http://hdl.handle.net/10138/306297

Alfter, D., Lindström Tiedemann, T. & Volodina, E. 2021. Crowdsourcing Relative Rankings of Multi-Word Expressions: Experts vs Non-Experts. Northern European Journal of Language Technology, 7 (1): 35s. https://doi.org/10.3384/nejlt.2000-1533.2021.3128

Arnbjörnsdóttir, B., Friðriksdóttir, K., & Bédi, B. 2020. Icelandic Online: twenty years of development, evaluation, and expansion of an LMOOC. CALL for widening participation: short papers from EUROCALL 2020, 13.

Borin, L., Forsberg, M. & Lönngren, L. 2013. SALDO: a touch of yin to WordNet’s yang. Language Resources and Evaluation, 47(4): 1191–1211. https://doi.org/10.1007/s10579-013-9233-4

Council of Europe. 2001. Common European Framework of Reference for Languages: Learning, teaching and assessment. https://rm.coe.int/1680459f97

Council of Europe. 2018. Common European Framework of Reference for Languages: Learning, teaching and assessment. Companion Volume with new descriptors. https://rm.coe.int/cefr-companion-volume-with-new-descriptors-2018/1680787989

Council of Europe. 2020. Common European Framework of Reference for Languages: Learning, teaching and assessment. Companion volume. https://rm.coe.int/common-european-framework-of-reference-for-languages-learning-teaching/16809ea0d4

Friðriksdóttir, K. 2021. The effect of tutor-specific and other motivational factors on student retention on Icelandic Online. Computer Assisted Language Learning, 34(5-6), 663-684.

Lenardič, J., Lindström Tiedemann, T. & Fišer, D. 2018. Overview of L2 corpora and resources. CLARIN report. CLARIN ERIC. https://office.clarin.eu/v/CE-2018-1202-L2-corpora-report.pdf

Lindström, J. & Lindström Tiedemann, T. 2020. ”Ni minnes nog hvilka jag menar”: Subjektiva och intersubjektiva aspekter av modaladverbet nog. I: Lehti-Eklund, H. & Silén, B. (red.), Handel med konst. Språk och dialog i Paul Sinebrychoffs brevsamling från sekelskiftet 1900. Helsingfors: Svenska litteratursällskapet. s. 293–323. http://hdl.handle.net/10138/315043

Lindström, J. & Lindström Tiedemann, T. 2018. Subjektivt och intersubjektivt nog: Om grammatikalisering och bruk i ljuset av Paul Sinebrychoffs brevväxling kring 1900. I: Lönnroth, H, Haagensen, B., Kvist, M. & Sandvad West, K. (red.) Studier i svensk språkhistoria 14. Vasa: Vasa universitet. s. 180–197. http://hdl.handle.net/10138/243079

Lindström [Tiedemann], T. 2004. The History of the Concept of Grammaticalisation. Opubliserad doktorsavhandling, University of Sheffield. https://etheses.whiterose.ac.uk/1437/

Lindström Tiedemann, T., Alfter, D. & Volodina, E. 2022. CEFR-nivåer och svenska flerordsuttryck. I: Björklund, S., Haagensen, B., Nordman, M. & Westerlund, A. (red.), Svenskan i Finland 19. Vasa: Svensk-österbottniska samfundet. s. 218–233. https://urn.fi/URN:ISBN:978-952-69650-5-5

Lindström Tiedemann, T., Lenardič, J. & Fišer, D. 2018. L2 learner corpus survey: towards improved verifiability, reproducability and inspiration in learner corpus research. CLARIN annual conference, Pisa.
https://office.clarin.eu/v/CE-2018-1292-CLARIN2018_ConferenceProceedings.pdf

Lindström Tiedemann, T., Volodina, E. & Jansson, H. 2016. Lärka – ett verktyg för träning av språkterminologi och grammatik. LexicoNordica, 23: 161–181. https://tidsskrift.dk/lexn/article/view/111823

Prentice, J., Håkansson, C, Lindström Tiedemann, T., Pilán, I. & Volodina, E. 2021. Language learning and teaching with Swedish FrameNet++: two examples. I: Dannélls, D., Borin, L. & Friberg Heppin, K. (red.), The Swedish FrameNet++: Harmonization, integration, method development and practical language technology applications. Amsterdam: Benjamins. s. 303–329. https://doi.org/10.1075/nlp.14.12pre

Stemle, E. W., Boyd, A., Jansen, M., Lindström Tiedemann, T., Mikelić Preradović, N., Rosen, A., Rosén, D. & Volodina, E. 2019. Working together towards an ideal infrastructure for language learner corpora. I: Abel, A., Glaznieks, A., Lyding, V. & Nicolas, L. (red.) Widening the Scope of Learner Corpus Research: Selected papers from the fourth leaner corpus research conference. Louvain-la-Neuve: Presses universitaires de Louvain.
http://hdl.handle.net/10138/311309

Volodina, E., Alfter, D., Lindström Tiedemann, T., Lauriala, M.S. & Piipponen, D. H. 2022. Reliability of Automatic Linguistic Annotation: Native vs Non-native Texts. I: Monachini, M. & Eskevich, M. (red.), Selected papers from the CLARIN Annual Conference 2021. Linköping: Linköping University Electronic Press. s. 151–167.
https://doi.org/10.3384/ecp18914

Volodina, E., Mohammed, Y. A. & Lindström Tiedemann, T. 2021. CoDeRooMor: A new dataset for non-inflectional morphology studies of Swedish. Proceedings of the 23rd Nordic conference on computational linguistics (NoDaLiDa). Linköping. s. 178–189. http://hdl.handle.net/10138/339476

Volodina, E. & Lindström Tiedemann, T. 2014. Evaluating students’ metalinguistic knowledge with Lärka. Swedish Language Technology Conference, Uppsala. http://hdl.handle.net/10138/347397

Svenska språkresurser

Språkbanken i Finland samordnas av det nationella FIN-CLARIN-konsortiet som består av finländska universitet med CSC – IT Center for Science och Institutet för de inhemska språken (Kotus). FIN-CLARIN hjälper forskare i Finland att använda, förbättra, bevara och dela med sig av sina språkresurser. Språkbanken i Finland är en samling tjänster som tillhandahåller språkmaterial och verktyg för forskarsamfundet.

Alla tidigare publicerade intervjuer med forskare från Språkbanken lagras i Månadens forskare arkivet. Den här artikeln publiceras också på webbplatsen för den humanistiska fakulteten vid Helsingfors universitet.

 

Kuukauden tutkija: Marja-Liisa Helasvuo

Marja-Liisa Helasvuo
Kuva: Lyyra Virtanen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Marja-Liisa Helasvuo kertoo meille, millaisia digitaalisia kieliaineistoja Turun yliopistossa on tuotettu. Yhteistyökuvioiden myötä korpusten parissa tehtävä työ on laajentunut kokonaiseksi aineistoinfrastruktuuriksi.

Kuka olet?

Olen Marja-Liisa Helasvuo. Toimin suomen kielen professorina Turun yliopistossa. Aikoinaan lähdin opiskelemaan suomen kieltä ja yleistä kielitiedettä Helsingin yliopistoon, ja väittelin kielitieteestä Kalifornian yliopistossa Santa Barbarassa. Olen aina ollut erityisen kiinnostunut puhutusta kielestä, ja väitöskirjanikin käsitteli puhuttua suomen kieltä kieltenvälisen tutkimuksen näkökulmasta.

Mikä on tutkimuksesi aihe?

Tutkimukseni on keskittynyt kielioppiin ja ihmisten väliseen vuorovaikutukseen. Olen tarkastellut tutkimuksessani hyvin erilaisia aineistoja: arkikeskusteluja aikuisten välillä tai aikuisen ja lapsen kesken, verkkokeskusteluja ja muuta tietokonevälitteistä vuorovaikutusta sekä kirjoitettuja tekstejä vanhimmista suomenkielisistä teksteistä uudempiin kirjoituksiin. Olen tutkinut näiden aineistojen perusteella monenlaisia kieliopin kysymyksiä.

Työskentelen suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa Turun yliopistossa. Meillä on tuotettu useita digitaalisia korpuksia alkaen Lauseopin arkiston murrekorpuksesta, jonka teko aloitettiin 1967. Se on ensimmäinen suomen kielen korpus, joka on suoraan tehty koneluettavaan muotoon.

Murrekorpuksen jälkeen on tullut useita muita: Agricola-korpus, joka sisältää kaikki Mikael Agricolan teokset 1500-luvulta, Edistyneiden suomenoppijoiden korpus (LAS2) ja Akateemisen suomen korpus (LAS1). Nämä kaikki ovat kieliopillisesti koodattuja, ja ne ovat saatavissa Kielipankin kautta (LAS1 tulossa saataville lähiaikoina). Lisäksi meillä on tuotettu useita suomalais-ugrilaisten kielten aineistoja. Nämä aineistot on koottu Suomen ja sen sukukielten arkistoon. Kun yhteisössämme on tuotettu paljon kieliaineistoja, meillä on myös paljon tutkijoita, jotka ovat kiinnostuneita korpuspohjaisesta tutkimuksesta. Jos esimerkiksi en tiedä, miten jonkin asian saisi parhaiten selville, tai en keksi, mitä korpusta kannattaisi käyttää tietyn asian tutkimiseen, voin aina kysyä työkaverilta.

Olemme viime aikoina tehneet lisääntyvässä määrin yhteistyötä TurkuNLP-ryhmän kanssa. Perustimme UTU-Digilang-aineistoinfrastruktuurin, jossa ovat mukana meidän Suomen ja sen sukukielten arkiston lisäksi Digilang-aineistoportaali, Digilang-pitkäaikaistallennus ja TurkuNLP-ryhmä ja sen kieliaineistot ja aineistotyökalut. Tämä yhteistyö on ollut tosi antoisaa, ja olen oppinut siitä paljon. Haluaisin tulevaisuudessa lisätä yhteistyötä.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt lähes kaikissa tutkimuksissani korpuksia, joista monet ovat Kielipankin kautta saatavissa.

Olen itsekin ollut tekemässä Kielipankin kautta saatavissa olevaa Arkisyn-korpusta. Saimme hankkeelle Koneen Säätiön rahoituksen, jonka avulla rakensimme morfosyntaktisesti koodatun korpuksen. Siitä pystyy helposti hakemaan vaikkapa tietyn sanan kaikki esiintymät (esim. ajatella-verbi kaikissa eri muodoissaan) tai tietyn muodon kaikki esiintymät (esim. kaikki menneen ajan muodot).

Viime aikoina olen tutkinut erityisesti erilaisia kiteytyneitä ilmauksia, jotka esiintyvät taajaan ja useimmiten samassa muodossa. Esimerkiksi ajatella-verbi on hyvin yleinen verbi arkikeskusteluissa. Se esiintyy lähes aina yksikön 1. persoonassa ja ilmauksen aikamuoto on imperfekti, menneen ajan muoto (mä ajattelin). Kun vertasimme korpushaun tuloksia vastaaviin kohtiin äänitallenteissa, huomasimme, että vaikka ilmaukset oli kirjattu muotoon mä ajattelin, ilmaus oli todellisuudessa äänteellisesti hyvin kulunut. Kaikkein yleisimmin se oli muodossa maattet. Minä-pronominista ei ollut jäljellä kuin m-äänne alussa, ilmauksen ensimmäinen ja toinen tavu (ajat) olivat sulautuneet yhteen (aat). Loppuun oli liimautunut että-sanan kulunut muoto. Tämäntyyppinen äänteellinen kuluminen ja käytön kivettyminen tiettyyn muotoon on hyvin tavallista kiteytyneille ilmauksille.

Kielipankin aineistoista olen käyttänyt Arkisynin lisäksi mm. Suomi24-korpusta, Agricola-korpusta, Lauseopin arkiston murrekorpusta ja lehtiaineistoja. Eri korpukset mahdollistavat erilaisia tutkimusaiheita.

Kirjallisuutta

Laury, Ritva, Marja-Liisa Helasvuo & Janica Rauma 2020. “When an expression becomes fixed: mä ajattelin että ‘I thought that’ in spoken Finnish”. – Ritva Laury & Tsuyoshi Ono (eds.), Fixed Expressions: Building language structure and social action, pp. 133–166. Pragmatics & Beyond New Series 315. Amsterdam: John Benjamins. DOI: http://dx.doi.org/10.1075/pbns.315.06lau

Helasvuo, Marja-Liisa 2019. “Free NPs as units”. Special issue “On the Notion of Unit in the Study of Human Languages”, guest editors Tsuyoshi Ono, Ritva Laury & Ryoko Suzuki. Studies in Language 43:2:301–328. DOI: http://dx.doi.org/10.1075/sl.16064.hel

Laury, Ritva & Marja-Liisa Helasvuo 2016. “Disclaiming epistemic access with ‘know’ and ‘remember’ in Finnish”. Special Issue on “Grammar and negative epistemics in talk-in-interaction”, guest editors Jan Lindström, Yael Maschler and Simona Pekarek Doehler. Journal of Pragmatics 106 (2016): 80–96. DOI: http://dx.doi.org/10.1016/j.pragma.2016.07.005

Helasvuo, Marja-Liisa & Aki-Juhani Kyröläinen 2016. “Choosing between zero and pronominal subject: Modeling subject expression in the 1st person singular in Finnish conversation”. Corpus Linguistics and Linguistic Theory 12(2):263–299. DOI: http://dx.doi.org/10.1515/cllt-2015-0066

Lisätietoa mainituista aineistoista

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Marjatta Palander

Marjatta Palander
Kuva: Satu Kokkonen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Marjatta Palander kertoo meille tutkimuksestaan karjalan kielen eri murteiden parissa. Tutkimushankkeiden myötä on syntynyt myös karjalan kielen puhekorpuksia, jotka ovat tulossa saataville Kielipankin kautta.

Kuka olet?

Olen Marjatta Palander, suomen kielen emeritaprofessori Itä-Suomen yliopiston humanistiselta osastolta. Olen johtanut juuri päättynyttä Suomen Akatemian rahoittamaa KATVE-tutkimushanketta (Muutto ja kielellinen eriytyminen: karjala Tverissä ja Suomessa).

Mikä on tutkimuksesi aihe?

Työurallani olen tutkinut erityisesti suomen itämurteita mutta 2000-luvulla kahdessa tutkimushankkeessa myös karjalan kieltä. FINKA-hankkeessa (2011–2014) kohteena olivat Raja-Karjalan murteet. KATVE-hankkeessa (2018–2022) puolestaan on selvitetty Raja-Karjalan ja Tverin karjalan murteiden eroja ja yhtäläisyyksiä. Nämä karjalan murteet polveutuvat yhteisestä varsinaiskarjalan etelämurteesta, jota puhuttiin nykyisen Itä-Suomen alueella vielä 1600-luvun alkupuolella. Ruotsin valloitettua Itä-Suomen suurin osa alueen karjalankielisestä väestöstä pakeni Venäjälle, aina Tveriin saakka. Tverin karjalaiset ovat siitä lähtien eläneet vailla kontakteja muihin karjalaisiin. KATVE-hankkeessa olemme tutkineet, millaisia vaikutuksia noin 350 vuoden ajalla on ollut murteiden eriytymiseen.

Tutkimuksemme koskee muun muassa lauserakenteen piirteitä, omistusmuotoja ja sanastoa. Selvitämme myös, missä määrin rajakarjalaistaustaiset ja tverinkarjalaiset ymmärtävät toistensa murteita. Omissa tutkimuksissani olen tarkastellut karjalaisten kielitietoisuutta kansanlingvistisillä menetelmillä. Lisäksi olen tutkinut, millaista ajallista vaihtelua on yhdessä rajakarjalaisidiolektissa, josta on tallenteita 17 vuoden ajalta.

Miten Kielipankki liittyy tutkimukseesi?

Olemme 2010- ja 2020-lukujen tutkimushankkeissa luoneet yhteensä kolme karjalan kielen puhekorpusta, jotka sisältävät äänitettyjä murrehaastatteluja ja niiden FU-transkriptiolla tuotettuja litterointeja: Raja-Karjalan korpus (119 h) perustuu Kotimaisten kielten keskuksessa säilytettäviin, 1960–70-luvuilla tallennettuihin haastatteluihin. Myös Tverinkarjalan korpus 1957–1971 (n. 30 h) on koottu Kotimaisten kielten keskuksen äänitteistä. Viimeaikaista tverinkarjalaa edustaa Tverinkarjalan korpus 2016–2019 (n. 15 h), jonka aineiston ovat koonneet KATVE-hankkeen tutkijat ja karjalan kielen opiskelijat kenttäretkillämme. Kaikki korpukset on luovutettu Kielipankkiin, jotta tutkijoilla olisi aiempaa enemmän sähköisiä aineistoja uhanalaisesta vähemmistökielestä karjalasta.

Tutkimuksia

Palander, Marjatta 2015. Rajakarjalaistaustaisten ja muiden suomalaisten käsityksiä karjalasta. Virittäjä, 119(1), 34–66. Saatavilla: https://journal.fi/virittaja/article/view/41260

Palander, Marjatta & Mäkisalo, Jukka 2022. Reaaliaikatutkimus rajakarjalaisidiolektista. Virittäjä, 126(3), 339–368.

Palander, Marjatta & Riionheimo, Helka 2018. Miten Raja-Karjalan murre eroaa suomesta? Rajakarjalaistaustaiset pohjoiskarjalaiset kuuntelutestissä. Sananjalka, 60(60.), 49–70. DOI: 10.30673/sja.69997

Riionheimo, Helka & Palander, Marjatta 2017. Rajakarjalainen kuuntelutesti: havainnoijina suomen kielen yliopisto-opiskelijat. Lähivørdlusi/Lähivertailuja 27, 212–241. Eesti rakenduslingvistika ühing. Tallinn. DOI: 10.5128/LV27.07

Uusitupa, Milla, Koivisto, Vesa & Palander, Marjatta 2017. Raja-Karjalan murteet ja raja-alueiden kielimuotojen nimitykset. Virittäjä 121(1), 67–106. Saatavilla: https://journal.fi/virittaja/article/view/53121

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Benjamin Schweitzer

Benjamin Schweitzer
Kuva: Grit Ruhland

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Benjamin Schweitzer kertoo meille väitöskirjatutkimuksestaan, jossa hän tarkastelee taidemusiikin erikoiskieltä. Korpuslingvistiset menetelmät mahdollistavat aihepiirin tarkastelun useasta eri näkökulmasta.

Kuka olet?

Olen saksalainen säveltäjä, kääntäjä ja kielitieteilijä (biografisessa järjestyksessä). Olen opiskellut sävellystä, musiikin teoriaa ja orkesterinjohtoa – muun muassa Sibelius-Akatemiassa Helsingissä – ja olen sittemmin toiminut pääasiassa freelance-säveltäjänä sekä jonkin verran myös luennoitsijana ja konserttijärjestäjänä. 2000-luvun alussa aloin myös tehdä käännöstöitä suomesta saksaan – erityisesti historiallisia ja musiikkitieteellisiä tietokirjoja, mutta myös joitakin oopperalibrettoja ja novelleja.

Nelikymppisenä siirryin toiselle urapolulle ja opiskelin fennistiikkaa ja skandinavistiikkaa Greifswaldissa ja Tartossa. Kun suoritin maisterin tutkinnon vuonna 2018, minulla oli jo aavistus, että kielitieteelliset pyrkimykseni eivät päättyisi tähän. Olin hyvin iloinen, kun pian tämän jälkeen sain mahdollisuuden jatkaa väitöskirjahankkeella. Työskentelen tällä hetkellä tutkijana Greifswaldin yliopiston fennistiikan laitoksella ja kirjoitan väitöskirjaani kansainvälisen Baltic Peripeties -tutkimusryhmän puitteissa. Ohjaajani on professori Marko Pantermöller.

Mikä on tutkimuksesi aihe?

Tutkin suomalaisen taidemusiikin erikoiskieltä useasta eri näkökulmasta. Ensimmäinen näkökulmani on historiallis-systemaattinen: Tarkastelen, millä tavoin tämän tietyn erityisalan kieli, joka alkujaan tuli Suomeen kulttuurituonnin välityksellä, on syntynyt. Mitä tapahtui spontaanisti ja mikä oli kielisuunnittelun ja kielenhuollon vaikutusta? Mitä termejä omaksuttiin ja millaisia ”omintakeisia” suomalaisia sanoja kieliyhteisö onnistui keksimään, ja millaisia rakenteellisia ongelmia oli voitettava tässä prosessissa?

Tutkimukseni toinen näkökulma koskee siirtymistä termeistä teksteihin, sanoista kerrontaan: Millaisia haasteita suomalaiset kriitikot ja musiikkitieteilijät kohtasivat kirjoittaessaan musiikista suomeksi? Mitä malleja he noudattivat ja onko olemassa rakenteellisesti ”tyypillisesti suomalainen” tapa kirjoittaa musiikista?

Kolmas ja monimutkaisin näkökulma on diskurssilingvistinen lähestymistapa: Millaisia intertekstuaalisia suhteita on löydettävissä (suomalaista) musiikkia käsittelevistä suomenkielisistä teksteistä? Heijastuvatko tässä diskurssissa kansalliset auto- ja heterostereotyypit? Entä millä tavoin taidemusiikki suomalaisen ”kulttuuri-identiteetin” kulmakivenä tulee ilmi musiikkiin liittyvästä kirjoittamisesta aina 1900-luvun alusta lähtien?

Miten Kielipankki liittyy tutkimukseesi?

Korpuslingvistiikka on tutkimuksessani tärkeässä asemassa, vaikka käytänkin todennäköisesti hieman epätyypillistä lähestymistapaa. Virallisen taksonomian mukaan tutkimukseni voisi olla korpuspohjaista tai korpussuuntautunutta, mutta itse käyttäisin ehkä mieluummin määrettä ”korpustietoinen”. Tutkimuksessani tarkastelen pääasiassa pidempiä katkelmia tai jopa kokonaisia tekstejä, joista poimin avainsanoja, kollokaatioita ja diskurssisemanttisia kehyksiä. Tämä tarkoittaa sitä, että analyyttinen lähestymistapani on selvästi kvalitatiivinen. Toisaalta selvittäessäni, milloin ja missä yhteydessä tietyt avainsanat tai käsitteet esiintyvät ensimmäisen kerran, millä tavoin ne jakautuvat diakronisesti ja millainen vaikutus niillä on ollut, minun on tarkasteltava lähdeaineistoa myös kvantitatiivisesta näkökulmasta.

Tässä kohtaa Kielipankki tulee kuvioihin. Käytän pääasiassa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa (KLK), joka sisältää valtavan kokoelman päivälehtiä 1900-luvun puoliväliin saakka sekä varhaisia musiikkilehtiä, minkä vuoksi se on ollut minulle korvaamaton lähdeaineisto. Käytän korpusanalyysia testatakseni, vahvistaakseni ja laajentaakseni tutkimushypoteeseja, jotka usein syntyvät yhdestä ainoasta tekstissä olevasta havainnosta tai jopa ”tiedän, että jossain täällä on oltava jotain” -vaistosta. Konkreettisen esimerkin mainitakseni se voisi olla kysymys, kuten ”Mistä lähtien ʻSibeliusʼ ja ʻalkuvoimaʼ ovat esiintyneet yhdessä? Antaako korpus todisteita oletukselle, että siitä tuli kiinteä kollokaatio, ja jos näin on, milloin tämä tapahtui?”.

Tällaisten asioiden selvittämiseen käytän Korpin laajennettua hakua yhteisesiintymien tunnistamiseen laajemmissa näytteissä (kappaleissa), sillä pelkkä vasen/oikea-naapuri-haku ei paljastaisi riittävästi – varsinkaan tutkittaessa varhaisen nykysuomen musiikkikirjoittelun monimutkaista syntaksia, joka on usein lähempänä kaunokirjallisuutta kuin asiatyyliä. Korpuksen otteita voidaan tämän jälkeen käyttää jatkoanalyyseihin, esimerkiksi laadullista data-analyysia varten, mutta joskus ne voivat myös tuottaa uusia hypoteeseja. Täytyy myöntää, että olen useammin kuin kerran löytänyt neulan heinäsuovasta – esim. mielenkiintoisen tekstin, jonka olisin muuten saattanut jättää huomioimatta – selaamalla korpushakutuloksia.

Julkaisuja

Schweitzer, Benjamin 2019. Musikinstrumentenbezeichnungen im Finnischen: Historisch-systematischer Überblick, Varianten und Verstetigung. MA thesis. Universität Greifswald. Saatavilla: urn:nbn:de:gbv:9-oa-000003-2

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Mikko Laitinen

Mikko Laitinen
Kuva: Olli Laitinen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Mikko Laitinen kertoo meille viimeaikaisesta tutkimuksestaan somealustaa seuraavan korpuksen parissa, jonka kautta tutkijoille avautuu myös ikkuna sosiaalisiin verkostoihin.

Kuka olet?

Olen Mikko Laitinen, englannin kielen ja kulttuurin professori Itä-Suomen yliopiston Humanistisella osastolla ja yksi kansallisen digitaalisten ihmistieteiden infrakonsortion, FIN-CLARIAH, vastuullisista tutkijoista.

Mikä on tutkimuksesi aihe?

Olen sosiolingvisti, eli minua kiinnostaa kielen käyttö eri tilanteissa ja yhteiskunnallisena ilmiönä. Olen tutkijana tehnyt töitä sekä pienten ja strukturoitujen korpusten että isojen ja paljon laskentavoimaa vaativien massadatojen kanssa, mutta aina niin, että mukana on joitain taustamuuttujia, joiden kautta kielenkäyttöä tarkastellaan. Aineistot ovat olleet sekä synkronisia että diakronisia.

Viime aikoina olemme tutkimusryhmässäni tehneet paljon töitä erilaisten Twitter-aineistojen kanssa. Tällä hetkellä rakennamme tällä somealustalla kielenkäyttöä lähes reaaliajassa seuraavaa isoa, edustavaa ja jatkuvasti päivittyvää benchmark-korpusta. Tällaisesta ”digitaalisesta observatoriosta”, jota kautta pystyy seuraamaan kielen käyttöä yhteiskunnassa, on hyötyä muun muassa taustaksi kielipoliittiseen keskusteluun. Kun siihen liitetään vielä isojen aineistojen visualisointi helpommin ymmärrettävään muotoon, saattaa se myös lisätä ihmisten kiinnostusta kielentutkimusta kohtaan yleisesti. Twitter on siitä kiinnostava aineisto, että vaikka sen tekstit ovat aika lyhyitä, niin sen rikasta metadataa hyödyntämällä pääsee tarkastelemaan ihmisten kielenkäyttöä esimerkiksi sosiaalisissa verkostoissa.

Miten Kielipankki liittyy tutkimukseesi?

Minusta on hienoa, että meillä aineistot ovat yhden luukun alla saatavilla ja vaikkapa yhden käyttöliittymän kautta käytettävissä. Tämä on opiskelijoille ja tutkijoille hieno palvelu! Eniten olen käyttänyt englanninkielen aineistoja, muun muassa COHA– ja COCA‑korpuksia, ja englanti lingua franca ‑korpuksen (ELFA) olen ladannut omalle koneelleni. Myös Suomi24-aineistosta tulee joskus tarkistettua joitakin kiinnostavia ilmiötä.

Julkaisuja

Laitinen, Mikko. 2020. Empirical perspectives on English as a lingua franca (ELF) grammar. World Englishes 39:3, 1–16. DOI: 10.1111/weng.12482

Laitinen, Mikko, Masoud Fatemi & Jonas Lundberg. 2020. Size matters: Digital social networks and language change. Frontiers in Artificial Intelligence 3:46. DOI: 10.3389/frai.2020.00046

Laitinen, Mikko. 2018. Placing ELF among the varieties of English: Observations from typological profiling. In Sandra Deshors (ed.), Modelling World Englishes in the 21st Century: Assessing the Interplay of Emancipation and Globalization of ESL varieties, 109–131. Amsterdam: John Benjamins. DOI: 10.1075/veaw.g61.05lai

Laitinen, Mikko & Magnus Levin. 2016d. On the globalization of English: Observations of subjective progressives in present-day Englishes. In Elena Seoane & Cristina Suárez-Gómez (eds.), World Englishes: New Theoretical and Methodological Considerations, 229–252. (Varieties of English around the World G57). Amsterdam: John Benjamins. DOI: 10.1075/veaw.g57.10lai

Lundberg, Jonas & Mikko Laitinen. 2020b. Twitter trolls: a linguistic profile of anti-democratic discourse. Language Sciences 79. DOI: 10.1016/j.langsci.2019.101268

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Kuukauden tutkija: Filip Ginter

Filip Ginter
Kuva: Filip Ginter

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Filip Ginter kertoo meille työstään, jota hän on tehnyt TurkuNLP-tutkimusryhmässä.

Tämän haastattelun teksti on käännetty koneellisesti englannista suomeksi kunnianosoituksena kieliteknologian edistykselle.

Kuka olet?

Olen Filip Ginter, ja toimin Turun yliopiston kieliteknologian apulaisprofessorina. Olen tällä hetkellä myös TurkuNLP-tutkimusryhmän pitkäaikaisin jäsen. Olen koulutukseltani tietojenkäsittelytieteilijä, ja nautin syvästi niistä monista ainutlaatuisista haasteista, joita ihmiskieli asettaa.

Mihin tutkimuksesi keskittyy?

Koska minua ei ole siunattu kärsivällisyydellä eikä pitkällä keskittymiskyvyllä, olen vuosien varrella onnistunut paneutumaan melko moniin tutkimusaiheisiin TurkuNLP-ryhmän kanssa. Aloitimme tieteellisen kirjallisuuden louhinnan parissa, mutta sitten siirryimme yleisemmin erilaisten NLP-työkalujen ja -resurssien kehittämiseen. Olen aina pitänyt suomen kielestä ja päätin osallistua erityisesti suomalaisen NLP:n kehittämiseen, ehkäpä antaakseni takaisin yhteiskunnalle, joka niin anteliaasti isännöi minua väitöstutkimukseni aikana. Henkilökohtaisesti tärkein – tai ainakin näkyvin – yritykseni oli Turku Dependency Treebank, josta tuli myöhemmin yksi ensimmäisistä puupankeista supermenestyksekkäässä Universal Dependencies (UD) -aloitteessa ja jonka ansiosta TurkuNLP oli tärkeä jäsen UD-yhteisössä ensimmäisestä päivästä lähtien. Puustopankki oli myös TurkuNLP:n suhteellisen laajalti käyttämien tilastollisten syntaktisten suomen kielen riippuvuusjäsennysten jäsentäjien perustana. Olen ylpeä siitä, että tämä työ auttoi tuomaan suomen kielen ACL-julkaisujen tulostaulukoihin ja kuromaan umpeen kuilua paljon enemmän tutkittuihin kieliin ainakin jäsennystarkkuuden osalta.

Viime aikoina en tietenkään voinut olla hyppäämättä mukaan syväoppimisen tsunamiin. TurkuNLP:n aiempi työ suomalaisen internetin ryömimiseksi ja miljardien suomen kielen sanojen keräämiseksi kannatti, kun siitä tuli keskeinen osa FinBERT-mallin harjoituskorpusta. Jos olet hiljattain tehnyt koneoppimista suomen kielen parissa, on hyvin todennäköistä, että olet käyttänyt tätä mallia saadaksesi muutaman prosentin lisäpisteen tarkkuuteen. FinBERTin tarina kertoo siitä, että kielidataa on paljon valmiina oikealla hetkellä, ja se osoittaa, miten tärkeää on kerätä ja ylläpitää kieliresursseja. Koskaan ei voi tietää, milloin seuraavan kerran tarvitaan muutama miljardi sanaa suomea.

Entä miten tästä eteenpäin? Näen tavoitteenani tuoda suomen kieleen tavalla tai toisella suurin osa niistä työkaluista, tehtävistä ja resursseista, joita isommilla kielillä on. Ajattele kysymysten vastaamista, tiivistämistä, semanttista hakua, parafraasimalleja ja monia muita NLP-tehtäviä, joita ei vielä ole kunnolla katettu suomen kielessä. Jos ne ovat olemassa englannille, niiden pitäisi olla olemassa myös suomelle. Elämme jännittäviä aikoja NLP:ssä, ja nyt meillä on paljon enemmän mahdollisuuksia kuin vielä viisi vuotta sitten. Ja tietysti, kun LUMI-supertietokone on nurkan takana, TurkuNLP-työpajalta voi odottaa uusia jännittäviä kielimalleja.

Näiden enemmän tai vähemmän valtavirran NLP-hankkeiden lisäksi minulla on ollut useita, rohkenen sanoa, onnistuneita yhteistyöhankkeita digitaalisten humanististen tieteiden alalla, erityisesti historioitsijoiden kanssa. Nautin näistä hankkeista, koska ne haastoivat meidät ratkaisemaan mielenkiintoisia teknisiä ja algoritmisia ongelmia.

Miten Kielipankki liittyy tutkimukseesi?

Ehkä näkyvin panokseni Kielipankkiin on suomen kielen riippuvuusparseri (toki TurkuNLP:ssä sitä työsti moni meistä), jonka avulla Kielipankki tekee aineistosta helpommin tutkijoiden saatavilla olevaa. Parserin uusin versio tuo mukanaan huomattavan parannuksen tarkkuuteen kaikilla analyysitasoilla. Toivon, että jonain päivänä, kun lainsäädäntö vastaa nykyisiä kieliteknologian tarpeita, myös Internet-parseri ja muut laajamittaiset verkkopohjaiset aineistot voidaan liittää kielipankkiin.

Olemme luonnollisesti käyttäneet Kielipankin resursseja laajasti täällä TurkuNLP:ssä, ehkä eniten Suomi24-korpusta, erilaisissa tutkimushankkeissa sekä kielimallien koulutuksessa. Olemme myös hyötyneet valtavasti Kansalliskirjaston sanomalehtien ja aikakauslehtien OCR-korpuksesta historiantutkijoiden kanssa tekemässämme työssä.

En voi korostaa, miten tärkeää suomalaiselle NLP:lle on, että me kaikki annamme avoimia tietokokonaisuuksia ja ilmaisia työkaluja ja malleja Kielipankkiin ja myös säilytämme etumatkaamme laskennallisten resurssien suhteen, mistä LUMI on täydellinen esimerkki.

Käännöksen teki: www.DeepL.com/Translator (ilmaisversio)

Julkaisuja

J. Kanerva & F. Ginter & S. Pyysalo 2020. Turku Enhanced Parser Pipeline: From Raw Text to Enhanced Graphs in the IWPT 2020 Shared Task. Proceedings of the 16th International Conference on Parsing Technologies and the IWPT 2020 Shared Task on Parsing into Enhanced Universal Dependencies. DOI: 10.18653/v1/2020.iwpt-1.17

J. Kanerva & F. Ginter & T. Salakoski 2020. Universal Lemmatizer: A Sequence to Sequence Model for Lemmatizing Universal Dependencies Treebanks. Natural Language Engineering. DOI: 10.1017/S1351324920000224

J. Kanerva & F. Ginter & N. Miekka & A. Leino & T. Salakoski 2018. Turku Neural Parser Pipeline: An End-to-End System for the CoNLL 2018 Shared Task. Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. DOI: 10.18653/v1/K18-2013

A. Vesanto & A. Nivala & T. Salakoski & H. Salmi & F. Ginter 2017. A System for Identifying and Exploring Text Repetition in Large Historical Document Corpora. Proceedings of the 21st Nordic Conference on Computational Linguistics (NoDaLiDa). https://aclanthology.org/W17-0249

Työkaluja ja korpuksia (käytettävissä Kielipankin kautta)

Lisätietoa

 

FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki tähän saakka esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta. Tämä artikkeli julkaistaan myös Helsingin yliopiston humanistisen tiedekunnan verkkosivuilla.

 

Hae Kielipankki-portaalista:
Harri Uusitalo
Kuukauden tutkija: Harri Uusitalo

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot