<< List of all deliverables

DX.Y.Z: Title of Deliverable

Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months

WP x.y: Report on <topic of the deliverable>
Date of reporting: dd-mm-2023

Report authors: Firstname Lastname (Organization)
Contributors: Firstname Lastname (Organization)
Deliverable location: <link to, e.g., a GitHub repository, or other external location that includes further information or relevant content>

Keywords for the deliverable page: (any relevant keywords separated with semicolons; for search engines etc.)

Description

The description text (max. 3000 characters) may include the following, if applicable:

  • Links to external resources
  • Publications, if any (including DOI)
  • Events, if any (including links)

The publication-ready deliverable should be emailed as a MS Word document (or similar) to wilhelmina.dyster (ATT) helsinki.fi, Cc:krister.linden (ATT) helsinki.fi.

Deadline for deliverables due 2023-06: Send the content for your deliverable page by 26.5.2023.

FIN-CLARIAH Deliverables

<< FIN-CLARIAH Overview

This page will showcase the project deliverables in 2022-2023 (see template and instructions for reporting).

Module 1: Natural Language Processing (NLP)

W1.1 Text processing and annotation environments

D1.1.1 Updating LBF resource selection 2022-09
D1.1.2 Ingesting new unstructured resources 2023-12

W1.2 Speech processing and annotation

D1.2.1 Forced-Alignment Service 2022-09
D1.2.2 Transcription Service for Finnish Interviews 2023-09

W1.3 Noise-tolerant NLP

D1.3.1 Corpora of non-standard language 2022-09
D1.3.2 System for detecting toxic language 2023-06
D1.3.3 Language models 2023-09
D1.3.4 Noise-resistant models 2023-12

Module 2: Language Research Infrastructure

W2.1 Social Data Science

D2.1.1 Licensing agreements for personal data 2022-09
D2.1.2 Licensing agreements for special categories 2023-06

W2.2 Learners’ Assessment Environments

D2.2.1 Speech recognition for L2 2022-12
D2.2.2 Speech recognition for L2 update 2023-12

W2.3 Translation and Interpretation

D2.3.1 Licensing interpretation sessions 2022-12
D2.3.2 Aligning and retrieving interpretations 2023-12

W2.4 Terminology

D2.4.1 Term discovery procedures 2022-09
D2.4.2 Terminology application 2023-06
D2.4.3.1 Initializing terminology collections 2022-09
D2.4.3.2 Initializing terminology collections 2023-06
D2.4.3.3 Initializing terminology collections 2023-12

W2.5 Solutions for better use of language learner performances in research

D2.5.1 Test performances storage 2022-12
D2.5.2 Learner performances tools 2023-12

Module 3: Structuring Data

W3.1 Increasingly automated ingestion of material

D3.1.1 Initial NLF data 2022-09
D3.1.2 Ingestion framework 2022-12
D3.1.3 Versioning support 2023-06
D3.1.4 Incremental update process 2023-12

W3.2 AI solutions to better use of National Archives mass digitisation services

D3.2.1 Pipeline for transferring archival data 2022-12 2023-06
D3.2.2 Annotation tools for NARC data 2023-12

W3.3 AI solutions to better use of textual qualitative survey data

D3.3.1 Qualitative survey data concept network 2022-09
D3.3.2 Browser for data concept network 2023-09

W3.4 Developing analysis methods for real-time chats in gameplay streams

D3.4.1 Livestream data collector 2022-12

W3.5 Developing analysis methods for text network analysis of political texts

D3.5.1 Text network analysis of political texts 2022-12 2023-06
D3.5.2 TNA network of Parliamentary debates 2023-09

Module 4: Analyzing Structured Data

W4.1 Metadata harmonization and analysis

D4.1.1 Harmonized FNB 2022-09
D4.1.2 Harmonization code 2022-12
D4.1.3 Visualisation workflow 2023-06
D4.1.4 R/Python modules 2023-12

W4.2 Linked Open Data Services

D4.2.1 LDF knowledge extraction tools 2022-12
D4.2.2 Parliament of Finland ontology 2023-12

W4.3 Subsetting data

D4.3.1 Subsetting tool 2022-09
D4.3.2 Statistical overviews and bias detection 2023-06
D4.3.3 Intelligent noise reduction 2023-12

Module 5: Information Interaction

W5.1 Evidence-based RI development

D5.1.1 User experience questionnaire 2022-09
D5.1.2 Log data collection and analysis 2023-06
D5.1.3 Protocol for collecting workshop data 2023-12

W5.2 Education and dissemination

D5.2.1 Actor network 2022-12
D5.2.2 Educational material 2023-12

Top of page

<< FIN-CLARIAH Overview

Kielipankki Live

In English

Kielipankki Live on verkkotapahtumien sarja, jossa haastatellaan tutkijoita ja keskustellaan ajankohtaisista Kielipankkiin liittyvistä aiheista. Tapahtumissa tallennetut esitykset julkaistaan jälkikäteen YouTubessa (katso linkit aiempien tapahtumien kohdalta). Kun haluat pysyä ajan tasalla Kielipankki Live -tilaisuuksista ja muista Kielipankin uutisista, tilaa uutiskirje!

Seuraava Kielipankki Live 14.12.2020 klo 13-15


kuva äänen aaltomuodosta

Pääaihe: Puhetta sisältävät tutkimusaineistot ja niiden tietosuojakäytänteet
Luvassa asiantuntevia vieraita ja keskustelua! Esitykset pidetään englanniksi, mutta kysymyksiä voi esittää myös suomeksi. Tilaisuus alkaa klo 13.00 ja päättyy joustavasti, kuitenkin viimeistään klo 15.

Ohjelma

  • Mietta Lennes: Ajankohtaisia asioita Kielipankissa
  • Krister Lindén: Tietoisku kieliaineistojen oikeudellisista kysymyksistä
  • Haastattelussa Rosa González Hautamäki ja Tomi Kinnunen: Kokemuksia AVOID-korpuksen ja muiden puheaineistojen keräämisestä ja jakamisesta puheteknologiseen tutkimukseen
  • Satu Saalasti: DELAD-projekti tähtää poikkeavan puheen aineistojen jakamiseen tutkijoille
  • Aleksi Rossi: Lyhyt tilannekatsaus Lahjoita puhetta -kampanjan tilanteesta
  • Questions & Answers: Kysy Kielipankin henkilökunnalta ja asiantuntijoilta
  • Avoin keskustelu

Ilmoittautuminen

Ilmoittaudu tapahtumaan tällä lomakkeella viimeistään 11.12.2020. Ilmoittautumisen yhteydessä voit esittää kysymyksiä tutkijavieraille ja Kielipankin asiantuntijoille. Myös tapahtuman aikana on mahdollisuus kysyä ja keskustella.

Kaikille ennakkoon ilmoittautuneille lähetetään liittymislinkki Zoom-alustalle ennen tilaisuuden alkua. Myös ennakkoilmoittautumisen päätyttyä voit saada liittymislinkin lähettämällä sähköpostia osoitteeseen fin-clarin [AT] helsinki.fi.

Kielipankki Live -tapahtumat tallennetaan

Huomaathan, että Kielipankki Live -tapahtumat tallennetaan ja videotallenteen keskeiset osuudet julkaistaan verkossa jälkikäteen. Jos et halua kuvasi tai äänesi olevan mukana tallenteessa, pidäthän kameran ja mikrofonin pois päältä tapahtuman aikana. Keskusteluun voi osallistua myös chatissa. Tapahtuman osallistujien nimiä tai yhteystietoja ei julkaista.


Kaikki Kielipankki Live -tapahtumat

  • 14.12.2020 klo 13-15 (Ilmoittaudu tapahtumaan)
  • 24.8.2020

In English

XLVI Kielitieteen päivät 16.–18. toukokuuta 2019

järjestetään Joensuussa Itä-Suomen yliopistossa. Tapahtuman teemana on kieli, elämä ja yhteiskunta. Myös Kielipankki näkyy paikan päällä ja etenkin perjantaiaamupäivällä 17.5. saatat bongata yliopistolla ihmisiä, joilla on yllään vaaleansininen possupaita… Vedä meitä hihasta, poikkea esittelypisteellä tai tule kuuntelemaan esitelmiä!

Kielipankki-aiheisten esitysten alustava aikataulu

Kielitieteen päivien päivitetty ohjelma ja lisätiedot

Tervetuloa tutustumaan Kielipankkiin esittelypisteellä konferenssin aikana!

Suomeksi

The XLVI Annual Conference of Linguistics

will be organized in Joensuu by the University of Eastern Finland. The theme of the conference is language, life, and the society. The Language Bank of Finland will be present during the conference and especially on Friday morning, you might notice some people wearing a pale blue t-shirt with a happy piglet… Come and talk to us, visit our stand or see our presentations!

Pre-final schedule of the presentations related to the Language Bank of Finland:

  • Thursday 16.5. 16:30 room AG106 / Selkokielen työpaja (Klaara-verkosto):
    Kielipankin selkosuomen aineistot (The Easy-to-read Finnish corpora in the Language Bank of Finland; Hanna Westerlund)
  • Friday 17.5.  10:00-10:30 room AG101:
    Kielipankin kiertue 2019: Työkalut, aineistot ja muut palvelut (Kielipankki Roadshow 2019: Tools, corpora and other services; Mietta Lennes)

Updated programme and further information about the Annual Conference of Linguistics

Welcome to meet Kielipankki, The Language Bank of Finland at its stand during the conference!

Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”

Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)

The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.

Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)

Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.

Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”

Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)

The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.

Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)

Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.

FIN-CLARIN ja Kielipankki kansainvälisesti esillä Tour de CLARIN -kirjassa

Darja Fišer ja Jakob Lenardič, toim. (2018). Tour de CLARIN – Volume One (pdf-versio)

CLARIN ERIC on koostanut näyttävän julkaisun vuonna 2016 alkaneelta Tour de CLARIN -esittelykierrokselta, jossa CLARIN-jäsenmaat ja niiden aineistot, työkalut ja tutkimushankkeet pääsevät vuorotellen valokeilaan. Juuri ilmestyneessä Tour de CLARIN -kokoelman ykkösosassa esitellään ihan ensimmäisenä suomalainen FIN-CLARIN. Julkaisussa ovat mukana myös Ruotsi, Itävalta, Alankomaat, Puola, Belgian Flanderi, Tšekin tasavalta, Kreikka sekä Liettua.

Tour de CLARIN -kierros jatkuu ja sitä voi seurata tuoreeltaan CLARIN ERICin verkkosivuilta.

Hyvä Suomi!

Get to know the Language Bank of Finland

The quickest way to explore the Language Bank’s services is to try the Korp interface where many of our corpora are deposited and can be queried without logging in or applying for access rights of the language resources. Korp features e.g. the Suomi 24 discussion forum corpus that is interesting from the points of view of several digital humanities and social sciences.

Other good ways to begin are the Newspaper and Periodical Corpus of the National Library of Finland and the Plenary Sessions of the Parliament of Finland, which are also available for download in addition to Korp.

Introductory videos

Presentation in Tiedekulma (Think Corner) on 8.11.2016. The video includes English subtitles.
Poster of the Language Bank of Finland (Kielipankki)
A poster of the services offered by Kielipankki – the Language Bank of Finland and FIN-CLARIN

Roadshow events

Every year, the Language Bank of Finland is presented in Roadshow events that are organized at each of the member organizations of FIN-CLARIN. Come and see how you could use the services of the Language Bank in your research!

Roadshow schedule:

2020:

2019:

Presentations and examples from the roadshow in 2016–2017

Presentation of FIN-CLARIN and the Language Bank of Finland (from the 20th Jubilee Roadshow) Presentation of FIN-CLARIN and the Language Bank of Finland (pdf)
How to search for the words ”mieleni pahoitin” from the Suomi 24 Sentences corpus in Korp and show the trend diagram (no soundtrack)

Kuukauden tutkija: Risto Turunen

Kuva Risto Turusesta

kuva: Risto Turunen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tampereen yliopiston tohtorikoulutettava Risto Turunen kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.

Kuka olet?

Olen Risto Turunen. Teen historiatieteen väitöskirjaa Tampereen yliopiston yhteiskunta- ja kulttuuritieteiden yksikössä.

Mikä on tutkimuksesi aihe?

Suomessa oli Euroopan suurin sosialistinen puolue vuonna 1907. Tutkin sosialismin läpimurtoa erityisesti kielen näkökulmasta. Minkälainen diskurssi, käsitejärjestelmä tai poliittinen kieli suomalainen sosialismi oikeastaan oli? Etenkin työväenlehdistö kylvi tehokkaasti sosialismin siementä kansan keskuuteen. Miltei kaikki suomenkieliset sanomalehdet on digitoitu vuoteen 1910 saakka. Koska lehdet ovat koneluettavassa muodossa, voin tutkia sosialismin kieltä makrotasolla kvantitatiivisin menetelmin.

Miten Kielipankki liittyy tutkimukseesi?

Olen tutkinut näitä lehtiä muun muassa Kielipankin Korp-käyttöliittymän avulla. Voin esimerkiksi selvittää, milloin ”sosialismi” yleistyy sanana koko lehdistössä tai mitkä yksittäiset lehdet kirjoittavat eniten ”sosialismista”. Lisäksi olen vertaillut ”sosialismin” kielellistä esiintymiskontekstia sosialistisissa ja ei-sosialistisissa lehdissä. Vertailu paljastaa, millaisia merkityksiä aatteen kannattajat ja vastustajat yrittävät liittää sanaan.

Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman hankinnan taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Hanna Westerlund

kuva Hanna Westerlundista

kuva: Mika Federley

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Hanna Westerlund kertoo Kielipankissa olevia laki- ja säädöskielen aineistoja koskevasta tutkimuksestaan.

Kuka olet?

Olen Hanna Westerlund, käännöstieteen tutkijakoulutettava kielentutkimuksen tohtorikoulutusohjelmassa.

Mikä on tutkimuksesi aihe?

Olen kiinnostunut kollokaatioista eli yhteisesiintymistä kääntäjän haasteena ja kielentutkimuksen mahdollisuuksista selvittää kollokaatioiden tunnistamiseen ja tuottamiseen liittyviä kysymyksiä. Varsinainen tutkimusaineistoni koostuu Euroopan unionin suomeksi käännetyistä asetuksista, joista olen koonnut tekstikorpuksen Suomen yhteisöön liittymisen ajalta. Verrannaisaineisto sisältää vastaavia Suomen lainsäädännön tekstejä.

Miten Kielipankki liittyy tutkimukseesi?

Pidän tärkeänä selvittää ainakin osittain, mitä tutkimusaineistosta löytämilleni esiintymille on ajan mittaan tapahtunut: ovatko käännösten mukana suomalaiseen säädöskieleen saapuneet yhteisesiintymät edelleen löydettävissä säädöskokoelmasta, ovatko ne syrjäyttäneet kotoperäiset vaihtoehdot vai elävätkö ne kaikki teksteissä rinnakkain. Tekstikorpuksen kokoaminen, käsittely ja hallinnointi ovat osoittautuneet sekä teknisesti että laadullisesti haastaviksi ja aikaa vieviksi tehtäviksi, ja vastaavan aineiston kokoaminen nykyisestä säädöskokoelmasta olisi minulle täysin mahdoton tehtävä. Onneksi ei tarvitsekaan: Kielipankki tarjoaa tutkimustani varten sekä teknisesti puhtaan ja luotettavan laeista ja direktiiveistä koostuvan aineiston että työkaluja aineiston käsittelyyn. Tutkimukseni toisen osion toteuttamisessa Kielipankin laki- ja säädöskielen aineistot ovat aivan korvaamattomia.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Mitä voin lainata Kielipankista?

Tutkijat kertovat miten he hyödyntävät Kielipankin aineistoja: http://bit.ly/2g6Ds1J.

Kuukauden tutkija: Markus Hamunen

Kuva Markus Hamusesta

kuva: Mika Federley

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Markus Hamunen kertoo useita Kielipankissa olevia murreaineistoja koskevasta tutkimuksestaan.

Kuka olet?

Olen Markus Hamunen ja olen tohtorikoulutettavana kielentutkimuksen koulutusohjelmassa suomen kielen oppiaineessa. Väitöstutkimukseni käsittelee toiminnan tapaa ja keinoa kuvaavia infiniittisiä verbirakenteita murrepuheessa (esim. männä koekkelehtii, tuloo juoste, tekköö salvaamala).

Mikä on tutkimuksesi aihe?

Tutkimukseni kiinnittyy konstruktiokieliopin nimellä kulkevaan kielenkuvausmalliin. Selvittelen toisaalta sitä, miten tavan ja keinon käsitteet ilmenevät ko. infinitiivirakenteiden semantiikassa ja mitä on tapa ja keino ylipäätään ja toisaalta sitä, kuinka rakenteita on käytetty suomen murteissa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankin murreaineistoja sisältävistä korpuksista erityisesti Digitaalinen muoto-opin arkisto (dma), Lauseopin arkisto (LA-murre-korp) sekä Suomen kielen näytteitä -korpus (SKN-korp) ovat olleet erittäin hyödyllisiä täsmähaun mahdollistavien toimintojensa ansiosta. Tutkimani infinitiivirakenteet eivät ole frekventtejä murrepuheessa, joten korpustyökalut ovat olleet tehokas apu aineiston hankinnassa.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Auroora Vihervalli

Kuva Auroora Vihervallista

kuva: Auroora Vihervalli

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston filosofian maisteri Auroora Vihervalli kertoo, miten hän hyödynsi Kielipankissa olevaa Ylilauta-korpusta 2010-luvun nettikieltä koskevassa tutkielmassaan.

Kuka olet?

Olen Auroora Vihervalli, filosofian maisteri Helsingin yliopistosta. Pääaineeni oli suomen kieli. Pro gradu -tutkielmani valmistui huhtikuussa.

Mikä on tutkimuksesi aihe?

Tutkin pro gradu -tutkielmassani abessiivisijaisten nominien käyttöfunktioita 2010-luvun nettikielessä. Tiivistettynä tavoitteenani oli tutkia abessiivisijaisten nominien käyttöä, valinnaisuutta ja välttämättömyyttä lauseessa sekä kiteytymistä – toisin sanoen abessiivinominien käyttöfunktioita erilaisissa konteksteissa.

Miten Kielipankki liittyy tutkimukseesi?

Tutkielmani aineiston abessiivit on kerätty Kielipankin kautta. Käytin Ylilauta-korpusta, joka on morfologisesti koodattu Kielipankin Korp-konkordanssihakuohjelmaan. Haun avulla kokosin aineistoni.

Koska abessiivinominit ovat jokseenkin harvinaisia, olisi niiden etsiminen omin päin ollut hidasta. Kielipankin Ylilauta-korpus oli tutkimukselleni juuri sopiva, sillä sen aineisto on kerätty vuosilta 2012–2014 ja se edustaa vapaata, tarkastamatonta kieltä.

Kielipankissa olevan Ylilauta-korpuksen hankinnan taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Tuija Määttä

Kuva Tuija Määtästä

kuva: Tuija Määttä

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Uumajan yliopiston suomen kielen lehtori ja tutkija Tuija Määttä kertoo, miten hän hyödyntää Kielipankissa olevaa Kansainvälistä oppijansuomen korpusta.

Kuka olet?

Olen Tuija Määttä, suomen kielen lehtori ja tutkija Uumajan yliopiston Kieliopintojen laitoksessa (Institutionen för språkstudier, Umeå universitet). Virkani on opetusvirka, ja opetan hyvin erilaisilla kursseilla aina alkeistason opiskelijoista tohtorikoulutettaviin asti. Tutkimustyötä teen vapaa-ajallani.

Mikä on tutkimuksesi aihe?

Minua on aina kiehtonut eniten alkeistason opiskelijoiden suomen kielen oppiminen, omaksuminen ja kehittyminen. Niinpä olen viimeisten vuosien aikana tarkastellut useista näkökulmista, miten ruotsinkieliset suomenoppijat käyttävät suomen eri paikallissijoja kirjallisissa tuotoksissaan. Toinen mielenkiintoinen tutkimuskohde on sanasto. Aineistona käytän Kansainvälistä oppijansuomen korpusta (ICLFI), johon kuuluu osana ruotsinkielisiltä suomenoppijoilta kerätty osakorpus. Osakorpuksen tekstit ovat peräisin juuri Uumajasta, ja olen kerännyt niitä alkeistason oppijoiltani jo kymmenen vuoden ajan.

Miten Kielipankki liittyy tutkimukseesi?

ICLFI-korpus on nykyisin Kielipankissa. ICLFI-hanke aloitettiin vuonna 2007 professori Jarmo Jantusen aloitteesta. Olen ollut alusta lähtien mukana tässä hankkeessa, jonka yhtenä tavoitteena oli luoda laajahko oppijansuomen korpus, joka sisältää eri äidinkielisten suomenoppijoiden kirjallisia tuotoksia. Nyt, kun korpus on yli miljoonan saneen laajuinen, on hienoa, että se on avoin ja helposti saatavilla Kielipankin kautta kaikille oppijansuomesta kiinnostuneille tutkijoille.

Kielipankissa olevan ICLFI-korpuksen taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Antti Kanner

Kuva Antti Kannerista

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä.Helsingin yliopiston tohtorikoulutettava Antti Kanner kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.

Kuka olet?

Olen Antti Kanner, tohtorikoulutettava suomen kielen oppiaineessa ja kielentutkimuksen tohtorikoulutusohjelmassa. Väitöskirjani käsittelee leksikaalista semantiikkaa, polysemiaa ja merkityksen historiallista variaatiota suurissa tekstiaineistoissa.

Mikä on tutkimuksesi aihe?

Tutkimukseni liittyy toisaalta Tieteen kansalliseen termipankkiin, erityisesti sosiaalioikeuden termistön kehittymiseen sillä tutkimani sanat liittyvät juuri sosiaalipolitiikan ja -oikeuden kehittymiseen ja toisaalta julkisuuden muutosta Suomessa 1640-1910 tutkivaan COMHIS-hankkeeseen.

Miten Kielipankki liittyy tutkimukseesi?

Tutkimukseni pääasiallinen aineisto on Kansalliskirjaston sanomalehtikorpus, jota täydennän jonkin verran myös muilla Kielipankin korpusaineistoilla. Käytän aineistoja Korp-palvelun API:n kautta, jolloin voin sekä ajaa automaattisesti pitkiäkin kyselylistoja ja saada yksityiskohtaisia konteksti- ja frekvenssitietoja suuresta määrästä hakusanoja, että hyötyä aineistojen morfologisesta annotoinnista.

Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Kirsi-Maria Nummila

Kuva Kirsi-Maria Nummilasta

kuva: Turun yliopisto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Turun yliopiston suomen kielen dosentti Kirsi-Maria Nummila kertoo useita Kielipankissa olevia aineistoja koskevasta tutkimuksestaan.

Kuka olet?

Olen filosofian tohtori ja suomen kielen dosentti Kirsi-Maria Nummila. Toimin tällä hetkellä opetus- ja tutkimustehtävissä Turun yliopiston kieli- ja käännöstieteiden laitoksella suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa.

Mikä on tutkimuksesi aihe?

Keskeisiä tutkimusaiheitani ovat sanastontutkimus, sananmuodostus, kielen kehitys, kielikontaktit ja vanha kirjasuomi. Olen tarkastellut ja tarkastelen tutkimuksissani omaperäistä kompleksista sanastoa, pääasiassa johdoksia ja johdostyyppien kehitystä, lainasanastoa ja keskiaikaista nimistöä, vanhalle kirjasuomelle tyypillisiä konstruktioita, syntaktista ja morfologista lainaamista sekä historiallista koodinvaihtoa.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt ja käytän Kielipankin aineistoja tai aineistoja, joita Kielipankki nykyään tarjoaa, lähestulkoon kaikissa tutkimuksissani. Omien tutkimusteni ja tutkimusintressieni kannalta Kielipankin korpukset muodostavatkin keskeisimmän aineistolähteen. Tärkeimpinä korpuksina mainittakoon Digitaalinen muoto-opin arkisto, Suomen kielen tekstikokoelma, Kansalliskirjaston sanoma- ja aikakauslehtikokoelma sekä hiljattain Kielipankin aineistoihin liitetty Vanhan kirjasuomen korpus. On hienoa, että myös Suomen Akatemian rahoittamassa monivuotisessa hankkeessa tuotettu Mikael Agricolan teosten morfosyntaktinen tietokanta, jota olen itse ollut laatimassa, julkaistaan Kielipankissa lähitulevaisuudessa.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Artikkeli Kielipankista Helsingin yliopiston etusivulla

Linkki artikkeliin: https://www.helsinki.fi/fi/uutiset/kielipankki-sailoo-kielta-ja-kulttuuria

Kuukauden tutkija: Mihail Kopotev

Kuva Mihail Kopotevista

kuva: Mihail Kopotev

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä.

Kuka olet?

Olen Mihail Kopotev ja toimin Helsingin yliopiston nykykielten laitoksella venäjän kielen yliopistonlehtorina.

Kuinka käytät Kielipankkia opetuksessa?

Suomi–venäjä-kääntämisen käytäntöjä käsittelevällä kurssillani käytän muun muassa Kielipankin kaunokirjallisten tekstien suomi–venäjä-rinnakkaiskorpusta (ParFin). Kurssiin osallistujilla on mahdollisuus tehdä sekä käytännön käännösharjoituksia että omaa tutkimusta. Opiskelijoilta saatu palaute on ollut hyvin positiivista. Suurin osa heistä ei ole kuulut aineistosta ennen, mutta he aikovat käyttää sitä jatkossa työssään.

Rinnakkaiskorpuksesta on moninaista hyötyä kääntäjille ja opettajille. Sen suurin etu on, että se mahdollistaa sanojen ja sanayhdistelmien vastineiden etsimisen autenttisissa käännösaineistoissa. Muuntyyppiset korpukset tai sanakirjat eivät voi tarjota näin vaikuttavaa ja rikasta aineistoa, jota voi käyttää sekä vertailussa että yksittäisten käännöspäätösten tekemisessä.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Marko Pantermöller

Kuva Marko Pantermölleristä

kuva: Kilian Dorner

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Greifswaldin yliopiston suomen kielen ja kulttuurin professori Marko Pantermöller kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.

Kuka olet?

Olen Marko Pantermöller, saksalainen fennisti, ja toimin Greifswaldin yliopiston suomen kielen ja kulttuurin professorina. Greifswaldissa suomen kielen tutkimuksella ja opiskelulla on pitkät perinteet, jotka ulottuvat 1920-luvun alkuun.

Mikä on tutkimuksesi aihe?

Olen kiinnostunut kielen pitkäkestoisista muutosprosesseista ja niiden takana olevista muutosmekanismeista. Tuoreimmassa tutkimuksessani käsittelen nykyään samoissa kontekstissa kilpailevia ilmaustyyppejä, sellaisia kuin lämpötila nousee yli kolmenkymmenen asteen vs. lämpötila nousee yli kolmeenkymmeneen asteeseen. Viimeksi mainittu kielenkäyttöön jo vakiintunut rakenne pistää varmasti juuri sellaisten ihmisten korvaan, joilla on lähinnä normatiivinen näkökulma kieleen tai jotka, niin kuin minä, ovat oppineet suomea normatiivisen kielididaktiikan ohjaamina. Rakenteen lingvistinen kiinnostavuus johtuu siitä, että se tuntuu ilmaisevan samanaikaisesti rajanylityksen ja päätepisteen. Kutsun sitä sen vuoksi pseudoterminatiiviseksi rakenteeksi.

Pseudoterminatiivista rakennetta koskeva tutkimus on empiirinen pilottitutkimus, joka sijoittuu osaksi laajempaa likimäärän ilmaisujen kehitystä koskevaa tutkimushankettani.

Miten Kielipankki liittyy tutkimukseesi?

Pilottitutkimukseen sovelsin kahta eriluonteista empiiristä menetelmää, jotka tunnetaan nimillä näennäisaikamenetelmä ja reaaliaikamenetelmä. Näennäisaikamenetelmän perusteena käytin laajan kyselyn tuloksia. Kyselyn puitteessa yli tuhat eri-ikäistä osallistujaa lausui mielipiteensä kilpailevista ilmaustyypeistä. Lähtemällä liikkeelle oletuksesta, jonka mukaan iäkkäämpien henkilöiden kielenkäyttö edustaa kielenkehityksen aikaisempaa vaihetta ja vastaavasti nuorempien nykyisempää vaihetta, pystyin mallintamaan kielen mahdollista kehitystä.

Alustavaan hypoteesiini etsin ja sain vahvistusta Kielipankin Korp-palvelun tarjoamasta Kansalliskirjaston lehtikorpuksesta. Löysin korpuksen avulla vastauksen siihen, milloin pseudoterminatiivista rakennetta alettiin käyttää lehtikielessä. Pystyin myös reaaliaikaisesti seuraamaan, mistä kontekstista muutos on lähtenyt liikkeelle ja miten pseudoterminatiivisen rakenteen käyttö on pikkuhiljaa kasvanut. Poimintojen jälkikäsittelyssä hyödynsin Korpin export-funktiota. Laajan lehtikorpuksen hyödyntämistä tutkimuksessa edisti se, että korpuksen järjestelyperiaate on puhtaasti kronologinen. Kyselyssä esille tulleet maallikkojen väitteet ilmaisun mahdollisesta murrelähtöisyydestä tarkistin muun muassa Kielipankin digitaalisen muoto-opin arkiston aineiston avulla.

Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman hankinnan taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.