<< List of all deliverables

D1.1.2: Ingesting new unstructured resources

Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months

WP 1.1: Report on ingesting new unstructured resources
Date of reporting: 30-11-2023

Report authors: Mietta Lennes, Jussi Piitulainen (University of Helsinki)
Contributors: Ute Dieckmann, Erik Axelson, Jyrki Niemi, Jack Rueter, Tommi Jauhiainen, Krister Lindén (University of Helsinki)
Deliverable location: Corpora and tools available via the Language Bank of Finland

Keywords for the deliverable page: corpus, data set, automatic language identification

Description

The Newspaper and Periodical Corpus of the National Library of Finland was extended with a significant amount of new material from the National Library. The new version was organized according to the automatically identified language of each sentence. The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (klk-fi-v2), consisting of more than 22 billion word tokens, was published in Korp in summer 2023. It consists of the text elements that contain at least one ”fin” sentence (from the new material, from the previous version of klk-fi, and from the previous klk-sv). Moreover, the summary attributes indicate the frequency distribution of languages within each text and each paragraph. An extended version of the Swedish sub-corpus (klk-sv-v2) has been compiled in a similar way (any ”swe” in a text), but the Swedish data is currently still waiting for the rest of the annotations to be completed. For details of the reorganization process of the National Library data according to language, see Jauhiainen et al. 2022.

The HeLI-OTS language identification tool was adapted for the format used in the Language Bank of Finland, together with a post-processor written to correct the identification of each sentence within its context. Another new tool was written to partition the corpus, first by the main identified languages, then by the year of publication.

As a demonstration of ingesting resources including parallel spoken material in multiple languages, the corpus Christmas Gospel text-to-speech in four Uralic languages was prepared and made available for searching and playback via Korp (for details on this effort, see D2.3.2).

Other corpora published in Korp during the years 2022-23 include, e.g., the Finnish News Agency Archive 1992-2018, Kielipankki Korp Version; Corpus of Contemporary American English (COCA) – Kielipankki Korp version 2020 and Erzya and Moksha Extended Corpora (ERME) version 2, Korp.

In addition, various downloadable resources were published, e.g., Corpus of Contemporary American English – Kielipankki VRT version 2020; FinnTreeBank 1, 2 and 3; Word embeddings trained with word2vec from the Finnish Text Collection; The Coronavirus Corpus (Mark Davies, english-corpora.org) – Kielipankki version 2021-05; and The Finnish Dark Web Marketplace Corpus.

During the project, the resource publication pipeline of the Language Bank of Finland has been refined and documented. The structure of the pipeline was first presented at the CLARIN Annual Conference in 2022 and described in the conference proceedings (Dieckmann & al., 2023, see below).

Publications

  • Jauhiainen, T., Piitulainen, J., Axelson, E., Lindén, K. (2022) Language diversity in the newspaper and periodical corpus of the National Library of Finland. Poster presented at Digital Research Data and Human Sciences (DRDHum), 1.-3.12.2022, Jyväskylä, Suomi. Download the poster
  • Dieckmann, U., Lennes, M., Piitulainen, J., Niemi, J., Axelson, E., Jauhiainen, T., Lindén, K. (2023) The Pipeline for Publishing Resources in the Language Bank of Finland. Erjavec, T., Eskevich, M. (editors), Selected Papers from the CLARIN Annual Conference 2022, pp. 33-43. Linköping University Electronic Press.

<< List of all deliverables

DX.Y.Z: Title of Deliverable

Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months

WP x.y: Report on <topic of the deliverable>
Date of reporting: dd-mm-2023

Report authors: Firstname Lastname (Organization)
Contributors: Firstname Lastname (Organization)
Deliverable location: <link to, e.g., a GitHub repository, or other external location that includes further information or relevant content>

Keywords for the deliverable page: (any relevant keywords separated with semicolons; for search engines etc.)

Description

The description text (max. 3000 characters) may include the following, if applicable:

  • Links to external resources
  • Publications, if any (including DOI)
  • Events, if any (including links)

The publication-ready deliverable should be emailed as a MS Word document (or similar) to wilhelmina.dyster (ATT) helsinki.fi, Cc:krister.linden (ATT) helsinki.fi.

Deadline for deliverables due 2023-12: Send the content for your deliverable page by 22.11.2023.

FIN-CLARIAH Deliverables

<< FIN-CLARIAH Overview

This page showcases the project deliverables (see template and instructions for reporting).

FIN-CLARIAH Funding period 2024-2025
FIN-CLARIAH Funding period 2022-2023 (Completed)

FIN-CLARIAH Funding period 2024-2025

Module 1: Natural Language Processing (NLP)

W1.1 Text processing and annotation environments

D1.1.1 Named-entity annotation 2024-09
D1.1.2 Ingesting new unstructured resources 2025-12

W1.2 Speech processing and annotation

D1.2.1 Data collection for minority languages 2024-09
D1.2.2 Transcription service for minority languages 2025-09

W1.3 Video processing and annotation

D1.3.1 Tools and guidelines for video processing 2025-06

Module 2: Language Research Infrastructure (LRI)

W2.1 Personal and Copyrighted Research Data

D2.1.1 Integrate environment for personal data 2024-09

W2.2 Training environments

D2.2.1 Transformer training for specialised data 2024-12
D2.2.2 Transformer adaptation for specialised data 2025-12

W2.3 Translation and Interpretation

D2.3.1 Remote access to text data repositories 2024-12
D2.3.2 Remote access to video data repositories 2025-12

W2.4 Terminology

D2.4.1 Term definition discovery procedures 2024-09
D2.4.2 Initializing terminology collections 2025-12

Module 3: Structuring Data

W3.1 Data Management

D3.1.1 Comprehensive data versioning 2024-09
D3.1.2 Workflow automation and version syncing 2025-09

W3.2 Data Ingestion

D3.2.1 Ingestion of structured data from Finna (NLF) 2025-03
D3.2.2 Ingestion of heritage and societal data from Sampo 2025-06
D3.2.3 Ingestion of multimodal societal data from the Web 2025-12

W3.3 Enrichment

D3.3.1 Automated metadata of archival data from NARC 2025-03
D3.3.2 Automated harmonisation and enrichment of metadata 2024-12
D3.3.3 Machine-learning -based enrichment of social media 2025-06
D3.3.4 Computer vision -based enrichment of multimodal data 2025-09

Module 4: Analyzing Structured Data

W4.1 Analytical Support for computational SSH

D4.1.1 Analysis of video stream interactions with AI solutions 2024-09
D4.1.2 Analysis tools for multimodal born-digital social media 2024-12
D4.1.3 Access to social media interaction in digital networks 2025-06
D4.1.4 Analysis of multimodal properties of naturalistic speech 2025-12
D4.1.5 Analysis of regional language variation in social media 2025-03
D4.1.6 Analysis of multimodal cultural heritage 2025-12
D4.1.7 Enrich survey data w. register data and unstructured text 2025-06

Module 5: Information Interaction (IIA)

W5.1 Evidence-Based Infrastructure Development

D5.1.1 Community engagement: multim. societal data researchers 2024-09
D5.1.2 Community engagement: multim. heritage researchers 2025-06
D5.1.3 Evidence-based infrastructure development 2024-12
D5.1.4 Educational resource development 2025-12


FIN-CLARIAH Funding period 2022-2023

Completed

Module 1: Natural Language Processing (NLP)

W1.1 Text processing and annotation environments

D1.1.1 Updating LBF resource selection 2022-09
D1.1.2 Ingesting new unstructured resources 2023-12

W1.2 Speech processing and annotation

D1.2.1 Forced-Alignment Service 2022-09
D1.2.2 Transcription Service for Finnish Interviews 2023-09

W1.3 Noise-tolerant NLP

D1.3.1 Corpora of non-standard language 2022-09
D1.3.2 System for detecting toxic language 2023-06
D1.3.3 Models for retrieving QA pairs from the web 2023-09
D1.3.4 QA pair corpora 2023-12

Module 2: Language Research Infrastructure

W2.1 Social Data Science

D2.1.1 Licensing agreements for personal data 2022-09
D2.1.2 Licensing agreements for special categories 2023-06

W2.2 Learners’ Assessment Environments

D2.2.1 Speech recognition for L2 2022-12
D2.2.2 Speech recognition for L2 update 2023-12

W2.3 Translation and Interpretation

D2.3.1 Licensing interpretation sessions 2022-12
D2.3.2 Aligning and retrieving 2023-12

W2.4 Terminology

D2.4.1 Term discovery procedures 2022-09
D2.4.2 Terminology application 2023-06
D2.4.3.1 Initializing terminology collections 2022-09
D2.4.3.2 Initializing terminology collections 2023-06
D2.4.3.3 Initializing terminology collections 2023-12

W2.5 Solutions for better use of language learner performances in research

D2.5.1 Test performances storage 2022-12
D2.5.2 Analysis and annotation tools for learner performances 2023-12

Module 3: Structuring Data

W3.1 Increasingly automated ingestion of material

D3.1.1 Initial NLF data 2022-09
D3.1.2 Ingestion framework 2022-12
D3.1.3 Versioning support 2023-06
D3.1.4 Incremental update process 2023-12

W3.2 AI solutions to better use of National Archives mass digitisation services

D3.2.1 Pipeline for transferring archival data 2022-12 2023-06
D3.2.2 Annotation & analysis tools for NARC data 2023-12

W3.3 AI solutions to better use of textual qualitative survey data

D3.3.1 Qualitative survey data concept network 2022-09
D3.3.2 R package for data concept network 2023-09 2023-12

W3.4 Developing analysis methods for real-time chats in gameplay streams

D3.4.1 Livestream data collector 2022-12

W3.5 Developing analysis methods for text network analysis of political texts

D3.5.1 Text network analysis of political texts 2022-12 2023-06
D3.5.2 Text network analysis of political texts 2023-09 2023-12

Module 4: Analyzing Structured Data

W4.1 Metadata harmonization and analysis

D4.1.1 Harmonized FNB 2022-09
D4.1.2 Harmonization code 2022-12
D4.1.3 Visualisation workflow 2023-06
D4.1.4 R/Python module 2023-12

W4.2 Linked Open Data Services

D4.2.1 LDF knowledge extraction tools 2022-12
D4.2.2 Parliament of Finland Ontology 2023-12

W4.3 Subsetting data

D4.3.1 Subsetting tool 2022-09
D4.3.2 Statistical overviews and bias detection 2023-06
D4.3.3 Representative Twitter dataset 2023-12

Module 5: Information Interaction

W5.1 Evidence-based RI development

D5.1.1 User experience questionnaire 2022-09
D5.1.2 Log data collection and analysis 2023-06
D5.1.3 Protocol for collecting workshop data 2023-12

W5.2 Education and dissemination

D5.2.1 Actor network 2022-12
D5.2.2 Educational material 2023-12

Top of page

<< FIN-CLARIAH Overview

Kielipankki Live

In English

Kielipankki Live on verkkotapahtumien sarja, jossa haastatellaan tutkijoita ja keskustellaan ajankohtaisista Kielipankkiin liittyvistä aiheista. Tapahtumissa tallennetut esitykset julkaistaan jälkikäteen YouTubessa (katso linkit aiempien tapahtumien kohdalta). Kun haluat pysyä ajan tasalla Kielipankki Live -tilaisuuksista ja muista Kielipankin uutisista, tilaa uutiskirje!

Seuraava Kielipankki Live 14.12.2020 klo 13-15


kuva äänen aaltomuodosta

Pääaihe: Puhetta sisältävät tutkimusaineistot ja niiden tietosuojakäytänteet
Luvassa asiantuntevia vieraita ja keskustelua! Esitykset pidetään englanniksi, mutta kysymyksiä voi esittää myös suomeksi. Tilaisuus alkaa klo 13.00 ja päättyy joustavasti, kuitenkin viimeistään klo 15.

Ohjelma

  • Mietta Lennes: Ajankohtaisia asioita Kielipankissa
  • Krister Lindén: Tietoisku kieliaineistojen oikeudellisista kysymyksistä
  • Haastattelussa Rosa González Hautamäki ja Tomi Kinnunen: Kokemuksia AVOID-korpuksen ja muiden puheaineistojen keräämisestä ja jakamisesta puheteknologiseen tutkimukseen
  • Satu Saalasti: DELAD-projekti tähtää poikkeavan puheen aineistojen jakamiseen tutkijoille
  • Aleksi Rossi: Lyhyt tilannekatsaus Lahjoita puhetta -kampanjan tilanteesta
  • Questions & Answers: Kysy Kielipankin henkilökunnalta ja asiantuntijoilta
  • Avoin keskustelu

Ilmoittautuminen

Ilmoittaudu tapahtumaan tällä lomakkeella viimeistään 11.12.2020. Ilmoittautumisen yhteydessä voit esittää kysymyksiä tutkijavieraille ja Kielipankin asiantuntijoille. Myös tapahtuman aikana on mahdollisuus kysyä ja keskustella.

Kaikille ennakkoon ilmoittautuneille lähetetään liittymislinkki Zoom-alustalle ennen tilaisuuden alkua. Myös ennakkoilmoittautumisen päätyttyä voit saada liittymislinkin lähettämällä sähköpostia osoitteeseen fin-clarin [AT] helsinki.fi.

Kielipankki Live -tapahtumat tallennetaan

Huomaathan, että Kielipankki Live -tapahtumat tallennetaan ja videotallenteen keskeiset osuudet julkaistaan verkossa jälkikäteen. Jos et halua kuvasi tai äänesi olevan mukana tallenteessa, pidäthän kameran ja mikrofonin pois päältä tapahtuman aikana. Keskusteluun voi osallistua myös chatissa. Tapahtuman osallistujien nimiä tai yhteystietoja ei julkaista.


Kaikki Kielipankki Live -tapahtumat

  • 14.12.2020 klo 13-15 (Ilmoittaudu tapahtumaan)
  • 24.8.2020

In English

XLVI Kielitieteen päivät 16.–18. toukokuuta 2019

järjestetään Joensuussa Itä-Suomen yliopistossa. Tapahtuman teemana on kieli, elämä ja yhteiskunta. Myös Kielipankki näkyy paikan päällä ja etenkin perjantaiaamupäivällä 17.5. saatat bongata yliopistolla ihmisiä, joilla on yllään vaaleansininen possupaita… Vedä meitä hihasta, poikkea esittelypisteellä tai tule kuuntelemaan esitelmiä!

Kielipankki-aiheisten esitysten alustava aikataulu

Kielitieteen päivien päivitetty ohjelma ja lisätiedot

Tervetuloa tutustumaan Kielipankkiin esittelypisteellä konferenssin aikana!

Suomeksi

The XLVI Annual Conference of Linguistics

will be organized in Joensuu by the University of Eastern Finland. The theme of the conference is language, life, and the society. The Language Bank of Finland will be present during the conference and especially on Friday morning, you might notice some people wearing a pale blue t-shirt with a happy piglet… Come and talk to us, visit our stand or see our presentations!

Pre-final schedule of the presentations related to the Language Bank of Finland:

  • Thursday 16.5. 16:30 room AG106 / Selkokielen työpaja (Klaara-verkosto):
    Kielipankin selkosuomen aineistot (The Easy-to-read Finnish corpora in the Language Bank of Finland; Hanna Westerlund)
  • Friday 17.5.  10:00-10:30 room AG101:
    Kielipankin kiertue 2019: Työkalut, aineistot ja muut palvelut (Kielipankki Roadshow 2019: Tools, corpora and other services; Mietta Lennes)

Updated programme and further information about the Annual Conference of Linguistics

Welcome to meet Kielipankki, The Language Bank of Finland at its stand during the conference!

Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”

Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)

The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.

Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)

Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.

Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”

Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)

The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.

Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)

Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.

FIN-CLARIN ja Kielipankki kansainvälisesti esillä Tour de CLARIN -kirjassa

Darja Fišer ja Jakob Lenardič, toim. (2018). Tour de CLARIN – Volume One (pdf-versio)

CLARIN ERIC on koostanut näyttävän julkaisun vuonna 2016 alkaneelta Tour de CLARIN -esittelykierrokselta, jossa CLARIN-jäsenmaat ja niiden aineistot, työkalut ja tutkimushankkeet pääsevät vuorotellen valokeilaan. Juuri ilmestyneessä Tour de CLARIN -kokoelman ykkösosassa esitellään ihan ensimmäisenä suomalainen FIN-CLARIN. Julkaisussa ovat mukana myös Ruotsi, Itävalta, Alankomaat, Puola, Belgian Flanderi, Tšekin tasavalta, Kreikka sekä Liettua.

Tour de CLARIN -kierros jatkuu ja sitä voi seurata tuoreeltaan CLARIN ERICin verkkosivuilta.

Hyvä Suomi!

Get to know the Language Bank of Finland

The quickest way to explore the Language Bank’s services is to try the Korp interface where many of our corpora are deposited and can be queried without logging in or applying for access rights of the language resources. Korp features e.g. the Suomi 24 discussion forum corpus that is interesting from the points of view of several digital humanities and social sciences.

Other good ways to begin are the Newspaper and Periodical Corpus of the National Library of Finland and the Plenary Sessions of the Parliament of Finland, which are also available for download in addition to Korp.

Introductory videos

Presentation in Tiedekulma (Think Corner) on 8.11.2016. The video includes English subtitles.
Poster of the Language Bank of Finland (Kielipankki)
A poster of the services offered by Kielipankki – the Language Bank of Finland and FIN-CLARIN

Roadshow events

Every year, the Language Bank of Finland is presented in Roadshow events that are organized at each of the member organizations of FIN-CLARIN. Come and see how you could use the services of the Language Bank in your research!

Roadshow schedule:

2020:

2019:

Presentations and examples from the roadshow in 2016–2017

Presentation of FIN-CLARIN and the Language Bank of Finland (from the 20th Jubilee Roadshow) Presentation of FIN-CLARIN and the Language Bank of Finland (pdf)
How to search for the words ”mieleni pahoitin” from the Suomi 24 Sentences corpus in Korp and show the trend diagram (no soundtrack)

Kuukauden tutkija: Risto Turunen

Kuva Risto Turusesta

kuva: Risto Turunen

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tampereen yliopiston tohtorikoulutettava Risto Turunen kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.

Kuka olet?

Olen Risto Turunen. Teen historiatieteen väitöskirjaa Tampereen yliopiston yhteiskunta- ja kulttuuritieteiden yksikössä.

Mikä on tutkimuksesi aihe?

Suomessa oli Euroopan suurin sosialistinen puolue vuonna 1907. Tutkin sosialismin läpimurtoa erityisesti kielen näkökulmasta. Minkälainen diskurssi, käsitejärjestelmä tai poliittinen kieli suomalainen sosialismi oikeastaan oli? Etenkin työväenlehdistö kylvi tehokkaasti sosialismin siementä kansan keskuuteen. Miltei kaikki suomenkieliset sanomalehdet on digitoitu vuoteen 1910 saakka. Koska lehdet ovat koneluettavassa muodossa, voin tutkia sosialismin kieltä makrotasolla kvantitatiivisin menetelmin.

Miten Kielipankki liittyy tutkimukseesi?

Olen tutkinut näitä lehtiä muun muassa Kielipankin Korp-käyttöliittymän avulla. Voin esimerkiksi selvittää, milloin ”sosialismi” yleistyy sanana koko lehdistössä tai mitkä yksittäiset lehdet kirjoittavat eniten ”sosialismista”. Lisäksi olen vertaillut ”sosialismin” kielellistä esiintymiskontekstia sosialistisissa ja ei-sosialistisissa lehdissä. Vertailu paljastaa, millaisia merkityksiä aatteen kannattajat ja vastustajat yrittävät liittää sanaan.

Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman hankinnan taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Hanna Westerlund

kuva Hanna Westerlundista

kuva: Mika Federley

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Hanna Westerlund kertoo Kielipankissa olevia laki- ja säädöskielen aineistoja koskevasta tutkimuksestaan.

Kuka olet?

Olen Hanna Westerlund, käännöstieteen tutkijakoulutettava kielentutkimuksen tohtorikoulutusohjelmassa.

Mikä on tutkimuksesi aihe?

Olen kiinnostunut kollokaatioista eli yhteisesiintymistä kääntäjän haasteena ja kielentutkimuksen mahdollisuuksista selvittää kollokaatioiden tunnistamiseen ja tuottamiseen liittyviä kysymyksiä. Varsinainen tutkimusaineistoni koostuu Euroopan unionin suomeksi käännetyistä asetuksista, joista olen koonnut tekstikorpuksen Suomen yhteisöön liittymisen ajalta. Verrannaisaineisto sisältää vastaavia Suomen lainsäädännön tekstejä.

Miten Kielipankki liittyy tutkimukseesi?

Pidän tärkeänä selvittää ainakin osittain, mitä tutkimusaineistosta löytämilleni esiintymille on ajan mittaan tapahtunut: ovatko käännösten mukana suomalaiseen säädöskieleen saapuneet yhteisesiintymät edelleen löydettävissä säädöskokoelmasta, ovatko ne syrjäyttäneet kotoperäiset vaihtoehdot vai elävätkö ne kaikki teksteissä rinnakkain. Tekstikorpuksen kokoaminen, käsittely ja hallinnointi ovat osoittautuneet sekä teknisesti että laadullisesti haastaviksi ja aikaa vieviksi tehtäviksi, ja vastaavan aineiston kokoaminen nykyisestä säädöskokoelmasta olisi minulle täysin mahdoton tehtävä. Onneksi ei tarvitsekaan: Kielipankki tarjoaa tutkimustani varten sekä teknisesti puhtaan ja luotettavan laeista ja direktiiveistä koostuvan aineiston että työkaluja aineiston käsittelyyn. Tutkimukseni toisen osion toteuttamisessa Kielipankin laki- ja säädöskielen aineistot ovat aivan korvaamattomia.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Mitä voin lainata Kielipankista?

Tutkijat kertovat miten he hyödyntävät Kielipankin aineistoja: http://bit.ly/2g6Ds1J.

Kuukauden tutkija: Markus Hamunen

Kuva Markus Hamusesta

kuva: Mika Federley

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Markus Hamunen kertoo useita Kielipankissa olevia murreaineistoja koskevasta tutkimuksestaan.

Kuka olet?

Olen Markus Hamunen ja olen tohtorikoulutettavana kielentutkimuksen koulutusohjelmassa suomen kielen oppiaineessa. Väitöstutkimukseni käsittelee toiminnan tapaa ja keinoa kuvaavia infiniittisiä verbirakenteita murrepuheessa (esim. männä koekkelehtii, tuloo juoste, tekköö salvaamala).

Mikä on tutkimuksesi aihe?

Tutkimukseni kiinnittyy konstruktiokieliopin nimellä kulkevaan kielenkuvausmalliin. Selvittelen toisaalta sitä, miten tavan ja keinon käsitteet ilmenevät ko. infinitiivirakenteiden semantiikassa ja mitä on tapa ja keino ylipäätään ja toisaalta sitä, kuinka rakenteita on käytetty suomen murteissa.

Miten Kielipankki liittyy tutkimukseesi?

Kielipankin murreaineistoja sisältävistä korpuksista erityisesti Digitaalinen muoto-opin arkisto (dma), Lauseopin arkisto (LA-murre-korp) sekä Suomen kielen näytteitä -korpus (SKN-korp) ovat olleet erittäin hyödyllisiä täsmähaun mahdollistavien toimintojensa ansiosta. Tutkimani infinitiivirakenteet eivät ole frekventtejä murrepuheessa, joten korpustyökalut ovat olleet tehokas apu aineiston hankinnassa.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Auroora Vihervalli

Kuva Auroora Vihervallista

kuva: Auroora Vihervalli

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston filosofian maisteri Auroora Vihervalli kertoo, miten hän hyödynsi Kielipankissa olevaa Ylilauta-korpusta 2010-luvun nettikieltä koskevassa tutkielmassaan.

Kuka olet?

Olen Auroora Vihervalli, filosofian maisteri Helsingin yliopistosta. Pääaineeni oli suomen kieli. Pro gradu -tutkielmani valmistui huhtikuussa.

Mikä on tutkimuksesi aihe?

Tutkin pro gradu -tutkielmassani abessiivisijaisten nominien käyttöfunktioita 2010-luvun nettikielessä. Tiivistettynä tavoitteenani oli tutkia abessiivisijaisten nominien käyttöä, valinnaisuutta ja välttämättömyyttä lauseessa sekä kiteytymistä – toisin sanoen abessiivinominien käyttöfunktioita erilaisissa konteksteissa.

Miten Kielipankki liittyy tutkimukseesi?

Tutkielmani aineiston abessiivit on kerätty Kielipankin kautta. Käytin Ylilauta-korpusta, joka on morfologisesti koodattu Kielipankin Korp-konkordanssihakuohjelmaan. Haun avulla kokosin aineistoni.

Koska abessiivinominit ovat jokseenkin harvinaisia, olisi niiden etsiminen omin päin ollut hidasta. Kielipankin Ylilauta-korpus oli tutkimukselleni juuri sopiva, sillä sen aineisto on kerätty vuosilta 2012–2014 ja se edustaa vapaata, tarkastamatonta kieltä.

Kielipankissa olevan Ylilauta-korpuksen hankinnan taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Tuija Määttä

Kuva Tuija Määtästä

kuva: Tuija Määttä

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Uumajan yliopiston suomen kielen lehtori ja tutkija Tuija Määttä kertoo, miten hän hyödyntää Kielipankissa olevaa Kansainvälistä oppijansuomen korpusta.

Kuka olet?

Olen Tuija Määttä, suomen kielen lehtori ja tutkija Uumajan yliopiston Kieliopintojen laitoksessa (Institutionen för språkstudier, Umeå universitet). Virkani on opetusvirka, ja opetan hyvin erilaisilla kursseilla aina alkeistason opiskelijoista tohtorikoulutettaviin asti. Tutkimustyötä teen vapaa-ajallani.

Mikä on tutkimuksesi aihe?

Minua on aina kiehtonut eniten alkeistason opiskelijoiden suomen kielen oppiminen, omaksuminen ja kehittyminen. Niinpä olen viimeisten vuosien aikana tarkastellut useista näkökulmista, miten ruotsinkieliset suomenoppijat käyttävät suomen eri paikallissijoja kirjallisissa tuotoksissaan. Toinen mielenkiintoinen tutkimuskohde on sanasto. Aineistona käytän Kansainvälistä oppijansuomen korpusta (ICLFI), johon kuuluu osana ruotsinkielisiltä suomenoppijoilta kerätty osakorpus. Osakorpuksen tekstit ovat peräisin juuri Uumajasta, ja olen kerännyt niitä alkeistason oppijoiltani jo kymmenen vuoden ajan.

Miten Kielipankki liittyy tutkimukseesi?

ICLFI-korpus on nykyisin Kielipankissa. ICLFI-hanke aloitettiin vuonna 2007 professori Jarmo Jantusen aloitteesta. Olen ollut alusta lähtien mukana tässä hankkeessa, jonka yhtenä tavoitteena oli luoda laajahko oppijansuomen korpus, joka sisältää eri äidinkielisten suomenoppijoiden kirjallisia tuotoksia. Nyt, kun korpus on yli miljoonan saneen laajuinen, on hienoa, että se on avoin ja helposti saatavilla Kielipankin kautta kaikille oppijansuomesta kiinnostuneille tutkijoille.

Kielipankissa olevan ICLFI-korpuksen taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Antti Kanner

Kuva Antti Kannerista

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä.Helsingin yliopiston tohtorikoulutettava Antti Kanner kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.

Kuka olet?

Olen Antti Kanner, tohtorikoulutettava suomen kielen oppiaineessa ja kielentutkimuksen tohtorikoulutusohjelmassa. Väitöskirjani käsittelee leksikaalista semantiikkaa, polysemiaa ja merkityksen historiallista variaatiota suurissa tekstiaineistoissa.

Mikä on tutkimuksesi aihe?

Tutkimukseni liittyy toisaalta Tieteen kansalliseen termipankkiin, erityisesti sosiaalioikeuden termistön kehittymiseen sillä tutkimani sanat liittyvät juuri sosiaalipolitiikan ja -oikeuden kehittymiseen ja toisaalta julkisuuden muutosta Suomessa 1640-1910 tutkivaan COMHIS-hankkeeseen.

Miten Kielipankki liittyy tutkimukseesi?

Tutkimukseni pääasiallinen aineisto on Kansalliskirjaston sanomalehtikorpus, jota täydennän jonkin verran myös muilla Kielipankin korpusaineistoilla. Käytän aineistoja Korp-palvelun API:n kautta, jolloin voin sekä ajaa automaattisesti pitkiäkin kyselylistoja ja saada yksityiskohtaisia konteksti- ja frekvenssitietoja suuresta määrästä hakusanoja, että hyötyä aineistojen morfologisesta annotoinnista.

Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman taustatiedot

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Kuukauden tutkija: Kirsi-Maria Nummila

Kuva Kirsi-Maria Nummilasta

kuva: Turun yliopisto

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Turun yliopiston suomen kielen dosentti Kirsi-Maria Nummila kertoo useita Kielipankissa olevia aineistoja koskevasta tutkimuksestaan.

Kuka olet?

Olen filosofian tohtori ja suomen kielen dosentti Kirsi-Maria Nummila. Toimin tällä hetkellä opetus- ja tutkimustehtävissä Turun yliopiston kieli- ja käännöstieteiden laitoksella suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa.

Mikä on tutkimuksesi aihe?

Keskeisiä tutkimusaiheitani ovat sanastontutkimus, sananmuodostus, kielen kehitys, kielikontaktit ja vanha kirjasuomi. Olen tarkastellut ja tarkastelen tutkimuksissani omaperäistä kompleksista sanastoa, pääasiassa johdoksia ja johdostyyppien kehitystä, lainasanastoa ja keskiaikaista nimistöä, vanhalle kirjasuomelle tyypillisiä konstruktioita, syntaktista ja morfologista lainaamista sekä historiallista koodinvaihtoa.

Miten Kielipankki liittyy tutkimukseesi?

Olen käyttänyt ja käytän Kielipankin aineistoja tai aineistoja, joita Kielipankki nykyään tarjoaa, lähestulkoon kaikissa tutkimuksissani. Omien tutkimusteni ja tutkimusintressieni kannalta Kielipankin korpukset muodostavatkin keskeisimmän aineistolähteen. Tärkeimpinä korpuksina mainittakoon Digitaalinen muoto-opin arkisto, Suomen kielen tekstikokoelma, Kansalliskirjaston sanoma- ja aikakauslehtikokoelma sekä hiljattain Kielipankin aineistoihin liitetty Vanhan kirjasuomen korpus. On hienoa, että myös Suomen Akatemian rahoittamassa monivuotisessa hankkeessa tuotettu Mikael Agricolan teosten morfosyntaktinen tietokanta, jota olen itse ollut laatimassa, julkaistaan Kielipankissa lähitulevaisuudessa.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Artikkeli Kielipankista Helsingin yliopiston etusivulla

Linkki artikkeliin: https://www.helsinki.fi/fi/uutiset/kielipankki-sailoo-kielta-ja-kulttuuria

Kuukauden tutkija: Mihail Kopotev

Kuva Mihail Kopotevista

kuva: Mihail Kopotev

Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä.

Kuka olet?

Olen Mihail Kopotev ja toimin Helsingin yliopiston nykykielten laitoksella venäjän kielen yliopistonlehtorina.

Kuinka käytät Kielipankkia opetuksessa?

Suomi–venäjä-kääntämisen käytäntöjä käsittelevällä kurssillani käytän muun muassa Kielipankin kaunokirjallisten tekstien suomi–venäjä-rinnakkaiskorpusta (ParFin). Kurssiin osallistujilla on mahdollisuus tehdä sekä käytännön käännösharjoituksia että omaa tutkimusta. Opiskelijoilta saatu palaute on ollut hyvin positiivista. Suurin osa heistä ei ole kuulut aineistosta ennen, mutta he aikovat käyttää sitä jatkossa työssään.

Rinnakkaiskorpuksesta on moninaista hyötyä kääntäjille ja opettajille. Sen suurin etu on, että se mahdollistaa sanojen ja sanayhdistelmien vastineiden etsimisen autenttisissa käännösaineistoissa. Muuntyyppiset korpukset tai sanakirjat eivät voi tarjota näin vaikuttavaa ja rikasta aineistoa, jota voi käyttää sekä vertailussa että yksittäisten käännöspäätösten tekemisessä.

FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.

Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.

Search the Language Bank Portal:
Tanja Säily
Researcher of the Month: Tanja Säily

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information