Donera prat-kampanjerna på finska och finlandssvenska är avslutade från och med 6.3.2024. Ett stort tack till alla donatorer!
Från och med den 16 juni 2020 har Yle, tidigare Vake Oy (Valtion kehitysyhtiö; för närvarande Ilmastorahasto Oy) och Helsingfors universitet drivit kampanjen Lahjoita puhetta för insamling av finskt tal. I en mindre Donera prat -kampanj som startade 2021 har även finlandssvenskt tal samlats in. Under det första året av den finska kampanjen donerades mer än 3000 timmar tal. På senare tid har dock mycket få donationer kommit in.
Donationskampanjerna för finskt och finlandssvenskt tal är nu avslutade. Datamängderna kommer att organiseras och lagras av Språkbanken i Finland (Kielipankki). Via den finska Språkbanken kan forskare och företag få tillgång till Donate Speech-datamängder på särskilda villkor. Vi hoppas att data kommer att hjälpa både forskare och företag att skapa bättre modeller av finskt och finlandssvenskt tal och att utveckla framtida tjänster som lätt kan användas på finska och finlandsvenska.
Läs mer:
Uppdaterat: 6.3.2024
Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months
WP 1.1: Report on ingesting new unstructured resources
Date of reporting: 30-11-2023
Report authors: Mietta Lennes, Jussi Piitulainen (University of Helsinki)
Contributors: Ute Dieckmann, Erik Axelson, Jyrki Niemi, Jack Rueter, Tommi Jauhiainen, Krister Lindén (University of Helsinki)
Deliverable location: Corpora and tools available via the Language Bank of Finland
Keywords for the deliverable page: corpus, data set, automatic language identification
The Newspaper and Periodical Corpus of the National Library of Finland was extended with a significant amount of new material from the National Library. The new version was organized according to the automatically identified language of each sentence. The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (klk-fi-v2), consisting of more than 22 billion word tokens, was published in Korp in summer 2023. It consists of the text elements that contain at least one ”fin” sentence (from the new material, from the previous version of klk-fi, and from the previous klk-sv). Moreover, the summary attributes indicate the frequency distribution of languages within each text and each paragraph. An extended version of the Swedish sub-corpus (klk-sv-v2) has been compiled in a similar way (any ”swe” in a text), but the Swedish data is currently still waiting for the rest of the annotations to be completed. For details of the reorganization process of the National Library data according to language, see Jauhiainen et al. 2022.
The HeLI-OTS language identification tool was adapted for the format used in the Language Bank of Finland, together with a post-processor written to correct the identification of each sentence within its context. Another new tool was written to partition the corpus, first by the main identified languages, then by the year of publication.
As a demonstration of ingesting resources including parallel spoken material in multiple languages, the corpus Christmas Gospel text-to-speech in four Uralic languages was prepared and made available for searching and playback via Korp (for details on this effort, see D2.3.2).
Other corpora published in Korp during the years 2022-23 include, e.g., the Finnish News Agency Archive 1992-2018, Kielipankki Korp Version; Corpus of Contemporary American English (COCA) – Kielipankki Korp version 2020 and Erzya and Moksha Extended Corpora (ERME) version 2, Korp.
In addition, various downloadable resources were published, e.g., Corpus of Contemporary American English – Kielipankki VRT version 2020; FinnTreeBank 1, 2 and 3; Word embeddings trained with word2vec from the Finnish Text Collection; The Coronavirus Corpus (Mark Davies, english-corpora.org) – Kielipankki version 2021-05; and The Finnish Dark Web Marketplace Corpus.
During the project, the resource publication pipeline of the Language Bank of Finland has been refined and documented. The structure of the pipeline was first presented at the CLARIN Annual Conference in 2022 and described in the conference proceedings (Dieckmann & al., 2023, see below).
Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 358720
Start date: 01-01-2024
Duration: 24 months
WP x.y: Report on <topic of the deliverable>
Date of reporting: dd-mm-2024
Report authors: Firstname Lastname (Organization)
Contributors: Firstname Lastname (Organization)
Deliverable location: <link to, e.g., a GitHub repository, or other external location that includes further information or relevant content>
Keywords for the deliverable page: (any relevant keywords separated with semicolons; for search engines etc.)
The description text (max. 3000 characters) may include the following, if applicable:
The publication-ready deliverable should be emailed as a MS Word document (or similar) to wilhelmina.dyster (ATT) helsinki.fi, Cc:krister.linden (ATT) helsinki.fi.
Deadline for deliverables due 2024-09: Send the content for your deliverable page by 16.09.2024.
This page showcases the project deliverables (see template and instructions for reporting).
FIN-CLARIAH Funding period 2024-2025
FIN-CLARIAH Funding period 2022-2023 (Completed)
D1.1.1 | Named-entity annotation | 2024-09 |
D1.1.2 | Ingesting new unstructured resources | 2025-12 |
D1.2.1 | Data collection for minority languages | 2024-09 |
D1.2.2 | Transcription service for minority languages | 2025-09 |
D1.3.1 | Tools and guidelines for video processing | 2025-06 |
D2.1.1 | Integrate environment for personal data | 2024-09 |
D2.1.2 | Framework for processing copyrighted data for verification of research | 2025-09 |
D2.2.1 | Transformer training for specialised data | 2024-12 |
D2.2.2 | Transformer adaptation for specialised data | 2025-12 |
D2.3.1 | Remote access to text data repositories | 2024-12 |
D2.3.2 | Remote access to video data repositories | 2025-12 |
D2.4.1 | Term definition discovery procedures | 2024-09 |
D2.4.2 | Initializing terminology collections | 2025-12 |
D3.1.1 | Comprehensive data versioning | 2024-09 |
D3.1.2 | Workflow automation and version syncing | 2025-09 |
D3.2.1 | Ingestion of structured data from Finna (NLF) | 2025-03 |
D3.2.2 | Ingestion of heritage and societal data from Sampo | 2025-06 |
D3.2.3 | Ingestion of multimodal societal data from the Web | 2025-12 |
D3.3.1 | Automated metadata of archival data from NARC | 2025-03 |
D3.3.2 | Automated harmonisation and enrichment of metadata | 2024-12 |
D3.3.3 | Machine-learning -based enrichment of social media | 2025-06 |
D3.3.4 | Computer vision -based enrichment of multimodal data | 2025-09 |
D4.1.1 | Analysis of video stream interactions with AI solutions | 2025-06 |
D4.1.2 | Analysis tools for benchmark social media | 2024-12 |
D4.1.3 | Analysis of interactions and regional language variation in social media | 2025-12 |
D4.1.4 | Analysis of multimodal properties of naturalistic speech | 2025-12 |
D4.1.5 | Analysis of multimodal cultural heritage | 2025-12 |
D4.1.6 | Enrich survey data with register data and unstructured text | 2025-06 |
D5.1.1 | Community engagement: multim. societal data researchers | 2024-09 |
D5.1.2 | Community engagement: multim. heritage researchers | 2025-06 |
D5.1.3 | Evidence-based infrastructure development | 2024-12 |
D5.1.4 | Educational resource development | 2025-12 |
Completed
D1.1.1 | Updating LBF resource selection | 2022-09 |
D1.1.2 | Ingesting new unstructured resources | 2023-12 |
D1.2.1 | Forced-Alignment Service | 2022-09 |
D1.2.2 | Transcription Service for Finnish Interviews | 2023-09 |
D1.3.1 | Corpora of non-standard language | 2022-09 |
D1.3.2 | System for detecting toxic language | 2023-06 |
D1.3.3 | Models for retrieving QA pairs from the web | 2023-09 |
D1.3.4 | QA pair corpora | 2023-12 |
D2.1.1 | Licensing agreements for personal data | 2022-09 |
D2.1.2 | Licensing agreements for special categories | 2023-06 |
D2.2.1 | Speech recognition for L2 | 2022-12 |
D2.2.2 | Speech recognition for L2 update | 2023-12 |
D2.3.1 | Licensing interpretation sessions | 2022-12 |
D2.3.2 | Aligning and retrieving | 2023-12 |
D2.4.1 | Term discovery procedures | 2022-09 |
D2.4.2 | Terminology application | 2023-06 |
D2.4.3.1 | Initializing terminology collections | 2022-09 |
D2.4.3.2 | Initializing terminology collections | 2023-06 |
D2.4.3.3 | Initializing terminology collections | 2023-12 |
D2.5.1 | Test performances storage | 2022-12 |
D2.5.2 | Analysis and annotation tools for learner performances | 2023-12 |
D3.1.1 | Initial NLF data | 2022-09 |
D3.1.2 | Ingestion framework | 2022-12 |
D3.1.3 | Versioning support | 2023-06 |
D3.1.4 | Incremental update process | 2023-12 |
D3.2.1 | Pipeline for transferring archival data | |
D3.2.2 | Annotation & analysis tools for NARC data | 2023-12 |
D3.3.1 | Qualitative survey data concept network | 2022-09 |
D3.3.2 | R package for data concept network |
D3.4.1 | Livestream data collector | 2022-12 |
D3.5.1 | Text network analysis of political texts | |
D3.5.2 | Text network analysis of political texts |
D4.1.1 | Harmonized FNB | 2022-09 |
D4.1.2 | Harmonization code | 2022-12 |
D4.1.3 | Visualisation workflow | 2023-06 |
D4.1.4 | R/Python module | 2023-12 |
D4.2.1 | LDF knowledge extraction tools | 2022-12 |
D4.2.2 | Parliament of Finland Ontology | 2023-12 |
D4.3.1 | Subsetting tool | 2022-09 |
D4.3.2 | Statistical overviews and bias detection | 2023-06 |
D4.3.3 | Representative Twitter dataset | 2023-12 |
D5.1.1 | User experience questionnaire | 2022-09 |
D5.1.2 | Log data collection and analysis | 2023-06 |
D5.1.3 | Protocol for collecting workshop data | 2023-12 |
D5.2.1 | Actor network | 2022-12 |
D5.2.2 | Educational material | 2023-12 |
Kielipankki Live on verkkotapahtumien sarja, jossa haastatellaan tutkijoita ja keskustellaan ajankohtaisista Kielipankkiin liittyvistä aiheista. Tapahtumissa tallennetut esitykset julkaistaan jälkikäteen YouTubessa (katso linkit aiempien tapahtumien kohdalta). Kun haluat pysyä ajan tasalla Kielipankki Live -tilaisuuksista ja muista Kielipankin uutisista, tilaa uutiskirje!
Ilmoittaudu tapahtumaan tällä lomakkeella viimeistään 11.12.2020. Ilmoittautumisen yhteydessä voit esittää kysymyksiä tutkijavieraille ja Kielipankin asiantuntijoille. Myös tapahtuman aikana on mahdollisuus kysyä ja keskustella.
Kaikille ennakkoon ilmoittautuneille lähetetään liittymislinkki Zoom-alustalle ennen tilaisuuden alkua. Myös ennakkoilmoittautumisen päätyttyä voit saada liittymislinkin lähettämällä sähköpostia osoitteeseen fin-clarin [AT] helsinki.fi.
Huomaathan, että Kielipankki Live -tapahtumat tallennetaan ja videotallenteen keskeiset osuudet julkaistaan verkossa jälkikäteen. Jos et halua kuvasi tai äänesi olevan mukana tallenteessa, pidäthän kameran ja mikrofonin pois päältä tapahtuman aikana. Keskusteluun voi osallistua myös chatissa. Tapahtuman osallistujien nimiä tai yhteystietoja ei julkaista.
järjestetään Joensuussa Itä-Suomen yliopistossa. Tapahtuman teemana on kieli, elämä ja yhteiskunta. Myös Kielipankki näkyy paikan päällä ja etenkin perjantaiaamupäivällä 17.5. saatat bongata yliopistolla ihmisiä, joilla on yllään vaaleansininen possupaita… Vedä meitä hihasta, poikkea esittelypisteellä tai tule kuuntelemaan esitelmiä!
will be organized in Joensuu by the University of Eastern Finland. The theme of the conference is language, life, and the society. The Language Bank of Finland will be present during the conference and especially on Friday morning, you might notice some people wearing a pale blue t-shirt with a happy piglet… Come and talk to us, visit our stand or see our presentations!
Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”
Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)
The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.
Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)
Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.
Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”
Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)
The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.
Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)
Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.
CLARIN ERIC on koostanut näyttävän julkaisun vuonna 2016 alkaneelta Tour de CLARIN -esittelykierrokselta, jossa CLARIN-jäsenmaat ja niiden aineistot, työkalut ja tutkimushankkeet pääsevät vuorotellen valokeilaan. Juuri ilmestyneessä Tour de CLARIN -kokoelman ykkösosassa esitellään ihan ensimmäisenä suomalainen FIN-CLARIN. Julkaisussa ovat mukana myös Ruotsi, Itävalta, Alankomaat, Puola, Belgian Flanderi, Tšekin tasavalta, Kreikka sekä Liettua.
Tour de CLARIN -kierros jatkuu ja sitä voi seurata tuoreeltaan CLARIN ERICin verkkosivuilta.
Hyvä Suomi!
The quickest way to explore the Language Bank’s services is to try the Korp interface where many of our corpora are deposited and can be queried without logging in or applying for access rights of the language resources. Korp features e.g. the Suomi 24 discussion forum corpus that is interesting from the points of view of several digital humanities and social sciences.
Other good ways to begin are the Newspaper and Periodical Corpus of the National Library of Finland and the Plenary Sessions of the Parliament of Finland, which are also available for download in addition to Korp.
Every year, the Language Bank of Finland is presented in Roadshow events that are organized at each of the member organizations of FIN-CLARIN. Come and see how you could use the services of the Language Bank in your research!
Roadshow schedule:
2020:
2019:
kuva: Risto Turunen
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tampereen yliopiston tohtorikoulutettava Risto Turunen kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.
Olen Risto Turunen. Teen historiatieteen väitöskirjaa Tampereen yliopiston yhteiskunta- ja kulttuuritieteiden yksikössä.
Suomessa oli Euroopan suurin sosialistinen puolue vuonna 1907. Tutkin sosialismin läpimurtoa erityisesti kielen näkökulmasta. Minkälainen diskurssi, käsitejärjestelmä tai poliittinen kieli suomalainen sosialismi oikeastaan oli? Etenkin työväenlehdistö kylvi tehokkaasti sosialismin siementä kansan keskuuteen. Miltei kaikki suomenkieliset sanomalehdet on digitoitu vuoteen 1910 saakka. Koska lehdet ovat koneluettavassa muodossa, voin tutkia sosialismin kieltä makrotasolla kvantitatiivisin menetelmin.
Olen tutkinut näitä lehtiä muun muassa Kielipankin Korp-käyttöliittymän avulla. Voin esimerkiksi selvittää, milloin ”sosialismi” yleistyy sanana koko lehdistössä tai mitkä yksittäiset lehdet kirjoittavat eniten ”sosialismista”. Lisäksi olen vertaillut ”sosialismin” kielellistä esiintymiskontekstia sosialistisissa ja ei-sosialistisissa lehdissä. Vertailu paljastaa, millaisia merkityksiä aatteen kannattajat ja vastustajat yrittävät liittää sanaan.
Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman hankinnan taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Mika Federley
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Hanna Westerlund kertoo Kielipankissa olevia laki- ja säädöskielen aineistoja koskevasta tutkimuksestaan.
Olen Hanna Westerlund, käännöstieteen tutkijakoulutettava kielentutkimuksen tohtorikoulutusohjelmassa.
Olen kiinnostunut kollokaatioista eli yhteisesiintymistä kääntäjän haasteena ja kielentutkimuksen mahdollisuuksista selvittää kollokaatioiden tunnistamiseen ja tuottamiseen liittyviä kysymyksiä. Varsinainen tutkimusaineistoni koostuu Euroopan unionin suomeksi käännetyistä asetuksista, joista olen koonnut tekstikorpuksen Suomen yhteisöön liittymisen ajalta. Verrannaisaineisto sisältää vastaavia Suomen lainsäädännön tekstejä.
Pidän tärkeänä selvittää ainakin osittain, mitä tutkimusaineistosta löytämilleni esiintymille on ajan mittaan tapahtunut: ovatko käännösten mukana suomalaiseen säädöskieleen saapuneet yhteisesiintymät edelleen löydettävissä säädöskokoelmasta, ovatko ne syrjäyttäneet kotoperäiset vaihtoehdot vai elävätkö ne kaikki teksteissä rinnakkain. Tekstikorpuksen kokoaminen, käsittely ja hallinnointi ovat osoittautuneet sekä teknisesti että laadullisesti haastaviksi ja aikaa vieviksi tehtäviksi, ja vastaavan aineiston kokoaminen nykyisestä säädöskokoelmasta olisi minulle täysin mahdoton tehtävä. Onneksi ei tarvitsekaan: Kielipankki tarjoaa tutkimustani varten sekä teknisesti puhtaan ja luotettavan laeista ja direktiiveistä koostuvan aineiston että työkaluja aineiston käsittelyyn. Tutkimukseni toisen osion toteuttamisessa Kielipankin laki- ja säädöskielen aineistot ovat aivan korvaamattomia.
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
Tutkijat kertovat miten he hyödyntävät Kielipankin aineistoja: http://bit.ly/2g6Ds1J.
kuva: Mika Federley
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Markus Hamunen kertoo useita Kielipankissa olevia murreaineistoja koskevasta tutkimuksestaan.
Olen Markus Hamunen ja olen tohtorikoulutettavana kielentutkimuksen koulutusohjelmassa suomen kielen oppiaineessa. Väitöstutkimukseni käsittelee toiminnan tapaa ja keinoa kuvaavia infiniittisiä verbirakenteita murrepuheessa (esim. männä koekkelehtii, tuloo juoste, tekköö salvaamala).
Tutkimukseni kiinnittyy konstruktiokieliopin nimellä kulkevaan kielenkuvausmalliin. Selvittelen toisaalta sitä, miten tavan ja keinon käsitteet ilmenevät ko. infinitiivirakenteiden semantiikassa ja mitä on tapa ja keino ylipäätään ja toisaalta sitä, kuinka rakenteita on käytetty suomen murteissa.
Kielipankin murreaineistoja sisältävistä korpuksista erityisesti Digitaalinen muoto-opin arkisto (dma), Lauseopin arkisto (LA-murre-korp) sekä Suomen kielen näytteitä -korpus (SKN-korp) ovat olleet erittäin hyödyllisiä täsmähaun mahdollistavien toimintojensa ansiosta. Tutkimani infinitiivirakenteet eivät ole frekventtejä murrepuheessa, joten korpustyökalut ovat olleet tehokas apu aineiston hankinnassa.
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Auroora Vihervalli
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston filosofian maisteri Auroora Vihervalli kertoo, miten hän hyödynsi Kielipankissa olevaa Ylilauta-korpusta 2010-luvun nettikieltä koskevassa tutkielmassaan.
Olen Auroora Vihervalli, filosofian maisteri Helsingin yliopistosta. Pääaineeni oli suomen kieli. Pro gradu -tutkielmani valmistui huhtikuussa.
Tutkin pro gradu -tutkielmassani abessiivisijaisten nominien käyttöfunktioita 2010-luvun nettikielessä. Tiivistettynä tavoitteenani oli tutkia abessiivisijaisten nominien käyttöä, valinnaisuutta ja välttämättömyyttä lauseessa sekä kiteytymistä – toisin sanoen abessiivinominien käyttöfunktioita erilaisissa konteksteissa.
Tutkielmani aineiston abessiivit on kerätty Kielipankin kautta. Käytin Ylilauta-korpusta, joka on morfologisesti koodattu Kielipankin Korp-konkordanssihakuohjelmaan. Haun avulla kokosin aineistoni.
Koska abessiivinominit ovat jokseenkin harvinaisia, olisi niiden etsiminen omin päin ollut hidasta. Kielipankin Ylilauta-korpus oli tutkimukselleni juuri sopiva, sillä sen aineisto on kerätty vuosilta 2012–2014 ja se edustaa vapaata, tarkastamatonta kieltä.
Kielipankissa olevan Ylilauta-korpuksen hankinnan taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Tuija Määttä
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Uumajan yliopiston suomen kielen lehtori ja tutkija Tuija Määttä kertoo, miten hän hyödyntää Kielipankissa olevaa Kansainvälistä oppijansuomen korpusta.
Olen Tuija Määttä, suomen kielen lehtori ja tutkija Uumajan yliopiston Kieliopintojen laitoksessa (Institutionen för språkstudier, Umeå universitet). Virkani on opetusvirka, ja opetan hyvin erilaisilla kursseilla aina alkeistason opiskelijoista tohtorikoulutettaviin asti. Tutkimustyötä teen vapaa-ajallani.
Minua on aina kiehtonut eniten alkeistason opiskelijoiden suomen kielen oppiminen, omaksuminen ja kehittyminen. Niinpä olen viimeisten vuosien aikana tarkastellut useista näkökulmista, miten ruotsinkieliset suomenoppijat käyttävät suomen eri paikallissijoja kirjallisissa tuotoksissaan. Toinen mielenkiintoinen tutkimuskohde on sanasto. Aineistona käytän Kansainvälistä oppijansuomen korpusta (ICLFI), johon kuuluu osana ruotsinkielisiltä suomenoppijoilta kerätty osakorpus. Osakorpuksen tekstit ovat peräisin juuri Uumajasta, ja olen kerännyt niitä alkeistason oppijoiltani jo kymmenen vuoden ajan.
ICLFI-korpus on nykyisin Kielipankissa. ICLFI-hanke aloitettiin vuonna 2007 professori Jarmo Jantusen aloitteesta. Olen ollut alusta lähtien mukana tässä hankkeessa, jonka yhtenä tavoitteena oli luoda laajahko oppijansuomen korpus, joka sisältää eri äidinkielisten suomenoppijoiden kirjallisia tuotoksia. Nyt, kun korpus on yli miljoonan saneen laajuinen, on hienoa, että se on avoin ja helposti saatavilla Kielipankin kautta kaikille oppijansuomesta kiinnostuneille tutkijoille.
Kielipankissa olevan ICLFI-korpuksen taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä.Helsingin yliopiston tohtorikoulutettava Antti Kanner kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.
Olen Antti Kanner, tohtorikoulutettava suomen kielen oppiaineessa ja kielentutkimuksen tohtorikoulutusohjelmassa. Väitöskirjani käsittelee leksikaalista semantiikkaa, polysemiaa ja merkityksen historiallista variaatiota suurissa tekstiaineistoissa.
Tutkimukseni liittyy toisaalta Tieteen kansalliseen termipankkiin, erityisesti sosiaalioikeuden termistön kehittymiseen sillä tutkimani sanat liittyvät juuri sosiaalipolitiikan ja -oikeuden kehittymiseen ja toisaalta julkisuuden muutosta Suomessa 1640-1910 tutkivaan COMHIS-hankkeeseen.
Tutkimukseni pääasiallinen aineisto on Kansalliskirjaston sanomalehtikorpus, jota täydennän jonkin verran myös muilla Kielipankin korpusaineistoilla. Käytän aineistoja Korp-palvelun API:n kautta, jolloin voin sekä ajaa automaattisesti pitkiäkin kyselylistoja ja saada yksityiskohtaisia konteksti- ja frekvenssitietoja suuresta määrästä hakusanoja, että hyötyä aineistojen morfologisesta annotoinnista.
Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Turun yliopisto
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Turun yliopiston suomen kielen dosentti Kirsi-Maria Nummila kertoo useita Kielipankissa olevia aineistoja koskevasta tutkimuksestaan.
Olen filosofian tohtori ja suomen kielen dosentti Kirsi-Maria Nummila. Toimin tällä hetkellä opetus- ja tutkimustehtävissä Turun yliopiston kieli- ja käännöstieteiden laitoksella suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa.
Keskeisiä tutkimusaiheitani ovat sanastontutkimus, sananmuodostus, kielen kehitys, kielikontaktit ja vanha kirjasuomi. Olen tarkastellut ja tarkastelen tutkimuksissani omaperäistä kompleksista sanastoa, pääasiassa johdoksia ja johdostyyppien kehitystä, lainasanastoa ja keskiaikaista nimistöä, vanhalle kirjasuomelle tyypillisiä konstruktioita, syntaktista ja morfologista lainaamista sekä historiallista koodinvaihtoa.
Olen käyttänyt ja käytän Kielipankin aineistoja tai aineistoja, joita Kielipankki nykyään tarjoaa, lähestulkoon kaikissa tutkimuksissani. Omien tutkimusteni ja tutkimusintressieni kannalta Kielipankin korpukset muodostavatkin keskeisimmän aineistolähteen. Tärkeimpinä korpuksina mainittakoon Digitaalinen muoto-opin arkisto, Suomen kielen tekstikokoelma, Kansalliskirjaston sanoma- ja aikakauslehtikokoelma sekä hiljattain Kielipankin aineistoihin liitetty Vanhan kirjasuomen korpus. On hienoa, että myös Suomen Akatemian rahoittamassa monivuotisessa hankkeessa tuotettu Mikael Agricolan teosten morfosyntaktinen tietokanta, jota olen itse ollut laatimassa, julkaistaan Kielipankissa lähitulevaisuudessa.
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
Linkki artikkeliin: https://www.helsinki.fi/fi/uutiset/kielipankki-sailoo-kielta-ja-kulttuuria