Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months
WP x.y: Report on <topic of the deliverable>
Date of reporting: dd-mm-2023
Report authors: Firstname Lastname (Organization)
Contributors: Firstname Lastname (Organization)
Deliverable location: <link to, e.g., a GitHub repository, or other external location that includes further information or relevant content>
Keywords for the deliverable page: (any relevant keywords separated with semicolons; for search engines etc.)
The description text (max. 3000 characters) may include the following, if applicable:
The publication-ready deliverable should be emailed as a MS Word document (or similar) to wilhelmina.dyster (ATT) helsinki.fi, Cc:krister.linden (ATT) helsinki.fi.
Deadline for deliverables due 2023-06: Send the content for your deliverable page by 26.5.2023.
This page will showcase the project deliverables in 2022-2023 (see template and instructions for reporting).
D1.1.1 | Updating LBF resource selection | 2022-09 |
D1.1.2 | Ingesting new unstructured resources | 2023-12 |
D1.2.1 | Forced-Alignment Service | 2022-09 |
D1.2.2 | Transcription Service for Finnish Interviews | 2023-09 |
D1.3.1 | Corpora of non-standard language | 2022-09 |
D1.3.2 | System for detecting toxic language | 2023-06 |
D1.3.3 | Language models | 2023-09 |
D1.3.4 | Noise-resistant models | 2023-12 |
D2.1.1 | Licensing agreements for personal data | 2022-09 |
D2.1.2 | Licensing agreements for special categories | 2023-06 |
D2.2.1 | Speech recognition for L2 | 2022-12 |
D2.2.2 | Speech recognition for L2 update | 2023-12 |
D2.3.1 | Licensing interpretation sessions | 2022-12 |
D2.3.2 | Aligning and retrieving interpretations | 2023-12 |
D2.4.1 | Term discovery procedures | 2022-09 |
D2.4.2 | Terminology application | 2023-06 |
D2.4.3.1 | Initializing terminology collections | 2022-09 |
D2.4.3.2 | Initializing terminology collections | 2023-06 |
D2.4.3.3 | Initializing terminology collections | 2023-12 |
D2.5.1 | Test performances storage | 2022-12 |
D2.5.2 | Learner performances tools | 2023-12 |
D3.1.1 | Initial NLF data | 2022-09 |
D3.1.2 | Ingestion framework | 2022-12 |
D3.1.3 | Versioning support | 2023-06 |
D3.1.4 | Incremental update process | 2023-12 |
D3.2.1 | Pipeline for transferring archival data | |
D3.2.2 | Annotation tools for NARC data | 2023-12 |
D3.3.1 | Qualitative survey data concept network | 2022-09 |
D3.3.2 | Browser for data concept network | 2023-09 |
D3.4.1 | Livestream data collector | 2022-12 |
D3.5.1 | Text network analysis of political texts | |
D3.5.2 | TNA network of Parliamentary debates | 2023-09 |
D4.1.1 | Harmonized FNB | 2022-09 |
D4.1.2 | Harmonization code | 2022-12 |
D4.1.3 | Visualisation workflow | 2023-06 |
D4.1.4 | R/Python modules | 2023-12 |
D4.2.1 | LDF knowledge extraction tools | 2022-12 |
D4.2.2 | Parliament of Finland ontology | 2023-12 |
D4.3.1 | Subsetting tool | 2022-09 |
D4.3.2 | Statistical overviews and bias detection | 2023-06 |
D4.3.3 | Intelligent noise reduction | 2023-12 |
D5.1.1 | User experience questionnaire | 2022-09 |
D5.1.2 | Log data collection and analysis | 2023-06 |
D5.1.3 | Protocol for collecting workshop data | 2023-12 |
D5.2.1 | Actor network | 2022-12 |
D5.2.2 | Educational material | 2023-12 |
Kielipankki Live on verkkotapahtumien sarja, jossa haastatellaan tutkijoita ja keskustellaan ajankohtaisista Kielipankkiin liittyvistä aiheista. Tapahtumissa tallennetut esitykset julkaistaan jälkikäteen YouTubessa (katso linkit aiempien tapahtumien kohdalta). Kun haluat pysyä ajan tasalla Kielipankki Live -tilaisuuksista ja muista Kielipankin uutisista, tilaa uutiskirje!
Ilmoittaudu tapahtumaan tällä lomakkeella viimeistään 11.12.2020. Ilmoittautumisen yhteydessä voit esittää kysymyksiä tutkijavieraille ja Kielipankin asiantuntijoille. Myös tapahtuman aikana on mahdollisuus kysyä ja keskustella.
Kaikille ennakkoon ilmoittautuneille lähetetään liittymislinkki Zoom-alustalle ennen tilaisuuden alkua. Myös ennakkoilmoittautumisen päätyttyä voit saada liittymislinkin lähettämällä sähköpostia osoitteeseen fin-clarin [AT] helsinki.fi.
Huomaathan, että Kielipankki Live -tapahtumat tallennetaan ja videotallenteen keskeiset osuudet julkaistaan verkossa jälkikäteen. Jos et halua kuvasi tai äänesi olevan mukana tallenteessa, pidäthän kameran ja mikrofonin pois päältä tapahtuman aikana. Keskusteluun voi osallistua myös chatissa. Tapahtuman osallistujien nimiä tai yhteystietoja ei julkaista.
järjestetään Joensuussa Itä-Suomen yliopistossa. Tapahtuman teemana on kieli, elämä ja yhteiskunta. Myös Kielipankki näkyy paikan päällä ja etenkin perjantaiaamupäivällä 17.5. saatat bongata yliopistolla ihmisiä, joilla on yllään vaaleansininen possupaita… Vedä meitä hihasta, poikkea esittelypisteellä tai tule kuuntelemaan esitelmiä!
will be organized in Joensuu by the University of Eastern Finland. The theme of the conference is language, life, and the society. The Language Bank of Finland will be present during the conference and especially on Friday morning, you might notice some people wearing a pale blue t-shirt with a happy piglet… Come and talk to us, visit our stand or see our presentations!
Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”
Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)
The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.
Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)
Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.
Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”
Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)
The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.
Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)
Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.
CLARIN ERIC on koostanut näyttävän julkaisun vuonna 2016 alkaneelta Tour de CLARIN -esittelykierrokselta, jossa CLARIN-jäsenmaat ja niiden aineistot, työkalut ja tutkimushankkeet pääsevät vuorotellen valokeilaan. Juuri ilmestyneessä Tour de CLARIN -kokoelman ykkösosassa esitellään ihan ensimmäisenä suomalainen FIN-CLARIN. Julkaisussa ovat mukana myös Ruotsi, Itävalta, Alankomaat, Puola, Belgian Flanderi, Tšekin tasavalta, Kreikka sekä Liettua.
Tour de CLARIN -kierros jatkuu ja sitä voi seurata tuoreeltaan CLARIN ERICin verkkosivuilta.
Hyvä Suomi!
The quickest way to explore the Language Bank’s services is to try the Korp interface where many of our corpora are deposited and can be queried without logging in or applying for access rights of the language resources. Korp features e.g. the Suomi 24 discussion forum corpus that is interesting from the points of view of several digital humanities and social sciences.
Other good ways to begin are the Newspaper and Periodical Corpus of the National Library of Finland and the Plenary Sessions of the Parliament of Finland, which are also available for download in addition to Korp.
Every year, the Language Bank of Finland is presented in Roadshow events that are organized at each of the member organizations of FIN-CLARIN. Come and see how you could use the services of the Language Bank in your research!
Roadshow schedule:
2020:
2019:
kuva: Risto Turunen
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Tampereen yliopiston tohtorikoulutettava Risto Turunen kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.
Olen Risto Turunen. Teen historiatieteen väitöskirjaa Tampereen yliopiston yhteiskunta- ja kulttuuritieteiden yksikössä.
Suomessa oli Euroopan suurin sosialistinen puolue vuonna 1907. Tutkin sosialismin läpimurtoa erityisesti kielen näkökulmasta. Minkälainen diskurssi, käsitejärjestelmä tai poliittinen kieli suomalainen sosialismi oikeastaan oli? Etenkin työväenlehdistö kylvi tehokkaasti sosialismin siementä kansan keskuuteen. Miltei kaikki suomenkieliset sanomalehdet on digitoitu vuoteen 1910 saakka. Koska lehdet ovat koneluettavassa muodossa, voin tutkia sosialismin kieltä makrotasolla kvantitatiivisin menetelmin.
Olen tutkinut näitä lehtiä muun muassa Kielipankin Korp-käyttöliittymän avulla. Voin esimerkiksi selvittää, milloin ”sosialismi” yleistyy sanana koko lehdistössä tai mitkä yksittäiset lehdet kirjoittavat eniten ”sosialismista”. Lisäksi olen vertaillut ”sosialismin” kielellistä esiintymiskontekstia sosialistisissa ja ei-sosialistisissa lehdissä. Vertailu paljastaa, millaisia merkityksiä aatteen kannattajat ja vastustajat yrittävät liittää sanaan.
Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman hankinnan taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Mika Federley
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Hanna Westerlund kertoo Kielipankissa olevia laki- ja säädöskielen aineistoja koskevasta tutkimuksestaan.
Olen Hanna Westerlund, käännöstieteen tutkijakoulutettava kielentutkimuksen tohtorikoulutusohjelmassa.
Olen kiinnostunut kollokaatioista eli yhteisesiintymistä kääntäjän haasteena ja kielentutkimuksen mahdollisuuksista selvittää kollokaatioiden tunnistamiseen ja tuottamiseen liittyviä kysymyksiä. Varsinainen tutkimusaineistoni koostuu Euroopan unionin suomeksi käännetyistä asetuksista, joista olen koonnut tekstikorpuksen Suomen yhteisöön liittymisen ajalta. Verrannaisaineisto sisältää vastaavia Suomen lainsäädännön tekstejä.
Pidän tärkeänä selvittää ainakin osittain, mitä tutkimusaineistosta löytämilleni esiintymille on ajan mittaan tapahtunut: ovatko käännösten mukana suomalaiseen säädöskieleen saapuneet yhteisesiintymät edelleen löydettävissä säädöskokoelmasta, ovatko ne syrjäyttäneet kotoperäiset vaihtoehdot vai elävätkö ne kaikki teksteissä rinnakkain. Tekstikorpuksen kokoaminen, käsittely ja hallinnointi ovat osoittautuneet sekä teknisesti että laadullisesti haastaviksi ja aikaa vieviksi tehtäviksi, ja vastaavan aineiston kokoaminen nykyisestä säädöskokoelmasta olisi minulle täysin mahdoton tehtävä. Onneksi ei tarvitsekaan: Kielipankki tarjoaa tutkimustani varten sekä teknisesti puhtaan ja luotettavan laeista ja direktiiveistä koostuvan aineiston että työkaluja aineiston käsittelyyn. Tutkimukseni toisen osion toteuttamisessa Kielipankin laki- ja säädöskielen aineistot ovat aivan korvaamattomia.
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
Tutkijat kertovat miten he hyödyntävät Kielipankin aineistoja: http://bit.ly/2g6Ds1J.
kuva: Mika Federley
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston tohtorikoulutettava Markus Hamunen kertoo useita Kielipankissa olevia murreaineistoja koskevasta tutkimuksestaan.
Olen Markus Hamunen ja olen tohtorikoulutettavana kielentutkimuksen koulutusohjelmassa suomen kielen oppiaineessa. Väitöstutkimukseni käsittelee toiminnan tapaa ja keinoa kuvaavia infiniittisiä verbirakenteita murrepuheessa (esim. männä koekkelehtii, tuloo juoste, tekköö salvaamala).
Tutkimukseni kiinnittyy konstruktiokieliopin nimellä kulkevaan kielenkuvausmalliin. Selvittelen toisaalta sitä, miten tavan ja keinon käsitteet ilmenevät ko. infinitiivirakenteiden semantiikassa ja mitä on tapa ja keino ylipäätään ja toisaalta sitä, kuinka rakenteita on käytetty suomen murteissa.
Kielipankin murreaineistoja sisältävistä korpuksista erityisesti Digitaalinen muoto-opin arkisto (dma), Lauseopin arkisto (LA-murre-korp) sekä Suomen kielen näytteitä -korpus (SKN-korp) ovat olleet erittäin hyödyllisiä täsmähaun mahdollistavien toimintojensa ansiosta. Tutkimani infinitiivirakenteet eivät ole frekventtejä murrepuheessa, joten korpustyökalut ovat olleet tehokas apu aineiston hankinnassa.
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Auroora Vihervalli
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Helsingin yliopiston filosofian maisteri Auroora Vihervalli kertoo, miten hän hyödynsi Kielipankissa olevaa Ylilauta-korpusta 2010-luvun nettikieltä koskevassa tutkielmassaan.
Olen Auroora Vihervalli, filosofian maisteri Helsingin yliopistosta. Pääaineeni oli suomen kieli. Pro gradu -tutkielmani valmistui huhtikuussa.
Tutkin pro gradu -tutkielmassani abessiivisijaisten nominien käyttöfunktioita 2010-luvun nettikielessä. Tiivistettynä tavoitteenani oli tutkia abessiivisijaisten nominien käyttöä, valinnaisuutta ja välttämättömyyttä lauseessa sekä kiteytymistä – toisin sanoen abessiivinominien käyttöfunktioita erilaisissa konteksteissa.
Tutkielmani aineiston abessiivit on kerätty Kielipankin kautta. Käytin Ylilauta-korpusta, joka on morfologisesti koodattu Kielipankin Korp-konkordanssihakuohjelmaan. Haun avulla kokosin aineistoni.
Koska abessiivinominit ovat jokseenkin harvinaisia, olisi niiden etsiminen omin päin ollut hidasta. Kielipankin Ylilauta-korpus oli tutkimukselleni juuri sopiva, sillä sen aineisto on kerätty vuosilta 2012–2014 ja se edustaa vapaata, tarkastamatonta kieltä.
Kielipankissa olevan Ylilauta-korpuksen hankinnan taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Tuija Määttä
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Uumajan yliopiston suomen kielen lehtori ja tutkija Tuija Määttä kertoo, miten hän hyödyntää Kielipankissa olevaa Kansainvälistä oppijansuomen korpusta.
Olen Tuija Määttä, suomen kielen lehtori ja tutkija Uumajan yliopiston Kieliopintojen laitoksessa (Institutionen för språkstudier, Umeå universitet). Virkani on opetusvirka, ja opetan hyvin erilaisilla kursseilla aina alkeistason opiskelijoista tohtorikoulutettaviin asti. Tutkimustyötä teen vapaa-ajallani.
Minua on aina kiehtonut eniten alkeistason opiskelijoiden suomen kielen oppiminen, omaksuminen ja kehittyminen. Niinpä olen viimeisten vuosien aikana tarkastellut useista näkökulmista, miten ruotsinkieliset suomenoppijat käyttävät suomen eri paikallissijoja kirjallisissa tuotoksissaan. Toinen mielenkiintoinen tutkimuskohde on sanasto. Aineistona käytän Kansainvälistä oppijansuomen korpusta (ICLFI), johon kuuluu osana ruotsinkielisiltä suomenoppijoilta kerätty osakorpus. Osakorpuksen tekstit ovat peräisin juuri Uumajasta, ja olen kerännyt niitä alkeistason oppijoiltani jo kymmenen vuoden ajan.
ICLFI-korpus on nykyisin Kielipankissa. ICLFI-hanke aloitettiin vuonna 2007 professori Jarmo Jantusen aloitteesta. Olen ollut alusta lähtien mukana tässä hankkeessa, jonka yhtenä tavoitteena oli luoda laajahko oppijansuomen korpus, joka sisältää eri äidinkielisten suomenoppijoiden kirjallisia tuotoksia. Nyt, kun korpus on yli miljoonan saneen laajuinen, on hienoa, että se on avoin ja helposti saatavilla Kielipankin kautta kaikille oppijansuomesta kiinnostuneille tutkijoille.
Kielipankissa olevan ICLFI-korpuksen taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä.Helsingin yliopiston tohtorikoulutettava Antti Kanner kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.
Olen Antti Kanner, tohtorikoulutettava suomen kielen oppiaineessa ja kielentutkimuksen tohtorikoulutusohjelmassa. Väitöskirjani käsittelee leksikaalista semantiikkaa, polysemiaa ja merkityksen historiallista variaatiota suurissa tekstiaineistoissa.
Tutkimukseni liittyy toisaalta Tieteen kansalliseen termipankkiin, erityisesti sosiaalioikeuden termistön kehittymiseen sillä tutkimani sanat liittyvät juuri sosiaalipolitiikan ja -oikeuden kehittymiseen ja toisaalta julkisuuden muutosta Suomessa 1640-1910 tutkivaan COMHIS-hankkeeseen.
Tutkimukseni pääasiallinen aineisto on Kansalliskirjaston sanomalehtikorpus, jota täydennän jonkin verran myös muilla Kielipankin korpusaineistoilla. Käytän aineistoja Korp-palvelun API:n kautta, jolloin voin sekä ajaa automaattisesti pitkiäkin kyselylistoja ja saada yksityiskohtaisia konteksti- ja frekvenssitietoja suuresta määrästä hakusanoja, että hyötyä aineistojen morfologisesta annotoinnista.
Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Turun yliopisto
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Turun yliopiston suomen kielen dosentti Kirsi-Maria Nummila kertoo useita Kielipankissa olevia aineistoja koskevasta tutkimuksestaan.
Olen filosofian tohtori ja suomen kielen dosentti Kirsi-Maria Nummila. Toimin tällä hetkellä opetus- ja tutkimustehtävissä Turun yliopiston kieli- ja käännöstieteiden laitoksella suomen kielen ja suomalais-ugrilaisen kielentutkimuksen oppiaineessa.
Keskeisiä tutkimusaiheitani ovat sanastontutkimus, sananmuodostus, kielen kehitys, kielikontaktit ja vanha kirjasuomi. Olen tarkastellut ja tarkastelen tutkimuksissani omaperäistä kompleksista sanastoa, pääasiassa johdoksia ja johdostyyppien kehitystä, lainasanastoa ja keskiaikaista nimistöä, vanhalle kirjasuomelle tyypillisiä konstruktioita, syntaktista ja morfologista lainaamista sekä historiallista koodinvaihtoa.
Olen käyttänyt ja käytän Kielipankin aineistoja tai aineistoja, joita Kielipankki nykyään tarjoaa, lähestulkoon kaikissa tutkimuksissani. Omien tutkimusteni ja tutkimusintressieni kannalta Kielipankin korpukset muodostavatkin keskeisimmän aineistolähteen. Tärkeimpinä korpuksina mainittakoon Digitaalinen muoto-opin arkisto, Suomen kielen tekstikokoelma, Kansalliskirjaston sanoma- ja aikakauslehtikokoelma sekä hiljattain Kielipankin aineistoihin liitetty Vanhan kirjasuomen korpus. On hienoa, että myös Suomen Akatemian rahoittamassa monivuotisessa hankkeessa tuotettu Mikael Agricolan teosten morfosyntaktinen tietokanta, jota olen itse ollut laatimassa, julkaistaan Kielipankissa lähitulevaisuudessa.
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
Linkki artikkeliin: https://www.helsinki.fi/fi/uutiset/kielipankki-sailoo-kielta-ja-kulttuuria
kuva: Mihail Kopotev
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä.
Olen Mihail Kopotev ja toimin Helsingin yliopiston nykykielten laitoksella venäjän kielen yliopistonlehtorina.
Suomi–venäjä-kääntämisen käytäntöjä käsittelevällä kurssillani käytän muun muassa Kielipankin kaunokirjallisten tekstien suomi–venäjä-rinnakkaiskorpusta (ParFin). Kurssiin osallistujilla on mahdollisuus tehdä sekä käytännön käännösharjoituksia että omaa tutkimusta. Opiskelijoilta saatu palaute on ollut hyvin positiivista. Suurin osa heistä ei ole kuulut aineistosta ennen, mutta he aikovat käyttää sitä jatkossa työssään.
Rinnakkaiskorpuksesta on moninaista hyötyä kääntäjille ja opettajille. Sen suurin etu on, että se mahdollistaa sanojen ja sanayhdistelmien vastineiden etsimisen autenttisissa käännösaineistoissa. Muuntyyppiset korpukset tai sanakirjat eivät voi tarjota näin vaikuttavaa ja rikasta aineistoa, jota voi käyttää sekä vertailussa että yksittäisten käännöspäätösten tekemisessä.
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.
kuva: Kilian Dorner
Kielipankki koostuu kattavasta joukosta aineistoja sekä niiden tutkimiseen soveltuvista ohjelmistoista tehokkaassa laiteympäristössä. Greifswaldin yliopiston suomen kielen ja kulttuurin professori Marko Pantermöller kertoo Kielipankissa olevaa Kansalliskirjaston sanoma- ja aikakauslehtikokoelmaa koskevasta tutkimuksestaan.
Olen Marko Pantermöller, saksalainen fennisti, ja toimin Greifswaldin yliopiston suomen kielen ja kulttuurin professorina. Greifswaldissa suomen kielen tutkimuksella ja opiskelulla on pitkät perinteet, jotka ulottuvat 1920-luvun alkuun.
Olen kiinnostunut kielen pitkäkestoisista muutosprosesseista ja niiden takana olevista muutosmekanismeista. Tuoreimmassa tutkimuksessani käsittelen nykyään samoissa kontekstissa kilpailevia ilmaustyyppejä, sellaisia kuin lämpötila nousee yli kolmenkymmenen asteen vs. lämpötila nousee yli kolmeenkymmeneen asteeseen. Viimeksi mainittu kielenkäyttöön jo vakiintunut rakenne pistää varmasti juuri sellaisten ihmisten korvaan, joilla on lähinnä normatiivinen näkökulma kieleen tai jotka, niin kuin minä, ovat oppineet suomea normatiivisen kielididaktiikan ohjaamina. Rakenteen lingvistinen kiinnostavuus johtuu siitä, että se tuntuu ilmaisevan samanaikaisesti rajanylityksen ja päätepisteen. Kutsun sitä sen vuoksi pseudoterminatiiviseksi rakenteeksi.
Pseudoterminatiivista rakennetta koskeva tutkimus on empiirinen pilottitutkimus, joka sijoittuu osaksi laajempaa likimäärän ilmaisujen kehitystä koskevaa tutkimushankettani.
Pilottitutkimukseen sovelsin kahta eriluonteista empiiristä menetelmää, jotka tunnetaan nimillä näennäisaikamenetelmä ja reaaliaikamenetelmä. Näennäisaikamenetelmän perusteena käytin laajan kyselyn tuloksia. Kyselyn puitteessa yli tuhat eri-ikäistä osallistujaa lausui mielipiteensä kilpailevista ilmaustyypeistä. Lähtemällä liikkeelle oletuksesta, jonka mukaan iäkkäämpien henkilöiden kielenkäyttö edustaa kielenkehityksen aikaisempaa vaihetta ja vastaavasti nuorempien nykyisempää vaihetta, pystyin mallintamaan kielen mahdollista kehitystä.
Alustavaan hypoteesiini etsin ja sain vahvistusta Kielipankin Korp-palvelun tarjoamasta Kansalliskirjaston lehtikorpuksesta. Löysin korpuksen avulla vastauksen siihen, milloin pseudoterminatiivista rakennetta alettiin käyttää lehtikielessä. Pystyin myös reaaliaikaisesti seuraamaan, mistä kontekstista muutos on lähtenyt liikkeelle ja miten pseudoterminatiivisen rakenteen käyttö on pikkuhiljaa kasvanut. Poimintojen jälkikäsittelyssä hyödynsin Korpin export-funktiota. Laajan lehtikorpuksen hyödyntämistä tutkimuksessa edisti se, että korpuksen järjestelyperiaate on puhtaasti kronologinen. Kyselyssä esille tulleet maallikkojen väitteet ilmaisun mahdollisesta murrelähtöisyydestä tarkistin muun muassa Kielipankin digitaalisen muoto-opin arkiston aineiston avulla.
Kielipankissa olevan Kansalliskirjaston sanoma- ja aikakauslehtikokoelman hankinnan taustatiedot
FIN-CLARIN eli suomalaisten yliopistojen, Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.
Kaikki toistaiseksi esitellyt Kielipankin käyttäjät löytyvät Kuukauden tutkija -arkistosta.