FIN-CLARIAH Workshop Day 18.11.2022 11-17 @ University of Jyväskylä

<< FIN-CLARIAH Overview

Workshop Program

11.00-12.00 Jari Ojala: Welcoming words + Pasi Tyrväinen: Keynote

12.00-13.00 Lunch

13.00-13.15 Anna Sendra Toset: Results from FIN-CLARIAH interviews

13.15-14.30 Teamwork in thematic groups:

  1. CSC integration – Slides (Martin Matthiesen)
  2. Data licensing – Slides (Mietta Lennes)
  3. The end-user perspective I (Eetu Mäkelä)
  4. The end-user perspective II  (Mikko Laitinen)

14.30-15.00 Coffee 

15.00-16.00

  • Reports from thematic groups
  • Mikko Tolonen: Why metadata matters in FIN-CLARIAH? (Slides)
  • General discussion 

16.00-17.00 Socializing & refreshments (Executive board meeting)

 

Löydä tehokkaita työskentelytapoja ja suunnittele aineistosi hallintaa Data Clinic -kurssilla!

Avoin verkkokurssi Data Clinic käynnistyy 11.11.2022 ja jatkuu huhtikuun 2023 lopulle. Talven ja kevään aikana opit kirjoittamaan oman aineistonhallintasuunnitelman (Data Management Plan, DMP) ja saat käytännön tukea ja neuvontaa aineistosi keräämiseen, käsittelyyn ja hallintaan. Opiskelu tapahtuu lähtökohtaisesti etänä, osin itsenäisesti ja osin pienissä vertaisryhmissä.

Kurssimateriaalit tarjotaan pääosin englanniksi. Kaikkien yliopistojen ja tieteenalojen opiskelijat ovat sallitun opiskelijamäärän rajoissa tervetulleita. Ainoa esivaatimus on, että olet aloittamassa tutkimusta, jossa sinun pitää käsitellä ja hallita juoksevaa tekstiä ja/tai puhetallenteita sisältävää aineistoa (ts. kieliaineistoa).

Lue lisää ja tule mukaan kurssille 28.11. mennessä!

Avoin verkkokurssi Puheen analyysin perusteet 31.10.–12.12.2022

Verkkokurssilla otetaan haltuun perustyökalut puhenäytteiden litterointiin, transkribointiin ja tutkimiseen ja opitaan oman puhekorpuksen suunnittelun ja hallinnan periaatteita. Kurssin aikana käytetään aktiivisesti Praat-ohjelmaa ja tutustutaan myös ELANiin.

Kurssi on avoin kaikkien yliopistojen opiskelijoille ja sen voi suorittaa joko suomeksi tai englanniksi. Osallistujamäärää saatetaan kuitenkin tarvittaessa rajoittaa. Opettajina toimivat Mietta Lennes ja Juraj Šimko Helsingin yliopistosta.

Kurssi on alkanut, mutta mukaan ehtii liittyä vielä perjantaihin 11.11.2022 saakka.

Lisätietoa ja liittyminen Moodle-alueelle

FIN-CLARIAH Kick-off 3.6.2022

<< FIN-CLARIAH Overview

Posters presented in the kick-off event – Avajaistilaisuudessa esiteltävät posterit

To view or download the PDF version, click on the image.

W1.1 Text processing and annotation environments

Image of the poster W1.1 Text processing and annotation environments
Top of page

W1.2 Speech processing and annotation

Image of the poster W1.2 Speech processing and annotation
Top of page

W1.3 Noise-tolerant NLP

Image of the poster W1.3 Noise-tolerant NLP
Top of page

W2.1 Social Data Science

Image of the poster W2.1 Social Data Science
Top of page

W2.2 Learners’ Assessment Environments

Image of the poster W2.2 Learners' Assessment Environments
Top of page

W2.3 Translation and Interpretation

Image of the poster W2.3 Translation and Interpretation
Top of page

W2.4 Terminology

Image of the poster W2.4 Terminology
Top of page

W2.5 Solutions for better use of language learner performances in research

Image of the poster W2.5 Solutions for better use of language learner performances in research
Top of page

W3.1 Increasingly automated ingestion of material

Image of the poster W3.1 Increasingly automated ingestion of material
Top of page

W3.2 AI solutions to better use of National Archives mass digitisation services

Image of the poster W3.2 AI solutions to better use of National Archives mass digitisation services
Top of page

W3.3 Qualitative survey data

Image of the poster W3.3 Qualitative survey data
Top of page

W3.4 Analysis tools for real-time chats in gameplay streams

Image of the poster W3.4 Analysis tools for real-time chats in gameplay streams
Top of page

W3.5 Text network analysis of political texts

Image of the poster W3.5 Text network analysis of political texts
Top of page

W4.1 Metadata harmonization and analysis

Image of the poster W4.1 Metadata harmonization and analysis
Top of page

W4.2 Linked Open Data Services

Image of the poster W4.2 Linked Open Data Services
Top of page

W4.3 Subsetting and evaluating data

Image of the poster W4.3 Subsetting and evaluating data
Top of page

W4.4 Social media noise (and how to tackle it?)

Image of the poster W4.4 Social media noise (and how to tackle it?)
Top of page

W5.1 & 5.2 Information interaction

Image of the poster W5.1 & 5.2 Information interaction

Top of page

Kielipankki esittäytyy jälleen Langnetin kesäkoulussa

Mietta Lennes esittelee Kielipankkia ja kertoo kieliaineistojen arkistoinnin käytänteistä Langnetin kesäkoulussa 15.8. klo 14-15.

Katso lisätiedot ja lataa esityksen diat tapahtumakalenterista!

FIN-CLARIAH-aiheisia postereita

FIN-CLARIAH-infrastruktuurihankkeen aloitustapaaminen pidetään Kansalliskirjastossa 3.6.2022. Tilaisuudessa esiteltäviä postereita voi käydä ihailemassa tapahtumasivulla.

Tervetuloa verkkokurssille Korpuslingvistiikka ja tilastolliset menetelmät

Verkkokurssi Korpuslingvistiikka ja tilastolliset menetelmät (Corpus Linguistics and Statistical Methods) järjestetään jälleen 17.1.–6.3.2022. Kurssin voi suorittaa joko suomen- tai englanninkielisenä.

Osallistujamäärä on rajoitettu, mutta tilan salliessa kurssille voivat osallistua myös muiden kuin Helsingin yliopiston opiskelijat ja ulkomailtakin voidaan hyväksyä osallistujia. Helsingin yliopiston opiskelijat ilmoittautuvat tavalliseen tapaan Sisussa. Helsingin yliopiston ulkopuolisten opiskelijoiden ilmoittautuminen tapahtuu liittymällä suoraan kurssin Moodle-alueelle. Linkki Moodleen ja lisätiedot löytyvät kurssin kotisivulta.

Kurssille voi liittyä vielä 28.1.2022 saakka (ellei osallistujien maksimimäärä täyty ennen sitä).

Kurssin kotisivu

 

Muut Kielipankin järjestämät kurssit ja koulutukset

Lahjoita puhetta -kampanja palkittiin PRIX EUROPAlla: Vuoden 2021 paras eurooppalainen digitaalinen audioprojekti

Lahjoita puhetta -kampanja, jonka suunnittelussa Kielipankki on ollut mukana, palkittiin vuoden 2021 Prix Europa-festivaalilla sarjassa Best European Digital Audio Project of the Year 2021. Voittajat julkistettiin Saksan Potsdamissa 15.10.2021. Lue Ylen sivuilta lisää Prix Europa -palkinnosta: https://yle.fi/aihe/a/20-10001451

Aiemmin tänä vuonna Lahjoita puhetta on voittanut parhaan mobiilipalvelun palkinnon sekä kunniamaininnan parhaasta datan käytöstä digitaalisen median Grand One -gaalassa (linkki Ylen sivuille).

Lahjoita puhetta on Ylen, Valtion kehitysyhtiö Vaken (nykyinen Ilmastorahasto), Solitan, Aalto-yliopiston ja Helsingin yliopiston yhteinen hanke.

 

Tästä voit lahjoittaa puhettasi!

Helsingin yliopiston avoimen tieteen palkinto 2021 myönnettiin Kielipankille ja Lahjoita puhetta -kampanjalle

Helsingin yliopisto myönsi 29.10.2021 Kielipankille ja Lahjoita puhetta -kampanjalle avoimen tieteen palkinnon tunnustuksena tutkimusaineistojen avaamisen ja uudelleenkäytettävyyden edistämisestä. Kielipankin lisäksi palkinnon sai tutkimuskoordinaattori Kati Lassila-Perini.

Lokakuun lopussa pidetyssä palkintoseremoniassa tutkimusjohtaja Krister Lindén piti esityksen, joka on nyt saatavilla YouTubessa englanniksi tekstitettynä. Lisätietoa palkinnosta löytyy Helsingin yliopiston verkkosivuilta.

Löydä tehokkaita työskentelytapoja ja suunnittele aineistosi hallintaa Data Clinic -kurssilla!

Avoin verkkokurssi Data Clinic käynnistyy 12.11.2021 ja jatkuu huhtikuun 2022 lopulle. Talven ja kevään aikana opit kirjoittamaan aineistonhallintasuunnitelman ja saat käytännön tukea ja neuvontaa oman aineistosi keräämiseen, käsittelyyn ja hallintaan.

Kurssimateriaalit tarjotaan pääosin englanniksi. Kaikkien yliopistojen ja tieteenalojen opiskelijat ovat sallitun opiskelijamäärän rajoissa tervetulleita. Ainoa esivaatimus on, että olet jo aloittamassa tutkimushanketta, jossa sinun pitää käsitellä ja hallita tekstiä tai puhetallenteita sisältävää aineistoa (ts. kieliaineistoa).

Lue lisää ja tule mukaan kurssille!

Avoin verkkokurssi Puheen analyysin perusteet 1.11.-17.12.2021

Verkkokurssilla otetaan haltuun perustyökalut puhenäytteiden litterointiin, transkribointiin ja tutkimiseen ja opitaan oman puhekorpuksen suunnittelun ja hallinnan periaatteita. Kurssin aikana käytetään aktiivisesti Praat-ohjelmaa ja tutustutaan myös ELANiin.

Kurssi on avoin kaikkien yliopistojen opiskelijoille ja sen voi suorittaa joko suomeksi tai englanniksi. Osallistujamäärää saatetaan kuitenkin tarvittaessa rajoittaa. Opettajina toimivat Mietta Lennes ja Juraj Šimko Helsingin yliopistosta.

Kurssille voi ilmoittautua 12.11. saakka.

Lisätietoa ja liittyminen Moodle-alueelle

Vielä ehdit ilmoittautua luonnollisen kielen käsittelyn verkkokurssille

Tuomo Hiippala pitää Helsingin yliopistossa verkkokurssin Natural Language Processing for Linguists ajalla 15.3.2021 -10.5.2021.

Kurssi on laajuudeltaan 5 op ja sille ovat tervetulleita myös muiden kuin Helsingin yliopiston opiskelijat. Ilmoittaudu 16.3.2021 mennessä.

Kurssilla käytettävää oppimateriaalia voit hyödyntää, vaikket itse ehtisikään tällä kertaa kurssin kyytiin!

Kurssin tarkemmat tiedot

 

Tervetuloa seuraavaan Kielipankki Liveen 14.12. klo 13-15

Seuraava Kielipankki Live pidetään maanantaina 14.12. klo 13.00 alkaen englanninkielisenä Zoomin välityksellä. Aiheena tällä kertaa erityisesti puheaineistot ja tietosuojakäytänteet, esiintyjinä asiantuntevia tutkijavieraita. Tule mukaan kysymään ja keskustelemaan! Ilmoittautumisia pyydetään mieluiten 11.12. mennessä.

Ohjelma ja lisätiedot

Kielipankki Live 24.8.2020

In English

<< Kielipankki Live -tapahtumien pääsivu

Ensimmäinen Kielipankki Live järjestettiin 24.8.2020 klo 13-15. Tilaisuus pidettiin suomeksi ja juontajana toimi projektisuunnittelija Mietta Lennes. Tapahtuman keskeiset osat ovat katsottavissa YouTubessa (videoiden tekstitykset tulossa myöhemmin). Esitysten materiaalit ovat saatavilla ohjelman kohdalta.

Kun haluat pysyä ajan tasalla Kielipankki Live -tilaisuuksista ja muista Kielipankin uutisista, tilaa uutiskirje. Katso myös Kielipankin esittely!

Kielipankki Live 24.8. klo 13-15

Tapahtuman keskeiset osat ovat katsottavissa YouTubessa. Lisäksi esitysten materiaalit ovat saatavilla ohjelman kohdalta.


Jani Marjanen

Kaikkien aikojen ensimmäisen Kielipankki Live -tapahtuman vieraana on Pohjoismaiden historian tutkija Jani Marjanen.
Lahjoita puhetta

Lahjoita puhetta
-kampanjassa kerätään monipuolista puheaineistoa sekä tutkijoiden että yritysten käyttöön.
Korp-palvelu

Kielipankin Korp-hakupalvelu
päivittyy – kysymme Jyrki Niemeltä, mitä uutta on luvassa.

Ohjelma

<< Kielipankki Live -tapahtumien pääsivu

In English

 

European Language Grid (ELG): esittely ja yleiskatsaus

ELG:n neljäs alueellinen työpaja: Suomi

15.12.2020 klo 14.00-16.30
Verkkotapahtuma

 

European Language Grid (ELG) kehittää digitaalista markkinapaikkaa, jonka kautta eurooppalaiset yritykset, organisaatiot ja kansalaiset voivat sekä tarjota että tehokkaasti käyttää kieliteknologisia työkaluja, datasettejä ja palveluita. Joulukuussa järjestettävän työpajan tavoitteena on esitellä ELG:n toimintaperiaatetta ja kertoa pilottihankkeiden etenemisestä. Tervetuloa keskustelemaan siitä, mitä ELG tarjoaa sinulle!

Ilmoittautuminen

ELG-työpaja on ilmainen tapahtuma, mutta siihen on ilmoittauduttava ennakkoon. Ilmoittaudu ELRC:n verkkosivujen kautta 10.12.2020 mennessä. Huom. Ilmoittautumisen lisätiedoissa voit mainita, mikäli olet kiinnostunut osallistumaan ELG-tutoriaaliin työpajan lopussa!

Huomaa, että aiemmin samana päivänä klo 9.30-12.40 järjestetään myös Suomen kolmas ELRC-työpaja. Samalla lomakkeella voit ilmoittautua mukaan molempiin verkkotapahtumiin.

Ohjelma (muutokset mahdollisia)

ELG-työpaja järjestetään englanninkielisenä.

14:00Welcome and introduction
14:05ELG Overview
Katrin Marheinecke
14:30ELG online demo
Nils Feldhus
14:50Presentations of Finnish Pilot Projects funded in ELG: PARA4DLM (University of Turku), LSDISCO (Lingsoft); OPUS-MT (University of Helsinki)
15:20Expectations/requirements of Finnish Language Technology providers
Marko Turpeinen, 1001Lakes
15:40Summary and discussion
16:00End of workshop
16:15Tutorial: How to integrate a service into ELG
This tutorial may be organized according to requests from the participants. Please indicate your interest in the registration form.

Viimeksi päivitetty: 7.12.2020

Verkkokurssi Data Clinic 2020-21 alkaa pian

Data Clinic -verkkokurssi tukee sinua käytännön ongelmissa, jotka liittyvät gradusi tai väitöskirjasi tutkimusaineiston hallintaan. Jos täytät kurssin vaatimukset, voit osallistua mistä tahansa yliopistosta käsin. Kurssilla on vielä tällä hetkellä reilusti tilaa. Huomaa kuitenkin, että osallistujien määrä on rajoitettu ja Helsingin yliopiston LingDig-maisteriohjelman opiskelijat ovat etusijalla, jos tungosta tulee. Kurssilla on pääosin englanninkieliset materiaalit.

Lue lisää ja ilmoittaudu mukaan…

 

Katso kaikki kurssit ja koulutukset

In English

Suomen kolmas European Language Resource Coordination (ELRC) -työpaja

Verkkotapahtuma
15.12.2020 9.30-12.40

Järjestäjät:
The European Language Resource Coordination (ELRC) -konsortio
Digitaalisten ihmistieteiden osasto, Helsingin yliopisto

Tervetuloa Suomen kolmanteen ELRC-työpajaan!

Kieliteknologia muovaa monikielistä tulevaisuuttamme. Se on jo muuttanut tapoja, joilla olemme vuorovaikutuksessa keskenämme ja joilla ostamme, työskentelemme ja matkustamme. Kieliteknologiaa tarvitaan ja käytetään monissa arjen palveluissa niin julkisella kuin yksityiselläkin sektorilla. Tukenamme on ohjelmia, jotka korjaavat oikeinkirjoitusvirheet automaattisesti ja auttavat vaativassakin kirjoitustyössä; digitaalisia avustajia, jotka muuttavat puheen matkapuhelimissa oleviksi tekstiviesteiksi; botteja, jotka vastaavat puheluun, kun soitamme pankille tai sosiaali- ja terveyspalveluihin; järjestelmiä, jotka kääntävät kielestä toiseen automaattisesti, ja monia muita palveluita. Mutta voimmeko käyttää omaa kieltämme kaikenlaisessa digitaalisessa vuorovaikutuksessa? Ovatko palvelut oikeasti käyttövalmiita? Onko suomen kieli tarpeeksi hyvin tuettu pysyäkseen mukana tekoälyn kehityksessä?

Suomen kolmas European Language Resource Coordination (ELRC) -työpaja käsittelee näitä kysymyksiä ja edistää keskustelua suomenkielisen kieliteknologian asemasta ja tulevaisuudennäkymistä. Työpajassa kieliteknologian kehittäjät, soveltajat ja käyttäjät sekä yksityiseltä että julkiselta sektorilta jakavat kokemuksia, vaatimuksia ja tapoja, joilla kieliteknologian avulla voidaan tukea ja parantaa digitaalista vuorovaikutusta monikielisessä Euroopassa. Lopuksi keskustelemme siitä, kuinka kielidata eli teksti- ja puheaineistot voivat edistää tekoälyn kehitystä.

Työpaja on jatkoa Suomen edellisille ELRC-työpajoille, jotka järjestettiin 19.2.2016 ja 24.10.2018.

Nyt yhteistyössä European Language Gridin kanssa

Tämänkertainen ELRC-työpaja järjestetään yhteistyössä European Language Gridin (ELG) kanssa. ELG:n työpaja järjestetään iltapäivällä klo 14 alkaen, ks. ELG-työpajan verkkosivu. Tervetuloa mukaan molempiin tapahtumiin!

Ilmoittautuminen

ELRC-työpaja on ilmainen tapahtuma, mutta siihen on ilmoittauduttava ennakkoon. Voit ilmoittautua samalla lomakkeella sekä aamupäivän ELRC-työpajaan että iltapäivän ELG-työpajaan.

Ilmoittaudu ELRC:n sivujen kautta 10.12.2020 mennessä. Tervetuloa!

Ohjelma (muutokset mahdollisia)

Aamupäivän ELRC-työpaja on suomenkielinen ja puheenvuorot tulkataan ruotsiksi, englanniksi ja suomalaiselle viittomakielelle. Iltapäivän ELG-työpaja on englanninkielinen.

09:30 – 09:40

Tervetuloa (video, pdf)
Krister Lindén, Helsingin yliopisto / FIN-CLARIN

09:40 – 10:00

Kieliteknologian ja tekoälyn mahdollisuudet – nykytila ja tulevaisuus (englanniksi; video, pdf)
Jörg Tiedemann, Helsingin yliopisto

10:00 – 10:30

Suomen kielten kieliteknologiat – paneelikeskustelu (englanniksi; video, pdf)
Filip Ginter, Turun yliopisto (Moderator)
Sebastian Andersson, Lingsoft
Jörg Tiedemann, Helsingin yliopisto
Sampo Pyysalo, Turun yliopisto
Pasi Tapanainen, Etuma
Kaarina Hyvönen, Kielikone

10:30 – 10:45

Kahvitauko

10:45 – 11:15 

CEF AT -palvelun esittely ja demo (englanniksi; video, pdf)
Vilmantas Liubinas, 
Euroopan komissio

11:15 – 11:45

Kieliteknologiat julkisissa palveluissa – paneelikeskustelu (video, pdf)
Jouko Salonen, Maahanmuuttovirasto (vetäjä)
Osma Suominen, Kansalliskirjasto
Ville Viitasaari, Kela
Kaisamari Kuhmonen, Valtioneuvoston kanslia

11:45 – 12:15

Kielidatan luominen, hallinta ja jakaminen: olemassa olevia käytänteitä ja haasteita – paneelikeskustelu (video)
Aleksi Rossi, YLE (vetäjä)
Krister Lindén, Helsingin yliopisto / FIN-CLARIN
Mikko Kurimo, Aalto-yliopisto
Tommi Kurki, Turun yliopisto

12:15 – 12:30

The EU Council Presidency Translator – Suomen puheenjohtajuuden menestystarina ja sen jatko (video, pdf)
Pekka Myllylä, Managing Director at Tilde Eesti OÜ

12:30 – 12:40

Yhteenveto (video, pdf)
Krister Lindén, Helsingin yliopisto / FIN-CLARIN

12:40 – 14:00

Tauko

14:00 – 16:30

European Language Grid (ELG): Esittely ja yleiskatsaus.
Neljäs alueellinen European Language Grid (ELG) -työpaja Suomessa

ELG-työpaja järjestetään yhdessä European Language Gridin (ELG) kanssa. Huomaa, että ELG-työpaja pidetään vain englanniksi. Tervetuloa päivän molempiin tapahtumiin!
Katso ELG-työpajan lisätiedot ja tarkka ohjelma

Ilmoittaudu ELRC:n sivujen kautta 10.12.2020 mennessä. Tervetuloa!

Lisätietoja järjestäjiltä:

Mietta Lennes ja Tommi Jauhiainen
Helsingin yliopisto / FIN-CLARIN
fin-clarin [ATT] helsinki.fi

Viimeksi päivitetty: 8.12.2020

ELRC:n ja ELG:n kanssa on suunnitteilla yhteistapahtuma 15.12.2020

FIN-CLARIN aikoo järjestää ELRC:n (European Language Resource Coordination) ja ELG:n (European Language Grid) kanssa yhteisen työpajapäivän 15.12.2020. Tapahtumissa kohtaavat suomalaiset yritykset, organisaatiot ja tutkijat, jotka kehittävät, tarjoavat tai hyödyntävät kieliteknologiaa ja haluavat tarjota tai käyttää monikielisiä palveluita. Työpajat toteutetaan etäyhteydellä.

Merkitse kalenteriin! Työpajojen ohjelma ja tarkemmat tiedot ilmoitetaan myöhemmin verkkosivulla.

Osallistu verkkokurssille Puheen analyysin perusteet!

Kaikille yliopistoille avoin verkkokurssi Puheen analyysin perusteet (5 op) on jälleen alkanut. Kurssi tarjotaan nyt ensimmäistä kertaa sekä suomen- että englanninkielisenä. Ryhmäkoon salliessa voit liittyä mukaan mistä tahansa yliopistosta vielä 6.11.2020 saakka. Kurssin kotisivulla on ohjeet Moodle-alueelle liittymiseen.

Puheen analyysin kurssilla opitaan litteroimaan ja annotoimaan puhetta ja ymmärtämään keskeisimpiä akustisia kuvaajia ja mittausmenetelmiä, joita puheen tutkimisessa voidaan hyödyntää. Työkaluna käytetään lähinnä Praat-puheanalyysiohjelmaa, mutta myös ELANiin tutustutaan. Kurssi soveltuu fonetiikan ja kieliaineiden opiskelijoiden lisäksi muillekin aloille, joilla halutaan tutkia puheäänitteitä.

FIN-CLARINin koko kurssitarjonta löytyy kootusti Koulutus-sivulta.

Kielipankki Live 24.8.2020 – Lahjoita puhetta: haastattelussa Krister Lindén

Tutkimusjohtaja Krister Lindén
 

Elokuussa 2020 järjestetyssä Kielipankki Live -verkkotapahtumassa Mietta Lennes haastatteli FIN-CLARINin tutkimusjohtaja Krister Lindéniä, joka kertoi Kielipankin roolista Lahjoita puhetta -kampanjassa.

Miten Lahjoita puhetta -kampanja sai alkunsa ja miten Kielipankki liittyy siihen?

– Vuosi sitten VAKE pyysi Helsingin yliopiston Kielipankilta selvityksen siitä, mitä tarvitaan sellaisen kielikeskeisen tekoälyn toteuttamiseksi, jolla voidaan edistää suomalaista yhteiskuntaa. Selvityksessä kävi ilmi, että monenlaisia tekoälyyn soveltuvia yleisaineistoja on, mutta teollisuudelle soveltuvia isoja arkikielen puheaineistoja vielä puuttui.

– Esim. YLEllä on paljonkin puheaineistoja, mutta niihin liittyy monella tavalla tekijänoikeuksia. Myös Kotuksella on isoja murreaineistoja, mutta niitä voi kiistattomasti käyttää vain tutkimustarkoituksiin, koska ne on kerätty ennen uutta GDPR:ää.

Kuka voi saada aineistoa ja mitä sillä voi tehdä?

– Puhelahjoitukset on nyt kerätty sellaisilla sopimuksilla, että niitä voi käyttää sekä tutkimus- että tuotekehitystarkoituksiin, mutta niitä ei voi toistaa suurelle yleisölle sellaisinaan.

Yleisöltä on jo tullut etukäteen tiedusteluja siitä, milloin Lahjoita puhetta -aineistoa voisi saada tutkittavaksi. Milloin se tapahtuu?

– Tällä hetkellä aineisto kertyy tietokantaan, jonka kustannusrakenne sattuu olemaan sellainen, että aineiston kertyminen ja tallennus ei maksa kovin paljon, mutta sen kopiointi omaan käyttöön maksaa jonkin verran. 

– Lisäksi mahdolliset poistopyynnöt on helpompi hallinnoida, jos aineisto on vain yhdessä paikassa. Kokemuksen perusteella ihmiset saattavat tulla katumapäälle muutaman päivän tai viikon sisällä siitä, kun lahjoitus on tehty, mutta harvoin sen jälkeen.

– Nämä yhdessä tekevät sen, että järkevin ajankohta, milloin aineisto kannattaa tarjota muiden käyttöön on vähän sen jälkeen, kun keräyskampanja on päättynyt ja aineisto on siirretty pysyvästi Kielipankkiin.

Kuinka kauan Lahjoita puhetta -kampanja jatkuu?

– YLEn kampanja on suunniteltu tämän vuoden loppuun suomen kielen osalta. Tavoite on 10 000 tuntia ja tarkoitus on kerätä aineisto, missä sukupuoli-, ikäryhmä- ja murrejakauma on riittävän tasapainoinen. Tämä otetaan huomioon, kun päätetään voidaanko kampanja lopettaa vuodenvaihteessa.

– Näköpiirissä on, että suomenruotsin keräyskampanja alkaisi vasta syksyllä ja jatkuu sen takia vielä ensi vuoden puolella.

Milloin yritykset voivat saada aineiston?

– Tarvitaan vähän aikaa aineiston jakelun valmisteluun, joten näillä näkymin yritykset voisivat saada suomen aineiston ensi vuoden toisella vuosineljänneksellä.

Voisiko myös sitä hauskaa puheenkeruusovellusta käyttää aineiston keräämiseen omissa tutkimusprojekteissa?

– VAKE, joka on rahoittanut sovelluksen, on ainakin aikaisemmin ilmoittanut että sovellus julkaistaan avoimena lähdekoodina, jota voi hyödyntää ja kehittää eteenpäin.


Kielipankki Live -tapahtumien verkkosivu

Linkkejä