Löydä tehokkaita työskentelytapoja ja suunnittele aineistosi hallintaa Data Clinic -kurssilla!
Avoin verkkokurssi Data Clinic käynnistyy 11.11.2022 ja jatkuu huhtikuun 2023 lopulle. Talven ja kevään aikana opit kirjoittamaan oman aineistonhallintasuunnitelman (Data Management Plan, DMP) ja saat käytännön tukea ja neuvontaa aineistosi keräämiseen, käsittelyyn ja hallintaan. Opiskelu tapahtuu lähtökohtaisesti etänä, osin itsenäisesti ja osin pienissä vertaisryhmissä.
Kurssimateriaalit tarjotaan pääosin englanniksi. Kaikkien yliopistojen ja tieteenalojen opiskelijat ovat sallitun opiskelijamäärän rajoissa tervetulleita. Ainoa esivaatimus on, että olet aloittamassa tutkimusta, jossa sinun pitää käsitellä ja hallita juoksevaa tekstiä ja/tai puhetallenteita sisältävää aineistoa (ts. kieliaineistoa).
Avoin verkkokurssi Puheen analyysin perusteet 31.10.–12.12.2022
Verkkokurssilla otetaan haltuun perustyökalut puhenäytteiden litterointiin, transkribointiin ja tutkimiseen ja opitaan oman puhekorpuksen suunnittelun ja hallinnan periaatteita. Kurssin aikana käytetään aktiivisesti Praat-ohjelmaa ja tutustutaan myös ELANiin.
Kurssi on avoin kaikkien yliopistojen opiskelijoille ja sen voi suorittaa joko suomeksi tai englanniksi. Osallistujamäärää saatetaan kuitenkin tarvittaessa rajoittaa. Opettajina toimivat Mietta Lennes ja Juraj Šimko Helsingin yliopistosta.
Kurssi on alkanut, mutta mukaan ehtii liittyä vielä perjantaihin 11.11.2022 saakka.
FIN-CLARIAH-infrastruktuurihankkeen aloitustapaaminen pidetään Kansalliskirjastossa 3.6.2022. Tilaisuudessa esiteltäviä postereita voi käydä ihailemassa tapahtumasivulla.
Tervetuloa verkkokurssille Korpuslingvistiikka ja tilastolliset menetelmät
Verkkokurssi Korpuslingvistiikka ja tilastolliset menetelmät (Corpus Linguistics and Statistical Methods) järjestetään jälleen 17.1.–6.3.2022. Kurssin voi suorittaa joko suomen- tai englanninkielisenä.
Osallistujamäärä on rajoitettu, mutta tilan salliessa kurssille voivat osallistua myös muiden kuin Helsingin yliopiston opiskelijat ja ulkomailtakin voidaan hyväksyä osallistujia. Helsingin yliopiston opiskelijat ilmoittautuvat tavalliseen tapaan Sisussa. Helsingin yliopiston ulkopuolisten opiskelijoiden ilmoittautuminen tapahtuu liittymällä suoraan kurssin Moodle-alueelle. Linkki Moodleen ja lisätiedot löytyvät kurssin kotisivulta.
Kurssille voi liittyä vielä 28.1.2022 saakka (ellei osallistujien maksimimäärä täyty ennen sitä).
Helsingin yliopiston avoimen tieteen palkinto 2021 myönnettiin Kielipankille ja Lahjoita puhetta -kampanjalle
Helsingin yliopisto myönsi 29.10.2021 Kielipankille ja Lahjoita puhetta -kampanjalle avoimen tieteen palkinnon tunnustuksena tutkimusaineistojen avaamisen ja uudelleenkäytettävyyden edistämisestä. Kielipankin lisäksi palkinnon sai tutkimuskoordinaattori Kati Lassila-Perini.
Lokakuun lopussa pidetyssä palkintoseremoniassa tutkimusjohtaja Krister Lindén piti esityksen, joka on nyt saatavilla YouTubessa englanniksi tekstitettynä. Lisätietoa palkinnosta löytyy Helsingin yliopiston verkkosivuilta.
Löydä tehokkaita työskentelytapoja ja suunnittele aineistosi hallintaa Data Clinic -kurssilla!
Avoin verkkokurssi Data Clinic käynnistyy 12.11.2021 ja jatkuu huhtikuun 2022 lopulle. Talven ja kevään aikana opit kirjoittamaan aineistonhallintasuunnitelman ja saat käytännön tukea ja neuvontaa oman aineistosi keräämiseen, käsittelyyn ja hallintaan.
Kurssimateriaalit tarjotaan pääosin englanniksi. Kaikkien yliopistojen ja tieteenalojen opiskelijat ovat sallitun opiskelijamäärän rajoissa tervetulleita. Ainoa esivaatimus on, että olet jo aloittamassa tutkimushanketta, jossa sinun pitää käsitellä ja hallita tekstiä tai puhetallenteita sisältävää aineistoa (ts. kieliaineistoa).
Avoin verkkokurssi Puheen analyysin perusteet 1.11.-17.12.2021
Verkkokurssilla otetaan haltuun perustyökalut puhenäytteiden litterointiin, transkribointiin ja tutkimiseen ja opitaan oman puhekorpuksen suunnittelun ja hallinnan periaatteita. Kurssin aikana käytetään aktiivisesti Praat-ohjelmaa ja tutustutaan myös ELANiin.
Kurssi on avoin kaikkien yliopistojen opiskelijoille ja sen voi suorittaa joko suomeksi tai englanniksi. Osallistujamäärää saatetaan kuitenkin tarvittaessa rajoittaa. Opettajina toimivat Mietta Lennes ja Juraj Šimko Helsingin yliopistosta.
Tervetuloa seuraavaan Kielipankki Liveen 14.12. klo 13-15
Seuraava Kielipankki Live pidetään maanantaina 14.12. klo 13.00 alkaen englanninkielisenä Zoomin välityksellä. Aiheena tällä kertaa erityisesti puheaineistot ja tietosuojakäytänteet, esiintyjinä asiantuntevia tutkijavieraita. Tule mukaan kysymään ja keskustelemaan! Ilmoittautumisia pyydetään mieluiten 11.12. mennessä.
Ensimmäinen Kielipankki Live järjestettiin 24.8.2020 klo 13-15. Tilaisuus pidettiin suomeksi ja juontajana toimi projektisuunnittelija Mietta Lennes. Tapahtuman keskeiset osat ovat katsottavissa YouTubessa (videoiden tekstitykset tulossa myöhemmin). Esitysten materiaalit ovat saatavilla ohjelman kohdalta.
European Language Grid (ELG): esittely ja yleiskatsaus
ELG:n neljäs alueellinen työpaja: Suomi
15.12.2020 klo 14.00-16.30 Verkkotapahtuma
European Language Grid (ELG) kehittää digitaalista markkinapaikkaa, jonka kautta eurooppalaiset yritykset, organisaatiot ja kansalaiset voivat sekä tarjota että tehokkaasti käyttää kieliteknologisia työkaluja, datasettejä ja palveluita. Joulukuussa järjestettävän työpajan tavoitteena on esitellä ELG:n toimintaperiaatetta ja kertoa pilottihankkeiden etenemisestä. Tervetuloa keskustelemaan siitä, mitä ELG tarjoaa sinulle!
Ilmoittautuminen
ELG-työpaja on ilmainen tapahtuma, mutta siihen on ilmoittauduttava ennakkoon. Ilmoittaudu ELRC:n verkkosivujen kautta 10.12.2020 mennessä. Huom. Ilmoittautumisen lisätiedoissa voit mainita, mikäli olet kiinnostunut osallistumaan ELG-tutoriaaliin työpajan lopussa!
Huomaa, että aiemmin samana päivänä klo 9.30-12.40 järjestetään myös Suomen kolmas ELRC-työpaja. Samalla lomakkeella voit ilmoittautua mukaan molempiin verkkotapahtumiin.
Ohjelma (muutokset mahdollisia)
ELG-työpaja järjestetään englanninkielisenä.
14:00
Welcome and introduction
14:05
ELG Overview Katrin Marheinecke
14:30
ELG online demo Nils Feldhus
14:50
Presentations of Finnish Pilot Projects funded in ELG: PARA4DLM (University of Turku), LSDISCO (Lingsoft); OPUS-MT (University of Helsinki)
15:20
Expectations/requirements of Finnish Language Technology providers Marko Turpeinen, 1001Lakes
15:40
Summary and discussion
16:00
End of workshop
16:15
Tutorial: How to integrate a service into ELG This tutorial may be organized according to requests from the participants. Please indicate your interest in the registration form.
Viimeksi päivitetty: 7.12.2020
Verkkokurssi Data Clinic 2020-21 alkaa pian
Data Clinic -verkkokurssi tukee sinua käytännön ongelmissa, jotka liittyvät gradusi tai väitöskirjasi tutkimusaineiston hallintaan. Jos täytät kurssin vaatimukset, voit osallistua mistä tahansa yliopistosta käsin. Kurssilla on vielä tällä hetkellä reilusti tilaa. Huomaa kuitenkin, että osallistujien määrä on rajoitettu ja Helsingin yliopiston LingDig-maisteriohjelman opiskelijat ovat etusijalla, jos tungosta tulee. Kurssilla on pääosin englanninkieliset materiaalit.
Suomen kolmas European Language Resource Coordination (ELRC) -työpaja
Verkkotapahtuma 15.12.2020 9.30-12.40
Järjestäjät: The European Language Resource Coordination (ELRC) -konsortio Digitaalisten ihmistieteiden osasto, Helsingin yliopisto
Tervetuloa Suomen kolmanteen ELRC-työpajaan!
Kieliteknologia muovaa monikielistä tulevaisuuttamme. Se on jo muuttanut tapoja, joilla olemme vuorovaikutuksessa keskenämme ja joilla ostamme, työskentelemme ja matkustamme. Kieliteknologiaa tarvitaan ja käytetään monissa arjen palveluissa niin julkisella kuin yksityiselläkin sektorilla. Tukenamme on ohjelmia, jotka korjaavat oikeinkirjoitusvirheet automaattisesti ja auttavat vaativassakin kirjoitustyössä; digitaalisia avustajia, jotka muuttavat puheen matkapuhelimissa oleviksi tekstiviesteiksi; botteja, jotka vastaavat puheluun, kun soitamme pankille tai sosiaali- ja terveyspalveluihin; järjestelmiä, jotka kääntävät kielestä toiseen automaattisesti, ja monia muita palveluita. Mutta voimmeko käyttää omaa kieltämme kaikenlaisessa digitaalisessa vuorovaikutuksessa? Ovatko palvelut oikeasti käyttövalmiita? Onko suomen kieli tarpeeksi hyvin tuettu pysyäkseen mukana tekoälyn kehityksessä?
Suomen kolmas European Language Resource Coordination (ELRC) -työpaja käsittelee näitä kysymyksiä ja edistää keskustelua suomenkielisen kieliteknologian asemasta ja tulevaisuudennäkymistä. Työpajassa kieliteknologian kehittäjät, soveltajat ja käyttäjät sekä yksityiseltä että julkiselta sektorilta jakavat kokemuksia, vaatimuksia ja tapoja, joilla kieliteknologian avulla voidaan tukea ja parantaa digitaalista vuorovaikutusta monikielisessä Euroopassa. Lopuksi keskustelemme siitä, kuinka kielidata eli teksti- ja puheaineistot voivat edistää tekoälyn kehitystä.
Työpaja on jatkoa Suomen edellisille ELRC-työpajoille, jotka järjestettiin 19.2.2016 ja 24.10.2018.
Nyt yhteistyössä European Language Gridin kanssa
Tämänkertainen ELRC-työpaja järjestetään yhteistyössä European Language Gridin (ELG) kanssa. ELG:n työpaja järjestetään iltapäivällä klo 14 alkaen, ks. ELG-työpajan verkkosivu. Tervetuloa mukaan molempiin tapahtumiin!
Ilmoittautuminen
ELRC-työpaja on ilmainen tapahtuma, mutta siihen on ilmoittauduttava ennakkoon. Voit ilmoittautua samalla lomakkeella sekä aamupäivän ELRC-työpajaan että iltapäivän ELG-työpajaan.
Ilmoittaudu ELRC:n sivujen kautta 10.12.2020 mennessä. Tervetuloa!
Ohjelma (muutokset mahdollisia)
Aamupäivän ELRC-työpaja on suomenkielinen ja puheenvuorot tulkataan ruotsiksi, englanniksi ja suomalaiselle viittomakielelle. Iltapäivän ELG-työpaja on englanninkielinen.
09:30 – 09:40
Tervetuloa (video, pdf) Krister Lindén, Helsingin yliopisto / FIN-CLARIN
09:40 – 10:00
Kieliteknologian ja tekoälyn mahdollisuudet – nykytila ja tulevaisuus (englanniksi; video, pdf) Jörg Tiedemann, Helsingin yliopisto
10:00 – 10:30
Suomen kielten kieliteknologiat – paneelikeskustelu (englanniksi; video, pdf) Filip Ginter, Turun yliopisto (Moderator) Sebastian Andersson, Lingsoft Jörg Tiedemann, Helsingin yliopisto Sampo Pyysalo, Turun yliopisto Pasi Tapanainen, Etuma Kaarina Hyvönen, Kielikone
10:30 – 10:45
Kahvitauko
10:45 – 11:15
CEF AT -palvelun esittely ja demo (englanniksi; video, pdf) Vilmantas Liubinas, Euroopan komissio
11:15 – 11:45
Kieliteknologiat julkisissa palveluissa – paneelikeskustelu (video, pdf) Jouko Salonen, Maahanmuuttovirasto (vetäjä) Osma Suominen, Kansalliskirjasto Ville Viitasaari, Kela Kaisamari Kuhmonen, Valtioneuvoston kanslia
11:45 – 12:15
Kielidatan luominen, hallinta ja jakaminen: olemassa olevia käytänteitä ja haasteita – paneelikeskustelu (video) Aleksi Rossi, YLE (vetäjä) Krister Lindén, Helsingin yliopisto / FIN-CLARIN Mikko Kurimo, Aalto-yliopisto Tommi Kurki, Turun yliopisto
12:15 – 12:30
The EU Council Presidency Translator – Suomen puheenjohtajuuden menestystarina ja sen jatko (video, pdf) Pekka Myllylä, Managing Director at Tilde Eesti OÜ
12:30 – 12:40
Yhteenveto (video, pdf) Krister Lindén, Helsingin yliopisto / FIN-CLARIN
12:40 – 14:00
Tauko
14:00 – 16:30
European Language Grid (ELG): Esittely ja yleiskatsaus. Neljäs alueellinen European Language Grid (ELG) -työpaja Suomessa
ELG-työpaja järjestetään yhdessä European Language Gridin (ELG) kanssa. Huomaa, että ELG-työpaja pidetään vain englanniksi. Tervetuloa päivän molempiin tapahtumiin! Katso ELG-työpajan lisätiedot ja tarkka ohjelma
Ilmoittaudu ELRC:n sivujen kautta 10.12.2020 mennessä. Tervetuloa!
Lisätietoja järjestäjiltä:
Mietta Lennes ja Tommi Jauhiainen Helsingin yliopisto / FIN-CLARIN fin-clarin [ATT] helsinki.fi
Viimeksi päivitetty: 8.12.2020
ELRC:n ja ELG:n kanssa on suunnitteilla yhteistapahtuma 15.12.2020
FIN-CLARIN aikoo järjestää ELRC:n (European Language Resource Coordination) ja ELG:n (European Language Grid) kanssa yhteisen työpajapäivän 15.12.2020. Tapahtumissa kohtaavat suomalaiset yritykset, organisaatiot ja tutkijat, jotka kehittävät, tarjoavat tai hyödyntävät kieliteknologiaa ja haluavat tarjota tai käyttää monikielisiä palveluita. Työpajat toteutetaan etäyhteydellä.
Merkitse kalenteriin! Työpajojen ohjelma ja tarkemmat tiedot ilmoitetaan myöhemmin verkkosivulla.
Osallistu verkkokurssille Puheen analyysin perusteet!
Kaikille yliopistoille avoin verkkokurssi Puheen analyysin perusteet (5 op) on jälleen alkanut. Kurssi tarjotaan nyt ensimmäistä kertaa sekä suomen- että englanninkielisenä. Ryhmäkoon salliessa voit liittyä mukaan mistä tahansa yliopistosta vielä 6.11.2020 saakka. Kurssin kotisivulla on ohjeet Moodle-alueelle liittymiseen.
Puheen analyysin kurssilla opitaan litteroimaan ja annotoimaan puhetta ja ymmärtämään keskeisimpiä akustisia kuvaajia ja mittausmenetelmiä, joita puheen tutkimisessa voidaan hyödyntää. Työkaluna käytetään lähinnä Praat-puheanalyysiohjelmaa, mutta myös ELANiin tutustutaan. Kurssi soveltuu fonetiikan ja kieliaineiden opiskelijoiden lisäksi muillekin aloille, joilla halutaan tutkia puheäänitteitä.
FIN-CLARINin koko kurssitarjonta löytyy kootusti Koulutus-sivulta.
Kielipankki Live 24.8.2020 – Lahjoita puhetta: haastattelussa Krister Lindén
Elokuussa 2020 järjestetyssä Kielipankki Live -verkkotapahtumassa Mietta Lennes haastatteli FIN-CLARINin tutkimusjohtaja Krister Lindéniä, joka kertoi Kielipankin roolista Lahjoita puhetta -kampanjassa.
Miten Lahjoita puhetta -kampanja sai alkunsa ja miten Kielipankki liittyy siihen?
– Vuosi sitten VAKE pyysi Helsingin yliopiston Kielipankilta selvityksen siitä, mitä tarvitaan sellaisen kielikeskeisen tekoälyn toteuttamiseksi, jolla voidaan edistää suomalaista yhteiskuntaa. Selvityksessä kävi ilmi, että monenlaisia tekoälyyn soveltuvia yleisaineistoja on, mutta teollisuudelle soveltuvia isoja arkikielen puheaineistoja vielä puuttui.
– Esim. YLEllä on paljonkin puheaineistoja, mutta niihin liittyy monella tavalla tekijänoikeuksia. Myös Kotuksella on isoja murreaineistoja, mutta niitä voi kiistattomasti käyttää vain tutkimustarkoituksiin, koska ne on kerätty ennen uutta GDPR:ää.
Kuka voi saada aineistoa ja mitä sillä voi tehdä?
– Puhelahjoitukset on nyt kerätty sellaisilla sopimuksilla, että niitä voi käyttää sekä tutkimus- että tuotekehitystarkoituksiin, mutta niitä ei voi toistaa suurelle yleisölle sellaisinaan.
Yleisöltä on jo tullut etukäteen tiedusteluja siitä, milloin Lahjoita puhetta -aineistoa voisi saada tutkittavaksi. Milloin se tapahtuu?
– Tällä hetkellä aineisto kertyy tietokantaan, jonka kustannusrakenne sattuu olemaan sellainen, että aineiston kertyminen ja tallennus ei maksa kovin paljon, mutta sen kopiointi omaan käyttöön maksaa jonkin verran.
– Lisäksi mahdolliset poistopyynnöt on helpompi hallinnoida, jos aineisto on vain yhdessä paikassa. Kokemuksen perusteella ihmiset saattavat tulla katumapäälle muutaman päivän tai viikon sisällä siitä, kun lahjoitus on tehty, mutta harvoin sen jälkeen.
– Nämä yhdessä tekevät sen, että järkevin ajankohta, milloin aineisto kannattaa tarjota muiden käyttöön on vähän sen jälkeen, kun keräyskampanja on päättynyt ja aineisto on siirretty pysyvästi Kielipankkiin.
Kuinka kauan Lahjoita puhetta -kampanja jatkuu?
– YLEn kampanja on suunniteltu tämän vuoden loppuun suomen kielen osalta. Tavoite on 10 000 tuntia ja tarkoitus on kerätä aineisto, missä sukupuoli-, ikäryhmä- ja murrejakauma on riittävän tasapainoinen. Tämä otetaan huomioon, kun päätetään voidaanko kampanja lopettaa vuodenvaihteessa.
– Näköpiirissä on, että suomenruotsin keräyskampanja alkaisi vasta syksyllä ja jatkuu sen takia vielä ensi vuoden puolella.
Milloin yritykset voivat saada aineiston?
– Tarvitaan vähän aikaa aineiston jakelun valmisteluun, joten näillä näkymin yritykset voisivat saada suomen aineiston ensi vuoden toisella vuosineljänneksellä.
Voisiko myös sitä hauskaa puheenkeruusovellusta käyttää aineiston keräämiseen omissa tutkimusprojekteissa?
– VAKE, joka on rahoittanut sovelluksen, on ainakin aikaisemmin ilmoittanut että sovellus julkaistaan avoimena lähdekoodina, jota voi hyödyntää ja kehittää eteenpäin.