Seuraava Kielipankki Live pidetään maanantaina 14.12. klo 13.00 alkaen englanninkielisenä Zoomin välityksellä. Aiheena tällä kertaa erityisesti puheaineistot ja tietosuojakäytänteet, esiintyjinä asiantuntevia tutkijavieraita. Tule mukaan kysymään ja keskustelemaan! Ilmoittautumisia pyydetään mieluiten 11.12. mennessä.
In English
<< Kielipankki Live -tapahtumien pääsivu
Ensimmäinen Kielipankki Live järjestettiin 24.8.2020 klo 13-15. Tilaisuus pidettiin suomeksi ja juontajana toimi projektisuunnittelija Mietta Lennes. Tapahtuman keskeiset osat ovat katsottavissa YouTubessa (videoiden tekstitykset tulossa myöhemmin). Esitysten materiaalit ovat saatavilla ohjelman kohdalta.
Kun haluat pysyä ajan tasalla Kielipankki Live -tilaisuuksista ja muista Kielipankin uutisista, tilaa uutiskirje. Katso myös Kielipankin esittely!
Tapahtuman keskeiset osat ovat katsottavissa YouTubessa. Lisäksi esitysten materiaalit ovat saatavilla ohjelman kohdalta.
<< Kielipankki Live -tapahtumien pääsivu
European Language Grid (ELG) kehittää digitaalista markkinapaikkaa, jonka kautta eurooppalaiset yritykset, organisaatiot ja kansalaiset voivat sekä tarjota että tehokkaasti käyttää kieliteknologisia työkaluja, datasettejä ja palveluita. Joulukuussa järjestettävän työpajan tavoitteena on esitellä ELG:n toimintaperiaatetta ja kertoa pilottihankkeiden etenemisestä. Tervetuloa keskustelemaan siitä, mitä ELG tarjoaa sinulle!
ELG-työpaja on ilmainen tapahtuma, mutta siihen on ilmoittauduttava ennakkoon. Ilmoittaudu ELRC:n verkkosivujen kautta 10.12.2020 mennessä. Huom. Ilmoittautumisen lisätiedoissa voit mainita, mikäli olet kiinnostunut osallistumaan ELG-tutoriaaliin työpajan lopussa!
Huomaa, että aiemmin samana päivänä klo 9.30-12.40 järjestetään myös Suomen kolmas ELRC-työpaja. Samalla lomakkeella voit ilmoittautua mukaan molempiin verkkotapahtumiin.
ELG-työpaja järjestetään englanninkielisenä.
14:00 | Welcome and introduction |
14:05 | ELG Overview Katrin Marheinecke |
14:30 | ELG online demo Nils Feldhus |
14:50 | Presentations of Finnish Pilot Projects funded in ELG: PARA4DLM (University of Turku), LSDISCO (Lingsoft); OPUS-MT (University of Helsinki) |
15:20 | Expectations/requirements of Finnish Language Technology providers Marko Turpeinen, 1001Lakes |
15:40 | Summary and discussion |
16:00 | End of workshop |
16:15 | Tutorial: How to integrate a service into ELG This tutorial may be organized according to requests from the participants. Please indicate your interest in the registration form. |
Viimeksi päivitetty: 7.12.2020
Data Clinic -verkkokurssi tukee sinua käytännön ongelmissa, jotka liittyvät gradusi tai väitöskirjasi tutkimusaineiston hallintaan. Jos täytät kurssin vaatimukset, voit osallistua mistä tahansa yliopistosta käsin. Kurssilla on vielä tällä hetkellä reilusti tilaa. Huomaa kuitenkin, että osallistujien määrä on rajoitettu ja Helsingin yliopiston LingDig-maisteriohjelman opiskelijat ovat etusijalla, jos tungosta tulee. Kurssilla on pääosin englanninkieliset materiaalit.
Lue lisää ja ilmoittaudu mukaan…
Katso kaikki kurssit ja koulutukset
Järjestäjät:
The European Language Resource Coordination (ELRC) -konsortio
Digitaalisten ihmistieteiden osasto, Helsingin yliopisto
Kieliteknologia muovaa monikielistä tulevaisuuttamme. Se on jo muuttanut tapoja, joilla olemme vuorovaikutuksessa keskenämme ja joilla ostamme, työskentelemme ja matkustamme. Kieliteknologiaa tarvitaan ja käytetään monissa arjen palveluissa niin julkisella kuin yksityiselläkin sektorilla. Tukenamme on ohjelmia, jotka korjaavat oikeinkirjoitusvirheet automaattisesti ja auttavat vaativassakin kirjoitustyössä; digitaalisia avustajia, jotka muuttavat puheen matkapuhelimissa oleviksi tekstiviesteiksi; botteja, jotka vastaavat puheluun, kun soitamme pankille tai sosiaali- ja terveyspalveluihin; järjestelmiä, jotka kääntävät kielestä toiseen automaattisesti, ja monia muita palveluita. Mutta voimmeko käyttää omaa kieltämme kaikenlaisessa digitaalisessa vuorovaikutuksessa? Ovatko palvelut oikeasti käyttövalmiita? Onko suomen kieli tarpeeksi hyvin tuettu pysyäkseen mukana tekoälyn kehityksessä?
Suomen kolmas European Language Resource Coordination (ELRC) -työpaja käsittelee näitä kysymyksiä ja edistää keskustelua suomenkielisen kieliteknologian asemasta ja tulevaisuudennäkymistä. Työpajassa kieliteknologian kehittäjät, soveltajat ja käyttäjät sekä yksityiseltä että julkiselta sektorilta jakavat kokemuksia, vaatimuksia ja tapoja, joilla kieliteknologian avulla voidaan tukea ja parantaa digitaalista vuorovaikutusta monikielisessä Euroopassa. Lopuksi keskustelemme siitä, kuinka kielidata eli teksti- ja puheaineistot voivat edistää tekoälyn kehitystä.
Työpaja on jatkoa Suomen edellisille ELRC-työpajoille, jotka järjestettiin 19.2.2016 ja 24.10.2018.
Tämänkertainen ELRC-työpaja järjestetään yhteistyössä European Language Gridin (ELG) kanssa. ELG:n työpaja järjestetään iltapäivällä klo 14 alkaen, ks. ELG-työpajan verkkosivu. Tervetuloa mukaan molempiin tapahtumiin!
ELRC-työpaja on ilmainen tapahtuma, mutta siihen on ilmoittauduttava ennakkoon. Voit ilmoittautua samalla lomakkeella sekä aamupäivän ELRC-työpajaan että iltapäivän ELG-työpajaan.
Ilmoittaudu ELRC:n sivujen kautta 10.12.2020 mennessä. Tervetuloa!
Aamupäivän ELRC-työpaja on suomenkielinen ja puheenvuorot tulkataan ruotsiksi, englanniksi ja suomalaiselle viittomakielelle. Iltapäivän ELG-työpaja on englanninkielinen.
09:30 – 09:40 | Tervetuloa |
09:40 – 10:00 | Kieliteknologian ja tekoälyn mahdollisuudet – nykytila ja tulevaisuus |
10:00 – 10:30 | Suomen kielten kieliteknologiat – paneelikeskustelu |
10:30 – 10:45 | Kahvitauko |
10:45 – 11:15 | CEF AT -palvelun esittely ja demo |
11:15 – 11:45 | Kieliteknologiat julkisissa palveluissa – paneelikeskustelu |
11:45 – 12:15 | Kielidatan luominen, hallinta ja jakaminen: olemassa olevia käytänteitä ja haasteita – paneelikeskustelu |
12:15 – 12:30 | The EU Council Presidency Translator – Suomen puheenjohtajuuden menestystarina ja sen jatko Pekka Myllylä, Managing Director at Tilde Eesti OÜ |
12:30 – 12:40 | Yhteenveto |
12:40 – 14:00 | Tauko |
14:00 – 16:30 | European Language Grid (ELG): Esittely ja yleiskatsaus. ELG-työpaja järjestetään yhdessä European Language Gridin (ELG) kanssa. Huomaa, että ELG-työpaja pidetään vain englanniksi. Tervetuloa päivän molempiin tapahtumiin! |
Ilmoittaudu ELRC:n sivujen kautta 10.12.2020 mennessä. Tervetuloa!
Mietta Lennes ja Tommi Jauhiainen
Helsingin yliopisto / FIN-CLARIN
fin-clarin [ATT] helsinki.fi
Viimeksi päivitetty: 8.12.2020
FIN-CLARIN aikoo järjestää ELRC:n (European Language Resource Coordination) ja ELG:n (European Language Grid) kanssa yhteisen työpajapäivän 15.12.2020. Tapahtumissa kohtaavat suomalaiset yritykset, organisaatiot ja tutkijat, jotka kehittävät, tarjoavat tai hyödyntävät kieliteknologiaa ja haluavat tarjota tai käyttää monikielisiä palveluita. Työpajat toteutetaan etäyhteydellä.
Merkitse kalenteriin! Työpajojen ohjelma ja tarkemmat tiedot ilmoitetaan myöhemmin verkkosivulla.
Kaikille yliopistoille avoin verkkokurssi Puheen analyysin perusteet (5 op) on jälleen alkanut. Kurssi tarjotaan nyt ensimmäistä kertaa sekä suomen- että englanninkielisenä. Ryhmäkoon salliessa voit liittyä mukaan mistä tahansa yliopistosta vielä 6.11.2020 saakka. Kurssin kotisivulla on ohjeet Moodle-alueelle liittymiseen.
Puheen analyysin kurssilla opitaan litteroimaan ja annotoimaan puhetta ja ymmärtämään keskeisimpiä akustisia kuvaajia ja mittausmenetelmiä, joita puheen tutkimisessa voidaan hyödyntää. Työkaluna käytetään lähinnä Praat-puheanalyysiohjelmaa, mutta myös ELANiin tutustutaan. Kurssi soveltuu fonetiikan ja kieliaineiden opiskelijoiden lisäksi muillekin aloille, joilla halutaan tutkia puheäänitteitä.
FIN-CLARINin koko kurssitarjonta löytyy kootusti Koulutus-sivulta.
Elokuussa 2020 järjestetyssä Kielipankki Live -verkkotapahtumassa Mietta Lennes haastatteli FIN-CLARINin tutkimusjohtaja Krister Lindéniä, joka kertoi Kielipankin roolista Lahjoita puhetta -kampanjassa.
– Vuosi sitten VAKE pyysi Helsingin yliopiston Kielipankilta selvityksen siitä, mitä tarvitaan sellaisen kielikeskeisen tekoälyn toteuttamiseksi, jolla voidaan edistää suomalaista yhteiskuntaa. Selvityksessä kävi ilmi, että monenlaisia tekoälyyn soveltuvia yleisaineistoja on, mutta teollisuudelle soveltuvia isoja arkikielen puheaineistoja vielä puuttui.
– Esim. YLEllä on paljonkin puheaineistoja, mutta niihin liittyy monella tavalla tekijänoikeuksia. Myös Kotuksella on isoja murreaineistoja, mutta niitä voi kiistattomasti käyttää vain tutkimustarkoituksiin, koska ne on kerätty ennen uutta GDPR:ää.
– Puhelahjoitukset on nyt kerätty sellaisilla sopimuksilla, että niitä voi käyttää sekä tutkimus- että tuotekehitystarkoituksiin, mutta niitä ei voi toistaa suurelle yleisölle sellaisinaan.
– Tällä hetkellä aineisto kertyy tietokantaan, jonka kustannusrakenne sattuu olemaan sellainen, että aineiston kertyminen ja tallennus ei maksa kovin paljon, mutta sen kopiointi omaan käyttöön maksaa jonkin verran.
– Lisäksi mahdolliset poistopyynnöt on helpompi hallinnoida, jos aineisto on vain yhdessä paikassa. Kokemuksen perusteella ihmiset saattavat tulla katumapäälle muutaman päivän tai viikon sisällä siitä, kun lahjoitus on tehty, mutta harvoin sen jälkeen.
– Nämä yhdessä tekevät sen, että järkevin ajankohta, milloin aineisto kannattaa tarjota muiden käyttöön on vähän sen jälkeen, kun keräyskampanja on päättynyt ja aineisto on siirretty pysyvästi Kielipankkiin.
– YLEn kampanja on suunniteltu tämän vuoden loppuun suomen kielen osalta. Tavoite on 10 000 tuntia ja tarkoitus on kerätä aineisto, missä sukupuoli-, ikäryhmä- ja murrejakauma on riittävän tasapainoinen. Tämä otetaan huomioon, kun päätetään voidaanko kampanja lopettaa vuodenvaihteessa.
– Näköpiirissä on, että suomenruotsin keräyskampanja alkaisi vasta syksyllä ja jatkuu sen takia vielä ensi vuoden puolella.
– Tarvitaan vähän aikaa aineiston jakelun valmisteluun, joten näillä näkymin yritykset voisivat saada suomen aineiston ensi vuoden toisella vuosineljänneksellä.
– VAKE, joka on rahoittanut sovelluksen, on ainakin aikaisemmin ilmoittanut että sovellus julkaistaan avoimena lähdekoodina, jota voi hyödyntää ja kehittää eteenpäin.
Kielipankki Live -tapahtumien verkkosivu
Kielipankki Live on uusi verkkotapahtumien sarja, jossa haastatellaan tutkijoita ja keskustellaan ajankohtaisista Kielipankkiin liittyvistä aiheista. Tapahtumat videoidaan ja tallenteet ovat katsottavissa jälkikäteen tällä sivulla, myöhemmin myös tekstitettyinä.
Ensimmäinen Kielipankki Live -tilaisuus järjestetään maanantaina 24.8. klo 13.00 alkaen. Ilmoittautumalla jo ennakkoon varmistat itsellesi Zoom-kutsulinkin ja saat myös tilaisuuden jälkeen tiedon, kun videotallenne on katsottavissa.
Ilmoittautuminen ja lisätiedot: https://www.kielipankki.fi/kielipankki-live/
The Language Bank of Finland is working together with the Finnish Broadcasting Company (Yle) and the Finnish State Development Company (Vake Oy) in the Donate Speech campaign (Lahjoita puhetta) launching on 16th June 2020. The aim of this project is to collect all kinds of Finnish speech from all kinds of people, from all over Finland and abroad.
By donating your speech, you can help researchers and companies to study language and to develop technology and services that can be used in Finnish more fluently in the future. All variants of spoken Finnish are welcome – including the speech of second-language Finnish learners. As long as you speak some Finnish and can understand the Finnish instructions in the app, you can donate!
Read more about the contribution of the Language Bank of Finland (in Finnish)
Kielipankki on mukana 16.6.2020 käynnistyvässä Ylen, Helsingin yliopiston ja Valtion kehitysyhtiö Vake Oy:n toteuttamassa Lahjoita puhetta -kampanjassa, jossa kerätään puhetta kaikkialta Suomesta, erilaisilta ihmisiltä. Lahjoittamalla puhettasi voit auttaa tutkijoita ja tekoälyä kehittäviä yrityksiä luomaan palveluita, jotka toimivat sujuvammin myös suomeksi.
Mietta Lennes haastateltavana Yle Puheen Aamussa 16.6.2020 klo 9
Suomi on mukana NexusLinguarum-nimellä kulkevassa COST-hankkeessa (COST Action 18209), jonka tavoitteena on rakentaa eurooppalaista verkkopohjaisen kielitieteellisen datatieteen verkostoa. Kyseisen COST-hankkeen ensimmäinen yleiskokous pidettiin Prahassa 27.-28.1.2020. Mietta Lennes osallistui kokoukseen FIN-CLARINin edustajana ja esitteli Kielipankkia oheisella posterilla.
Vuoden 2020 ParlaCLARIN-työpaja pidetään Marseillessa osana LREC2020-konferenssia (Language Resources and Evaluation Conference). Julkaisukutsu on avoinna 14.2.2020 saakka. Lue lisää:
https://www.clarin.eu/ParlaCLARIN-II
The 2020 ParlaCLARIN workshop will be held in Marseille (France), as part of the 12th edition of the Language Resources and Evaluation Conference (LREC2020). The Call for Papers is now open and the paper submission deadline is 14 February 2020. Read more:
https://www.clarin.eu/ParlaCLARIN-II
FIN-CLARIN järjestää jälleen verkkokurssin Puheen analyysin perusteet (ajalla 28.10.–13.12.2019) sekä erityisesti opinnäytteiden tekijöille suunnatun kurssin Data Clinic (1.11.2019–17.4.2020, huom. englanninkieliset materiaalit). Tammikuussa alkaa jälleen myös Korpuslingvistiikka ja tilastolliset menetelmät -verkkokurssi, jonka voi suorittaa kevään kolmannella periodilla joko suomeksi tai englanniksi.
Puheen analyysin kurssille voit ilmoittautua vaikka heti, ja Data Clinic -kurssin Moodle-alue avautuu lähipäivinä. Kursseille on mahdollista osallistua myös muista kuin Helsingin yliopistosta käsin.
Koko kurssitarjotin löytyy kootusti Koulutus-sivulta.
Tervetuloa mukaan!
järjestetään Joensuussa Itä-Suomen yliopistossa. Tapahtuman teemana on kieli, elämä ja yhteiskunta. Myös Kielipankki näkyy paikan päällä ja etenkin perjantaiaamupäivällä 17.5. saatat bongata yliopistolla ihmisiä, joilla on yllään vaaleansininen possupaita… Vedä meitä hihasta, poikkea esittelypisteellä tai tule kuuntelemaan esitelmiä!
will be organized in Joensuu by the University of Eastern Finland. The theme of the conference is language, life, and the society. The Language Bank of Finland will be present during the conference and especially on Friday morning, you might notice some people wearing a pale blue t-shirt with a happy piglet… Come and talk to us, visit our stand or see our presentations!
Introduction to the Language Bank of Finland at the workshop “Digital Parliamentary data and research”
Friday 3 May at 12.00
Aalto University (Otaniemi), CS-Building, Room T4 / A238 (Konemiehentie 2)
The aim of the workshop was to discuss the novel digital parliamentary datasets—in particular those of Parliament of Finland—their use in research, the related research resources and tools, and their future development for researchers, but also for citizens and the media. FIN-CLARIN and the Korp version 1.1 of the Plenary Sessions of the Parliament of Finland, available in the Language Bank of Finland, was also presented during the afternoon.
Mietta Lennes: FIN-CLARIN and Parliamentary Data in Kielipankki – the Language Bank of Finland (PowerPoint / PDF slides)
Further information including the programme of the workshop can be found at https://www.helsinki.fi/en/helsinki-centre-for-digital-humanities/workshop-digital-parliamentary-data-and-research.
The registration deadline of the online course Corpus Clinic has been extended to 23rd November, until when it is possible to join the course area on Moodle. Students from the University of Helsinki as well as from other universities can enrol. Please note, however, that a limited number of participants can be accepted. See further instructions on the course page.
In the Corpus Clinic, you will learn about the various methods and tools that are available for managing, processing and analyzing your data. You will also learn to write a data management plan. If required, it is possible to complete the course fully online.
This year, the course is jointly organized by FIN-CLARIN and HELDIG. During the spring term – after passing the initial stage of the course – each participant will have the opportunity to meet with a member of the supporting group of digital humanities experts who can help you with more specific questions about your data analysis. More information about this will be provided during the course.