Teachers from Finland, Slovenia and the United Kingdom awarded by CLARIN

In 2021, the Teaching with CLARIN Award was given to three projects: Darja Fišer and Kristina Pahor de Maiti from Slovenia and Mietta Lennes from Finland (and from the Language Bank of Finland!) won the The Teaching with CLARIN Jury Award, and Diana Maynard from the UK won The Teaching with CLARIN Audience Award. The winners were published in the CLARIN Annual Conference on 28th October, 2021.

The award is intended for lecturers or other education professionals who have successfully integrated CLARIN into the courses they teach and/or training material they have developed. The next call is to be opened in 2022.

Check out all the submitted contributions at https://www.clarin.eu/content/teaching-clarin.

 

Etsimme yhteistyökumppaneita Lahjoita puhetta -kampanjassa kerätyn puheaineiston litterointiin

Yleishyödyllisen Lahjoita puhetta -kampanjan kautta olemme saaneet kerättyä suomenkielistä arkipuhetta eri puolilta Suomea jo 3500 tunnin verran. Tätä puheaineistoa tullaan hyödyntämään tekoälyn tutkimuksessa ja kehityksessä sekä kielentutkimuksessa. Tavoitteena on myös tuottaa tulevaisuudessa ratkaisuja ja palveluita, kuten ääniohjattuja laitteita, jotka ymmärtävät erilaisia suomen murteita ja puhetapoja.

Lahjoita puhetta -kampanjan kautta kerätty puheaineisto on siis varsin laaja. Nyt etsimmekin yhteistyökumppaneita kampanjassa lahjoitettujen puheäänitteiden litterointia varten.

Litterointipalveluiden toimittajien valitsemiseksi olemme avanneet tarjouspyynnön Hanki-tarjouspalveluun. Tarjouksen voi jättää palvelun kautta 15.3.2021 klo 14.00 saakka.

Jätä tarjous tästä: https://hanki.tarjouspalvelu.fi/hanki?id=333409&tpk=faf82783-69d2-43cb-be60-bca036eed47f

 

PS. Vielä ehdit itsekin lahjoittaa puhetta!

Tietoarkisto julkaisi uudistetun Tutkimusmenetelmien verkkokäsikirjan opiskeluun ja opetukseen

Tietoarkiston uusi Tutkimusmenetelmien verkkokäsikirja koostuu kahdesta osasta, Kvantitatiivisen tutkimuksen verkkokäsikirjasta ja Laadullisen tutkimuksen verkkokäsikirjasta. Käsikirjat on suunnattu etenkin yhteiskuntatieteellisten aineiden opiskelijoille, mutta niistä on hyötyä monille muillekin.

Materiaaleja voi käyttää vapaasti opiskelussa ja opetuksessa. Tietoarkisto toivoo kuitenkin opettajilta käyttöilmoitusta. Kurssien opetustilanteiden ulkopuolisesta yksittäiskäytöstä informointi on myös toivottavaa, mutta ei pakollista.

Tutkimusmenetelmien verkkokäsikirja pohjautuu suosittuun Menetelmäopetuksen tietovarantoon (MOTV). Myös MOTV on edelleen saatavilla, mutta sitä ei enää aktiivisesti päivitetä.

 

Myös Kielipankki esitellään uudessa Laadullisen tutkimuksen verkkokäsikirjassa:

 

 

 

LAT service to be discontinued in November 2020

Suomeksi

For technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020.

The LAT platform itself is no longer developed in its present form by MPI, and the media browser component Annex (part of LAT) is based on deprecated Adobe Flash technology that will stop working at the end of this year.

What will happen to the corpora that used to be available in LAT?

A replacement service for LAT has not yet been selected by the Language Bank of Finland. However, all the speech and sign language corpora that were previously available in LAT will be made available by alternative means.

All of the LAT corpora can be offered as downloadable packages that can be used and studied directly on the user’s local computer. In the download service, the corpora can be accessed under the same conditions as via LAT. For some corpora, more advanced solutions might already be available.

Which corpora are affected by LAT shutting down?

The LAT instances of the following corpora will be affected:

 • aku-egg: Speech and EGG (Electroglottography) Simultaneous Recordings
 • cfinsl-conv: Corpus of Finnish Sign Language: conversations
 • cfinsl-elicit: Corpus of Finnish Sign Language: elicited narratives
 • eduskunta-v1-lat: Plenary Sessions of the Parliament of Finland, Kielipankki LAT Version 1
 • elfa-lat: The Helsinki LAT Version of the ELFA Corpus
 • fbc-lat: The Helsinki LAT Version of the Finnish Broadcast Corpus
 • ffe: a single unpublished video file by an unknown creator, access restricted to the owner (this data will be archived temporarily but will be removed quite soon unless the owner turns up!)
 • finka: The Corpus of Border Karelia, Kielipankki LAT version
 • giellagas-north: Samples of Northern Saami
 • helpuhe1: The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s)
 • kipo: The 2010 Language Policy Program of the Sign Languages of Finland Corpus (versions 1 and 2)
 • la-murre: The Finnish Dialect Syntax Archive’s Helsinki LAT Version
 • PeWi-corpus (the original authoritative copy is offered by MPI; the identical version will be removed from the Language Bank of Finland)
 • puheen-analyysi: Learning material for speech analysis
 • reittidemo-lat: The Helsinki LAT Version of the Route to A wing Corpus
 • seuruu: Follow-up Study of Dialects of Finnish
 • skn-lat: The Helsinki LAT Version of Samples of Spoken Finnish
 • snowfrog: ProGram data. The stories Snowman and Frog, where are you?
 • ssdc-2016: Skolt Saami Documentation Corpus (2016)

In order to see where each corpus will be located in the future, please refer to the corresponding metadata page where this information will be updated. The relevant metadata links are provided on the list above.

I came to this page via a PID, how do I know where the file is?

LAT assigned 25000 PIDs to individual files. We have no automatic mapping of these PIDs but we can help you find the file if you need it. We aimed to structure downloadable packages similar to the dataset structure on LAT. To locate a file look into the URL field of this page where you find a ”?path=...” parameter. Example: ?path=demo/TRASH/2017-01/526/v7556__.C_4.4_Viittomakielisten_kielelliset_oikeudet.imdi

This should help you locate your file, please contact us if you have any questions.

Schedule

August-September 2020:

 • The (numerous) persistent identifiers assigned by LAT to individual files will be redirected to stopover/tombstone pages. There will be one tombstone page per dataset.
 • The LAT corpora that are not yet offered in Download will be moved there and their persistent identifiers will be updated to point to their new home.
 • Assuming that too many errors are not detected, this process should be complete by October.

September-October 2020:

 • Decisions are to be taken as to what kind of streaming services the Language Bank can implement for audio and video materials in the year 2021.

30th November 2020:

 • The support for the server where LAT is located will be discontinued and the service will be shut down.
 • All the corpora that were previously offered via LAT will continue to be offered at least for download.

Year 2021 (and later):

 • Given that there are sufficient resources, more functionalities for browsing, searching, and analyzing speech and sign language corpora can be added.

Further details on the schedule of the aforementioned process will be updated on this page. In case you need additional information at this point, please contact FIN-CLARIN directly.

LAT-alusta poistuu käytöstä

In English

Teknisistä syistä Kielipankin käytössä ollut LAT-palvelu (lat.csc.fi) joudutaan sulkemaan marraskuun lopussa 2020.

MPI ei enää kehitä LAT-alustaa nykyisessä muodossaan, ja LATiin kuuluva Annex-mediaselaintyökalu perustuu Adoben vanhentuneeseen Flash-teknologiaan, joka lakkaa toimimasta vuoden lopussa.

Mitä tapahtuu korpuksille, jotka ovat olleet LATin kautta saatavilla?

Kielipankin käyttämälle LAT-palvelulle ei vielä ole valittu täysin korvaavaa palvelua. Kaikki puheaineistot ja viittomakielten aineistot, jotka ovat aiemmin olleet käytettävissä LATin kautta, tuodaan saataville toisella tavalla.

Kaikki LATissa olleet aineistot voidaan tarjota ladattavina paketteina, joita voi käyttää suoraan omalla koneella. Latauspalvelun kautta korpuksiin pääsee samoilla ehdoilla kuin aiemmin LATin kautta. Joillekin aineistoille voidaan jo nyt tarjota edistyneempiäkin ratkaisuja tavanomaisen latauspalvelun lisäksi.

Mihin korpuksiin LAT-palvelun sulkeminen vaikuttaa?

Muutokset koskevat seuraavien korpusten LAT-versioita:

 • aku-egg: Puheen ja EGG:n samanaikaiset tallenteet
 • cfinsl-conv: Suomalaisen viittomakielen korpus: keskusteluaineisto
 • cfinsl-elicit: Suomalaisen viittomakielen korpus: kerronta-aineisto
 • eduskunta-v1-lat: Eduskunnan täysistunnot, Kielipankin LAT-versio 1
 • elfa-lat: ELFA-korpuksen Helsinki-LAT-versio
 • fbc-lat: Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio
 • ffe: yksittäinen, virallisesti julkaisematon tiedosto, jonka omistaja ei ole tiedossa ja pääsy on rajoitettu vain omistajalle (sisältö tullaan säilyttämään tilapäisesti mutta poistetaan, ellei omistaja ilmoittaudu!)
 • finka: Raja-Karjalan korpus, Kielipankin LAT-versio
 • giellagas-north: Pohjoissaamen näytekorpus
 • helpuhe1: Helsingin puhekielen pitkittäiskorpus (1970, 1990, 2010)
 • kipo: Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010) (versiot 1 ja 2)
 • la-murre: Lauseopin arkiston murrekorpuksen Helsinki-LAT-versio
 • PeWi-corpus: Kyseisen näyteaineiston alkuperäisen virallisen kopion tarjoaa MPI, joten identtinen versio tullaan poistamaan Kielipankista
 • puheen-analyysi: Puheen analyysin oppimateriaali
 • reittidemo-lat: Reitti A-siipeen -korpuksen Helsinki-LAT-versio
 • seuruu: Murteenseuruukorpus
 • skn-lat: Suomen kielen näytteitä -korpuksen Helsinki-LAT-versio
 • snowfrog: ProGram-aineisto, lumiukko- ja sammakkotarinat
 • ssdc-2016: Koltansaamen dokumentaatiokorpus (2016)

Kunkin aineiston kuvailutietosivulta löydät päivitetyt tiedot kyseisen aineistoversion tulevasta sijainnista. Linkit kuvailutietueisiin näkyvät yllä olevasta listasta.

Aikataulu

Elo-syyskuu 2020:

 • LAT-alustan automaattisesti tuottamat (lukuisat) pysyvät tunnisteet, jotka osoittavat aineistojen sisällä oleviin yksittäisiin tiedostoihin, tullaan ohjaamaan uudelleen laskeutumis- tai ”hautakivisivuille”. Jokaiselle korpukselle tehdään yksi tällainen laskeutumissivu.
 • Ne LAT-aineistot, jotka eivät aikaisemmin ole olleet tarjolla ladattavina versioina, tullaan siirtämään latauspalveluun. LAT-versioiden pysyvät tunnisteet päivitetään osoittamaan ko. aineistojen uuteen kotiin.
 • Ellei em. prosesssin aikana ilmene odottamattomia virhetilanteita, kaikkien aineistojen pitäisi olla siirrettyinä ja tunnisteiden päivitettyinä lokakuun loppuun mennessä.

Syys-lokakuu 2020:

 • Kielipankki tekee tarvittavat selvitykset ja päätökset siitä, millaisia striimaus- ja muita lisäpalveluita Kielipankissa on mahdollista toteuttaa ääni- ja videoaineistoille vuoden 2021 aikana.

30. marraskuuta 2020:

 • LAT-palvelimen tuki päättyy ja palvelu ajetaan alas.
 • Kaikki LATissa aiemmin tarjolla olleet aineistot tullaan jatkossakin tarjoamaan vähintään ladattavina versioina.

Vuosi 2021 (ja myöhemmin):

 • Resurssien puitteissa Kielipankkiin voidaan lisätä uusia palveluita ja toiminnallisuuksia puheaineistojen ja viittomakielten aineistojen selailuun, hakujen tekemiseen ja analysointiin.

Edellä mainitun prosessin tarkemmat yksityiskohdat päivitetään tälle sivulle. Mikäli tarvitset tässä vaiheessa lisätietoja, ole hyvä ja ota suoraan yhteyttä FIN-CLARINiin.

Ilmoittaudu nyt uuteen Kielipankki Live -verkkotapahtumaan!

Kielipankki Live on uusi verkkotapahtumien sarja, jossa haastatellaan tutkijoita ja keskustellaan ajankohtaisista Kielipankkiin liittyvistä aiheista. Tapahtumat videoidaan ja tallenteet ovat katsottavissa jälkikäteen tällä sivulla, myöhemmin myös tekstitettyinä.

Ensimmäinen Kielipankki Live -tilaisuus järjestetään maanantaina 24.8. klo 13.00 alkaen. Ilmoittautumalla jo ennakkoon varmistat itsellesi Zoom-kutsulinkin ja saat myös tilaisuuden jälkeen tiedon, kun videotallenne on katsottavissa.

Ilmoittautuminen ja lisätiedot: https://www.kielipankki.fi/kielipankki-live/

The Donate Speech (Lahjoita puhetta) campaign kicks off 16.6.2020

The Language Bank of Finland is working together with the Finnish Broadcasting Company (Yle) and the Finnish State Development Company (Vake Oy) in the Donate Speech campaign (Lahjoita puhetta) launching on 16th June 2020. The aim of this project is to collect all kinds of Finnish speech from all kinds of people, from all over Finland and abroad.

By donating your speech, you can help researchers and companies to study language and to develop technology and services that can be used in Finnish more fluently in the future. All variants of spoken Finnish are welcome – including the speech of second-language Finnish learners. As long as you speak some Finnish and can understand the Finnish instructions in the app, you can donate!

Read more about the contribution of the Language Bank of Finland (in Finnish)

Go and donate your speech!

See also:

Interview of Mietta Lennes in the morning radio program Puheen Aamu on Yle Puhe 16.6.2020 (the program is available in Finnish for one week after time of broadcast)

Lahjoita puhetta -kampanja käynnistyy 16.6.2020

Kielipankki on mukana 16.6.2020 käynnistyvässä Ylen, Helsingin yliopiston ja Valtion kehitysyhtiö Vake Oy:n toteuttamassa Lahjoita puhetta -kampanjassa, jossa kerätään puhetta kaikkialta Suomesta, erilaisilta ihmisiltä. Lahjoittamalla puhettasi voit auttaa tutkijoita ja tekoälyä kehittäviä yrityksiä luomaan palveluita, jotka toimivat sujuvammin myös suomeksi.

Lue lisää…

Katso myös:

Mietta Lennes haastateltavana Yle Puheen Aamussa 16.6.2020 klo 9

Kielipankki esillä NexusLinguarum-hankkeen (COST Action 18209) ensimmäisessä yleiskokouksessa Prahassa

Suomi on mukana NexusLinguarum-nimellä kulkevassa COST-hankkeessa (COST Action 18209), jonka tavoitteena on rakentaa eurooppalaista verkkopohjaisen kielitieteellisen datatieteen verkostoa. Kyseisen COST-hankkeen ensimmäinen yleiskokous pidettiin Prahassa 27.-28.1.2020. Mietta Lennes osallistui kokoukseen FIN-CLARINin edustajana ja esitteli Kielipankkia oheisella posterilla.

 

Poster of the Language Bank of Finland (Kielipankki)

Kielipankki – The Language Bank of Finland presented at COST Action 18209 ”NexusLinguarum” plenary meeting in Prague

Finland is currently participating in the COST Action 18209 ”NexusLinguarum” that aims to build an European network for web-centred linguistic data science. The first plenary meeting of the COST Action was held in Prague on 27-28 January, 2020. During the poster session of the meeting, FIN-CLARIN and the Language Bank of Finland were presented by Mietta Lennes with this poster:

 

Poster of the Language Bank of Finland (Kielipankki)

Translation memories Hallituskausi 2007-2011 and Hallituskausi 2011-2015 are available in the download service

Two translation memories (Finnish into English) published by the translation and language services of the Prime Minister’s Office (https://vnk.fi/en/translation-and-language-services) as open data are now available in the Kielipankki download service korp.csc.fi/download in the folder hallituskausi.

Resource metadata:

The ”Hallituskausi 2007–2011” Translation Memory. Korpuksen kuvailutiedot: http://urn.fi/urn:nbn:fi:lb-2017090402

The ”Hallituskausi 2011–2015” Translation Memory. Korpuksen kuvailutiedot: http://urn.fi/urn:nbn:fi:lb-2017090403

 

Suomenkielinen OpenSubtitles 2017 ja Suomenkielinen Wikipedia 2017 (lähdemateriaalit) latauspalvelussa

Korpukset Suomenkielinen OpenSubtitles 2017, lähdemateriaali  ja Suomenkielinen Wikipedia 2017, lähdemateriaali  ovat saatavilla Kielipankin latauspalvelussa korp.csc.fi/download.

Suomenkielinen OpenSubtitles 2017 kattaa Opensubtitles.org sivuston jakamat elokuvien ja tv-ohjelmien suomenkieliset tekstitykset. Korpuksen kuvailutiedot: http://urn.fi/urn:nbn:fi:lb-2019110801

Suomenkielinen Wikipedia 2017 kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta. Korpuksen kuvailutiedot: http://urn.fi/urn:nbn:fi:lb-2019110803

Molemmat muodostavat osan Tatu Huovilaisen tutkimusaineistosta ja ne on tutkimusta varten vuonna 2018 jäsennetty Turku BioNLP-ryhmän kehittämällä jäsentimellä Turku Dependency Treebank (TDT) ja sen jälkeen tallennettu Kielipankkiin lähdemateriaaleina. Katso Tatu Huovilaisen haastattelu: https://www.kielipankki.fi/uutiset/kuukauden-tutkija-tatu-huovilainen/

Korpukset ovat myös mukana suomenkielen sanafrekvenssiaineistossa Psykolingvistiset tunnusluvut (http://urn.fi/urn:nbn:fi:lb-2018081601).

Oulun yliopiston Päätalo-kokoelman Iijoki-sarja julkaistu Kielipankin Korp-konkordanssipalvelussa

 

Oulun yliopisto juhlistaa Kalle Päätalon syntymän 100-vuotisjuhlaa järjestämällä 8.11.2019 symposiumin Kalle Päätalo tutkijoiden silmin. Samana päivänä julkaistaan Kielipankissa aineiston Iijoki, Oulun yliopiston Päätalo-kokoelma ensimmäinen versio Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp-versio Kielipankin konkordanssityökalu Korpissa (korp.csc.fi) tutkijoiden käyttöön.

Iijoki on kirjailija Kalle Päätalon (11.11.1919-20.11.2000) omaelämäkerrallinen pääteos, jossa kirjailija kuvaa elämäänsä 1910-luvulta aina 1990-luvulle asti. Sarja sisältää 26 teosta, joiden sanemäärä on yhteensä lähes 5,3 miljoonaa sanetta.  Mahdollisia tutkimuskohteita ovat mm. eri murteiden tutkimus, äänne- ja muotopiirteet sekä erilaiset kielenkäytön tavat. Korpus tarjoaa uusia tutkimusasetelmia kie­li­tie­teen ja folkloristiikan lisäksi monille muille aloille. Näitä ovat pelkästään juhlasymposiumin esitelmien perusteella ainakin kirjallisuudentutkimus, historia, lääketiede ja hoitotiede.

Aineiston julkaisemisen Kielipankissa ovat tehneet mahdolliseksi Oulun yliopistonlehtori Maija Saviniemen aloitteesta Kalle Päätalon omaiset Riitta Päätalo, Aliisa Oksanen ja Emmi Oksanen sekä Gummerus Kustannus.

Ensimmäinen Iijoki-sarjan versio on myös ensimmäinen Kielipankin aineisto, joka on jäsennetty Turku NLP -ryhmän kehittämällä jäsentimellä Turku Neural Parser Pipeline. 

Aineisto on julkaistu lisenssillä ACA NC BY NORED DEP, josta lisätietoja löytyy sivulta http://urn.fi/urn:nbn:fi:lb-2019102106. Aineiston META-SHARE-kuvailusivulta pääsee sijaintitiedon kautta suoraan Korp-konkordanssityökaluun  ja kirjautumalla Korpiin oman yliopistonsa tai tutkimusinstituutionsa tunnuksilla hyväksyy aineiston käyttöehdot.

Data Clinic 2019-20 starts again!

The Data Clinic (former Corpus Clinic) is a course intended for students who are planning to work on their Master’s or PhD thesis during the winter and who need support for getting their language data organized for analysis. The course kicks off with a face-to-face meeting on 1st November, but it will be possible to enrol on Moodle until 15th of November. All the materials will be provided online and mainly in English. The number of participants is restricted, but if space allows, it is possible to join the course group from universities outside Helsinki as well. Read more about Data Clinic…

 

Further information on all courses and training organized by FIN-CLARIN

Miten nopeasti kirjoitat suomea älypuhelimella tai tietokoneella?

Testaa nopeutesi osoitteessa http://kirjoitustesti.aalto.fi/, tuotat samalla tutkimusaineistoa.

Testin ideana on kerätä aineisto siitä, miten suomalaiset kirjoittavat älypuhelimillaan. Aineiston avulla Aalto-yliopiston tutkijat pystyvät selvittämään, mitkä asiat kirjoittamisessa sujuvat ja mitkä eivät, ja mikä on nopein tapa kirjoittaa suomen kieltä. Kirjoitustestin laatimisessa on hyödynnetty Kielipankin Suomi24 2017H2-aineistoa ja Ylen suomenkielisen uutisarkiston selkouutisia 2011-2018.

Lue lisää Helsingin sanomien artikkelista https://www.hs.fi/teknologia/art-2000006261355.html

Tekniikan maailma julkaisi juuri vastaavan englannin kielellä kerätyn testiaineiston tulokset. Jutun löydät osoitteesta:
https://tekniikanmaailma.fi/tutkimus-kannykan-kayttajat-osaavat-kirjoittaa-kannykalla-lahes-yhta-nopeastin-kuin-perinteisella-nappaimistolla-nopein-tykitti-kannykalla-85-sanaa-minuutissa/

Workshop

Us­ing An­cient Tree­banks: Re­ports and Dreams

20.-21.9.2019

Helsingin yliopisto
Porthania P673 (Yliopistonkatu 3, Helsinki)

 

Puupankit ovat hyödyllisiä nykyaikaisia työkaluja, joilla voimme tutkia kielen syntaksia. Tässä työpajassa käsittelemme puupankkien käyttöä tutkimuksessa ja sellaisten työkalujen kehittämistä, jotka voivat tukea tällaista tutkimusta.

Seuraamme työssämme Universal Dependencies (UD) -merkintäjärjestelmän ohjeita ja olemme iloisia saadessamme työpajamme pääpuhujaksi Joakim Nivren Uppsalan yliopistosta.

Huolimatta siitä, että oma painotuksemme on muinaisten, kuolleiden kielten, erityisesti muinaisten Lähi-idän kielten kuten akkadin ja sumerin tutkimuksessa, työmme tapahtuu tiiviissä yhteistyössä nykykielten kanssa.

Työpajassa käsittelemme lisäksi teoreettisia ja käytännöllisiä lähestymistapoja mm. automaattista merkintää ja koneoppimista, joiden avulla toivomme saavuttavamme myös laajemman yleisön kiinnostuksen tutkimuskohteillemme.

Työpajan ohjelma: https://www.helsinki.fi/en/news/language-culture/program-using-ancient-treebanks-reports-and-dreams

 

Kahvitilausta varten pyydämme kiinnostuneita rekisteröitymään e-lomakkeella https://elomake.helsinki.fi/lomakkeet/99873/lomake.html maanantaihin 16.9 mennessä.

Discrepancies in dependency parses: Suomi24 2017H2, Semfinlex

The dependency parses and relations in the Suomi24 2017H2 and Semfinlex corpora added to Korp (korp.csc.fi) and the Download service of The Language Bank of Finland (korp.csc.fi/download) in spring 2019 differ significantly from the parses in other corpora parsed earlier with the same parser. We are investigating the issue.

If you need dependency parse information, we recommend using other corpora than Suomi24
2017H2 and Semfinlex for the time being.

We apologize for the situation and thank Joonatan Tola for user feedback.

Hae verkkokursseille opetusavustajaksi!

FIN-CLARIN järjestää lukuvuonna 2019-20 useita kieliaineistojen tutkimiseen ja käsittelyyn liittyviä verkkokursseja, joille tarvitaan opetusavustajia. Toimimalla esimerkiksi korpuslingvistiikan tai puheen analyysin verkkokurssin opetusavustajana sekä osallistumalla perehdytykseen ja vertaistukiryhmän toimintaan voit ansaita viisi opintopistettä ja arvokasta kokemusta.

Lue lisää opetusavustajan tehtävistä ja hakuajoista

Seuraavat FIN-CLARINin järjestämät kurssit

FIN-CLARIN ja Kielipankki tekevät yhteistyötä FCAIn ja Vaken kanssa tekoälyn kielikomponenttien kehittämiseksi:

vake.fi/fitiedotteet

 

Suomi24-korpuksen uusi versio 2017H2 nyt koekäytössä

Suomi24-aineiston uusi versio 2017H2 on nyt kokeiltavissa Kielipankin Korp-konkordanssipalvelussa, https://korp.csc.fi/#?corpus=suomi24_2017h2
(Jos aineisto ei vielä näy, lataa sivu uudelleen ja tyhjennä tarvittaessa selaimen välimuisti.)

Uuden aineistoversion kuvailutietue: http://urn.fi/urn:nbn:fi:lb-2019021101

Testausvaihe

Aineisto näkyy Korpissa toistaiseksi beta-merkittynä, mikä tarkoittaa sitä, että voimme tehdä siihen muutoksia ilman eri ilmoitusta ja uuden version julkaisemista. Tämän vuoksi on varminta, ettei beta-version pohjalta tehdä sellaista tutkimusta, joka on välttämätöntä voida toistaa myöhemmin täsmälleen samanlaisena. Erityisiä muutoksia ei ole tiedossa, mutta niitä voidaan tehdä palautteen pohjalta. Beta-vaihe kestää arviolta 2–4 viikkoa, ellei suuria muutostarpeita ilmene.

Otamme mielellämme vastaan kommentteja, kehitys- ja parannusehdotuksia sekä muuta palautetta aineistosta ja erityisesti sen Korp-muodosta. Voit lähettää palautetta esimerkiksi Korpin palautelomakkeen kautta.

Miten uusi versio eroaa edellisestä?

Suomi24-aineiston uuden version Korp-muodossa on jonkin verran eroja aiempaan versioon. Erot on kuvattu alla.

Lopullinen aineistoversio viedään myös Kielipankin latauspalveluun Korp-muotoa vastaavassa VRT-muodossa. (Alustava VRT-muoto on jo latauspalvelussa saatavilla, mutta Korpissa koekäytettävä versio eroaa siitä pieneltä osin.)

1. Aineiston kattavuus

Suomi24 2017H2 kattaa Allerilta saadun Suomi24-aineiston ajalta 1.1.2001–31.12.2017. (Versiotunnus 2017H2 ilmaisee, että korpus kattaa aineiston vuoden 2017 loppuun asti.)

Kattavuus on selvästi aiempaa versiota parempi, mutta poistetut viestit ja suljetut keskusteluketjut eivät siinä näy, kuten eivät Suomi24-palvelussakaan. Kaikkiaan uudessa aineistossa on 82 858 608 viestiä ja 4 132 665 850 sanetta, kun aiemmassa versiossa oli 55 250 113 viestiä ja 2 663 114 497 sanetta.

2. Aineiston toimivuus Korpissa

Korpissa uuden version konkordanssihaut ja tilastot toimivat, mutta sanakuva ei vielä tällä hetkellä toimi.

Aineistolle ei ole vielä ajettu nimientunnistinta, joten sen lisäämät tiedot puuttuvat toistaiseksi. Ne pyritään lisäämään lähiaikoina, joka tapauksessa tämän kevään aikana.

3. Suomi24-aineistot Korpin korpusvalikossa

Aineisto näkyy Korpin korpusvalikossa aiemman Suomi24:n rinnalla, toistaiseksi nimellä ”Suomi24 virkkeet -korpus (2017H2) (beta)”. Aiemmasta versiosta poiketen aineisto on jaettu osakorpuksiin viestien kirjoitusvuoden perusteella.

Koska Suomi24:n edellistä versiota (2016H2, vaikka tietoa ei Korpissa toistaiseksi näykään) on käytetty varsin paljon, myös se näkyy Korpin korpusvalikossa vielä ainakin jonkin aikaa, mahdollisesti pitkäänkin.

Mietimme, miten edellisen version olisi hyvä näkyä jatkossa: olisiko esimerkiksi hyvä merkitä vanhan aineiston kuvaukseen, että uudempi versio korvaa sen, tai olisiko hyvä, että korpusvalikon ”Valitse kaikki” ei valitsiskaan aineistojen vanhoja versioita. Yksi mahdollisuus olisi, että vanha versio olisi käytettävissä vain erillisessä ”arkisto-Korpissa”, joka sisältäisi aineistojen vanhoja versioita.

4. Aineiston järjestys

Kunkin vuoden sisällä aineisto on järjestetty niin, että kaikki saman viestiketjun viestit ovat peräkkäin. Viestiketjut puolestaan on järjestetty ketjun kyseisen vuoden ensimmäisen viestin päivämäärän mukaan. (Jos viestiketju on alkanut samana vuonna, järjestys on siis ketjun aloitusviestin perustella.)

Viestit kunkin viestiketjun (ja vuoden) sisällä on järjestetty ”ketjujärjestykseen”, jossa kommenttiviestit ovat kommentoidun viestin perässä aikajärjestyksessä. Tämän vastannee sitä järjestystä, jossa viestit näkyvät Suomi24-palvelun kautta.

5. Tekstin piirteet ja niiden näkyminen Korpissa

Aiempaan versioon verrattuna tekstin piirteitä on nimetty uudelleen sekä sisäisiltä että Korpissa näkyviltä nimiltään, jotta ne olisivat ymmärrettävämpiä. Parannusehdotukset ovat tervetulleita.

Korpin hakutuloksen reunapalkissa tekstin piirteet näkyvät nyt seuraavasti. Sulkeissa on piirteen sisäinen nimi, joka ei näy reunapalkissa, mutta jota käytetään Korpin edistyneen haun ja Korp-APIn CQP-kyselylausekkeissa.

otsikko (text_title): Totuus 206:sta
päiväys (text_date): 2001-01-01
kellonaika (text_time): 02:05:00
kirjoittajan nimimerkki (text_author): Haimsplitz
kirjautunut käyttäjä (text_author_logged_in): ei
rekisteröity nimimerkki (text_author_nick_registered): ei
aihealue (text_topic_names): Ajoneuvot ja liikenne > Autot > Automerkit > Peugeot
aihealue vain aikuisille (text_topic_adultonly): ei
viestin tyyppi (text_msg_type): keskusteluketjun aloitus
viesti on täysin tyhjä (text_empty): ei
tunniste (text_id): 25383:0
keskusteluketjun tunniste (text_comment_id): 25383
keskusteluketjun alkuaikaleima (text_thread_start_datetime): 2001-01-01 02:05:00
kommentin tunniste (text_comment_id): 0 [ketjun aloitusviesti]
kommentin vanhemman tunniste (text_parent_comment_id): 0 [ketjun aloitusviesti]
kommentin vanhemman aikaleima (text_parent_datetime): [tyhjä]
lainatun kommentin tunniste (text_comment_id): 0 [ei lainausta]
tiedoston nimi (text_filename_vrt): s24_2001_01.vrt
kappaleen tyyppi (paragraph_type): kappale

Tunniste (text_id) on yhdistelmä keskusteluketjun ja kommentin tunnisteesta. Sen sijaan kommentin vanhemman tunniste ja lainatun kommentin tunniste ovat nimenomaan kommentin tunnisteita saman ketjun sisällä. Tiedostonimi on uuden tiedostojaon mukainen, ei alkuperäisen datan mukainen.

Aivan kaikki tekstin piirteet eivät näy reunapalkissa, vaan Korpin laajennetussa haussa on mahdollista hakea erikseen myös esim. aihealueen ylimmän ja alimman tason perusteella. Laajennetussa haussa aihealueen ylimmälle tasolle on valintalista. Koko aihealueelle olisi mahdollista tehdä myös hierarkkinen valintalista (tai -dialogi), mutta sellaisen toteuttaminen on jonkin verran mutkikkaampaa.

Piirteiden nimet ja osin arvot eroavat myös aiemmasta Suomi24-versiosta, jossa ne olivat seuraavanlaiset:

otsikko (text_title): Totuus 206:sta
otsikon sanojen perusmuodot (text_title_lemmas): totuus 206 : sta
päiväys (text_date): 01.01.2001
kellonaika (text_time): 02:05
keskusteluketjun tunniste (text_tid): 25383
viestin tunniste (text_cid): unspecified
pääaihealue (text_discussionarea): Ajoneuvot ja liikenne
aihealueen tarkennus (text_subsections): Autot > Automerkit > Peugeot
nimimerkki (text_anonnick): Haimsplitz
nimimerkin sanojen perusmuodot (text_anonnick_lemmas): Haimsplitz

Mikäli vanhan version mukaisten sisäisten nimien näkyminen olisi mielestäsi tarpeen myös uudessa versiossa, jätäthän tästä palautetta. Joissain tapauksissa arvojoukko on muuttunut (esim. päiväys on nyt ISO-muodossa), jolloin taaksepäin yhteensopivuutta voi olla vaikea toteuttaa. Aihealue oli aiemmin jaettu pääaihealueeseen ja aihealueen tarkennukseen, mutta nyt koko aihealueketju on samassa piirteessä, ja lisäksi voi siis hakea aihealueen ylimmän tai alimman tason perusteella.

Uudessa versiossa ei ole aiempaan jälkeenpäin lisättyjä otsikon ja nimimerkin sanojen perusmuotoja. Otsikon sanojen perusmuodot ovat nyt osana itse tekstiä. Sen sijaan nimimerkin sanojen perusmuotoja ei nykyisellään ole lainkaan.

6. Mahdolliset tekstin lisäpiirteet

Aineistoon olisi mahdollista lisätä kohtuullisella vaivalla myös muiden tietojen perusteella laskettuja tekstin lisäpiirteitä, jos käyttäjät niitä toivovat.

Mahdollisia lisäpiirteitä olisivat ainakin seuraavat:

 • ketjun kommenttien (tai viestien) määrä
 • viestiin tulleiden kommenttien määrä (”lapset”)
 • viestiin tulleiden kommenttien ja niiden kommenttien määrä (”jälkeläiset”)
 • viestin syvyys viestiketjussa
 • ajallinen etäisyys ketjun aloitusviestistä
 • ajallinen etäisyys vanhemmasta

Kommenttien määrien osalta harkitaan vielä, pitäisikö niiden koskea yhtä vuotta vai kaikkia vuosia. Jos ne koskevat kaikkia vuosia, niitä täytyy päivittää, kun aineisto karttuu, mikä heikentäisi tutkimuksen toistettavuutta tältä osin, tai sitten pitäisi olla erilliset attribuutit jokaiselle uudelle (laajennetulle) aineistoversiolle.

Ajallinen etäisyys puolestaan voitaisiin ilmaista sekunteina, mahdollisesti sen lisäksi vuorokausina.

7. Sanan piirteet

Nimitietoja lukuun ottamatta aineiston sanojen piirteet ovat samat kuin aiemmassa versiossa. Sanojen palauttamisessa perusmuotoon on joitain pieniä eroja ja tietyiltä osin perusmuotoistaminen on onnistunut heikommin kuin aiemmassa versiossa. Perusmuotoistaminen on kuitenkin tarkoitus tehdä uudelleen parannetulla menetelmällä, mahdollisesti jo tämän kevään kuluessa.

8. Ladattava versio

Kielipankin latauspalvelussa on aineistosta toistaiseksi alustava VRT-muotoinen versio:

http://urn.fi/urn:nbn:fi:lb-2019010802

Tämänhetkistä Korp-versiota vastaava VRT-versio on tarkoitus viedä latauspalveluun viimeistään beta-vaiheen päätyttyä. Eroja latauspalvelun tämänhetkiseen versioon ovat ainakin seuraavat:

 • Aineisto on tarkoitus jakaa paketteihin vuosittain. Kunkin vuoden sisällä kussakin VRT-tiedostossa on enintään 250 000 viestiä samassa
  järjestyksessä kuin nyt Korpissa. Suurimmat yksittäiset VRT-tiedostot ovat kooltaan vähän yli 1 GiB.
 • Muutamien viestien puuttuneet aikaleimat (aikaleimana 1970-01-01 02:00:00) on korvattu viereisten viestien perusteella arvioiduilla aikaleimoilla.
 • Täysin tyhjiin viesteihin on lisätty sisällöksi yksittäinen alaviiva, jotta ne eivät häviä Korpiin vietäessä.
 • Aineiston rakenneattribuutteja (tekstin piirteitä) on nimetty uudelleen (ks. kohta 5) ja niihin on lisätty aihealueen nimen sisältävät attribuutit.
 • Aineiston saneisiin on lisätty perusmuoto, josta on poistettu yhdyssanarajamerkit.

Kaikki palaute tästä Suomi24-aineiston uudesta Korp-versiosta on tervetullutta!