This corpus is extracted from the Finnish parliament plenary session transcripts and videos by the
Aalto Speech Recognition group. The original session transcripts and videos are available at the web
portals of the Parliament of Finland ( and
The Finnish corpus is split into three parts:
1. 2015-2020 set
2. 2008-2016 set
3. Development and evaluation sets
A non-overlapping combination of the 2008-2016 set and the 2015-2020 set form a training set of size:
– 1 422 318 sample pairs
– 3 130 hours of speech
– 19 356 831 word tokens
The Finland Swedish corpus contains:
– 3889 sample pairs
– 6.4 hours of speech
– 333 483 word tokens
All audio files in this corpus are single-channel wavs with sample rate 16 kHz and 16-bit precision.
The transcript files (.trn) are plain text files.
Of this language corpus different versions are (or might be in the future) published in the Language Bank of Finland.
This resource group page has a Persistent Identifier:
The Helsinki Korp Europarl Bilingual Corpora are:
The Helsinki Korp Europarl Finnish-English Corpus
The Helsinki Korp Europarl Finnish-Swedish Corpus
The Helsinki Korp Europarl Finnish-German Corpus
The Helsinki Korp Europarl Finnish-French Corpus
The Helsinki Korp Europarl Finnish-Spanish Corpus
The Helsinki Korp Europarl Finnish-Estonian Corpus
The corpora contain texts of the Europarl Parallel Corpus v7.
The Europarl parallel corpus is extracted from the proceedings of the European Parliament. The goal of the extraction and processing was to generate sentence aligned text for statistical machine translation systems. For this purpose matching items were extracted and labeled with corresponding document IDs. By using a preprocessor, sentence boundaries were identified. The data was sentence aligned by using a tool based on the Church and Gale algorithm.
For more information on the Europarl Parallel Corpus see and
Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier:
Plenary Sessions of the Parliament of Finland contains audio and video recordings of the parliamentary sessions and the transcripts that have been aligned with the audio. Both the media files and the original transcripts have been obtained directly from the online public services of the Parliament. The content is openly available via the Language Bank of Finland without logging in.
Via the Korp service in the Language Bank of Finland, it is possible to perform various kinds of content searches on the corpus and to calculate statistics from the results. The turns of different speakers have been separated in the text. In the Extended search tab in Korp, it is possible to delimit searches on the basis of the speaker’s name, the parliamentary group or the role of the speaker.
In the search results of this corpus version in Korp, there are also links to the corresponding utterances in the original video. If you wish, you may download the ELAN/EAF annotation files and the audio files in the downloadable version of the corpus for further processing. Moreover, the original videos and transcripts can also be located in the online services of the Parliament of Finland.
The text in the original transcripts has been aligned with the audio recordings by automatic methods. The technological expertise in the alignment process was provided by Aalto University. In those audio portions where a matching text was not found in the transcript, an automatic speech recognizer was used in order to provide a tentative transcript. Thus, it is important to remember that the text in the Korp version of the corpus is not error-free and it may not always fully correspond to the original transcript.
Further information about the contents of the different corpus versions can be found in their metadata records.
This resource group page has a Persistent Identifier:
Eduskunnan täysistunnot -aineisto sisältää Suomen eduskunnan täysistuntokeskustelujen äänitteitä, videoita ja niihin kohdistettuja keskustelupöytäkirjoja. Sekä mediatallenteet että pöytäkirjat on saatu suoraan eduskunnan julkisten palveluiden kautta. Aineisto on Kielipankin kautta avoimesti saatavilla eikä sen käyttäminen edellytä kirjautumista (ks. tarkemmat tiedot aineistoon sovellettavista lisensseistä).
Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Eri puhujien puheenvuorot on merkitty aineistoon erikseen. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi puhujan, hänen edustamansa eduskuntaryhmän tai hänen roolinsa perusteella.
Lähes kaikista Korp-hakutuloksista on myös linkki vastaavaan kohtaan alkuperäisessä videossa (videolinkit on lisätty aineiston Korp-versioon 1.5). Lisäksi käyttäjä voi tarvittaessa ladata Korp-versiota 1.5 vastaavat VRT-muotoiset tekstitiedostot sekä keskustelujen äänitteet ja EAF-muotoiset annotaatiotiedostot aineiston ladattavasta versiosta sekä noutaa eduskunnan palvelimelta alkuperäisiä videoita.
Pöytäkirjojen sisältämä teksti on kohdistettu äänitteisiin automaattisilla menetelmillä. Kohdistustyöstä on teknisesti vastannut Aalto-yliopisto. Ne kohdat, joissa pöytäkirjasta ei ole löytynyt äänitettä vastaavaa tekstiä, on pyritty tunnistamaan automaattisesti ja tekstiehdotus on lisätty litteraattiin. Tämän vuoksi kannattaa huomata, ettei tunnistettu teksti ole kaikilta osin virheetöntä. Teksti on myös jäsennetty suomen kielen jäsentimellä, joten alkuperäisten pöytäkirjojen ruotsinkieliset kohdat on yleensä merkitty sanaluokaltaan vierassanoiksi.
Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2021111721