Aalto Finnish Parliament ASR Corpus 2008-2020 (fi-parliament-asr)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

This corpus is extracted from the Finnish parliament plenary session transcripts and videos by the
Aalto Speech Recognition group. The original session transcripts and videos are available at the web
portals of the Parliament of Finland (avoindata.eduskunta.fi and verkkolahetys.eduskunta.fi).

The Finnish corpus is split into three parts:
1. 2015-2020 set
2. 2008-2016 set
3. Development and evaluation sets

A non-overlapping combination of the 2008-2016 set and the 2015-2020 set form a training set of size:
– 1 422 318 sample pairs
– 3 130 hours of speech
– 19 356 831 word tokens

The Finland Swedish corpus contains:
– 3889 sample pairs
– 6.4 hours of speech
– 333 483 word tokens

All audio files in this corpus are single-channel wavs with sample rate 16 kHz and 16-bit precision.
The transcript files (.trn) are plain text files.

License and access

  • All versions of this resource are available publicly (PUB).
  • Click on the license image to see the resource-specific license text.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021081105

The Helsinki Korp Europarl Bilingual Corpora (europarl)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Helsinki Korp Europarl Bilingual Corpora are:

The Helsinki Korp Europarl Finnish-English Corpus
The Helsinki Korp Europarl Finnish-Swedish Corpus
The Helsinki Korp Europarl Finnish-German Corpus
The Helsinki Korp Europarl Finnish-French Corpus
The Helsinki Korp Europarl Finnish-Spanish Corpus
The Helsinki Korp Europarl Finnish-Estonian Corpus

The corpora contain texts of the Europarl Parallel Corpus v7.

The Europarl parallel corpus is extracted from the proceedings of the European Parliament. The goal of the extraction and processing was to generate sentence aligned text for statistical machine translation systems. For this purpose matching items were extracted and labeled with corresponding document IDs. By using a preprocessor, sentence boundaries were identified. The data was sentence aligned by using a tool based on the Church and Gale algorithm.

For more information on the Europarl Parallel Corpus see http://urn.fi/urn:nbn:fi:lb-20140730195 and http://www.statmt.org/europarl/

License and access

  • All versions of this resource are available publicly (PUB).
  • Click on the license image to see the resource-specific license text.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021052403

Plenary Sessions of the Parliament of Finland (eduskunta)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

Plenary Sessions of the Parliament of Finland contains audio and video recordings of the parliamentary sessions and the transcripts that have been aligned with the audio. Both the media files and the original transcripts have been obtained directly from the online public services of the Parliament. The content is openly available via the Language Bank of Finland without logging in.

Via the Korp service in the Language Bank of Finland, it is possible to perform various kinds of content searches on the corpus and to calculate statistics from the results. The turns of different speakers have been separated in the text. In the Extended search tab in Korp, it is possible to delimit searches on the basis of the speaker’s name, the parliamentary group or the role of the speaker.

In the search results of this corpus version in Korp, there are also links to the corresponding utterances in the original video. If you wish, you may download the ELAN/EAF annotation files and the audio files in the downloadable version of the corpus for further processing. Moreover, the original videos and transcripts can also be located in the online services of the Parliament of Finland.

The text in the original transcripts has been aligned with the audio recordings by automatic methods. The technological expertise in the alignment process was provided by Aalto University. In those audio portions where a matching text was not found in the transcript, an automatic speech recognizer was used in order to provide a tentative transcript. Thus, it is important to remember that the text in the Korp version of the corpus is not error-free and it may not always fully correspond to the original transcript.

Further information about the contents of the different corpus versions can be found in their metadata records.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some versions of this resource are available in the computing environment (see column ’Location’). icon-question-circle

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-201407305

Eduskunnan täysistunnot (eduskunta)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Eduskunnan täysistunnot -aineisto sisältää Suomen eduskunnan täysistuntokeskustelujen äänitteitä, videoita ja niihin kohdistettuja keskustelupöytäkirjoja. Sekä mediatallenteet että pöytäkirjat on saatu suoraan eduskunnan julkisten palveluiden kautta. Aineisto on Kielipankin kautta avoimesti saatavilla eikä sen käyttäminen edellytä kirjautumista (ks. tarkemmat tiedot aineistoon sovellettavista lisensseistä).

Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Eri puhujien puheenvuorot on merkitty aineistoon erikseen. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi puhujan, hänen edustamansa eduskuntaryhmän tai hänen roolinsa perusteella.

Lähes kaikista Korp-hakutuloksista on myös linkki vastaavaan kohtaan alkuperäisessä videossa (videolinkit on lisätty aineiston Korp-versioon 1.5). Lisäksi käyttäjä voi tarvittaessa ladata Korp-versiota 1.5 vastaavat VRT-muotoiset tekstitiedostot sekä keskustelujen äänitteet ja EAF-muotoiset annotaatiotiedostot aineiston ladattavasta versiosta sekä noutaa eduskunnan palvelimelta alkuperäisiä videoita.

Pöytäkirjojen sisältämä teksti on kohdistettu äänitteisiin automaattisilla menetelmillä. Kohdistustyöstä on teknisesti vastannut Aalto-yliopisto. Ne kohdat, joissa pöytäkirjasta ei ole löytynyt äänitettä vastaavaa tekstiä, on pyritty tunnistamaan automaattisesti ja tekstiehdotus on lisätty litteraattiin. Tämän vuoksi kannattaa huomata, ettei tunnistettu teksti ole kaikilta osin virheetöntä. Teksti on myös jäsennetty suomen kielen jäsentimellä, joten alkuperäisten pöytäkirjojen ruotsinkieliset kohdat on yleensä merkitty sanaluokaltaan vierassanoiksi.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joidenkin tämän aineiston versioiden kopio voi olla saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake). icon-question-circle

Esimerkkihakuja aineiston Korp-versiosta

 

 

Kuva Korp-hakutuloksista eduskunta-aineistosta
Yksinkertainen haku Korpissa, kaikki esiintymät sanan ’maahanmuuttaja’ kaikista eri muodoista koko aineistossa
Videolinkin sijainti Korp-hakutuloksissa (sivun oikea alakulma)

 

Laajennettu haku Korpissa: Sanan ’maahanmuuttaja’ kaikki eri muodot, jotka esiintyvät joko Keskustan tai Kansallisen kokoomuksen eduskuntaryhmien edustajien puheissa ja joiden jälkeen samassa virkkeessä enintään 10 sanan päässä esiintyy mikä tahansa muoto sanasta ’opetus’ tai sanasta ’koulutus’.

 

Laajennettu haku Korpissa, kaikki ’Pori’-paikannimen maininnat.

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2021111721

Last modified on 2025-05-14

Search the Language Bank Portal:
Krista Ojutkangas
Researcher of the Month: Krista Ojutkangas

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information