Aallon puheentunnistuskorpus eduskunnan istunnoista 2008-2020 (fi-parliament-asr)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This corpus is extracted from the Finnish parliament plenary session transcripts and videos by the
Aalto Speech Recognition group. The original session transcripts and videos are available at the web
portals of the Parliament of Finland (avoindata.eduskunta.fi and verkkolahetys.eduskunta.fi).

The Finnish corpus is split into three parts:
1. 2015-2020 set
2. 2008-2016 set
3. Development and evaluation sets

A non-overlapping combination of the 2008-2016 set and the 2015-2020 set form a training set of size:
– 1 422 318 sample pairs
– 3 130 hours of speech
– 19 356 831 word tokens

The Finland Swedish corpus contains:
– 3889 sample pairs
– 6.4 hours of speech
– 333 483 word tokens

All audio files in this corpus are single-channel wavs with sample rate 16 kHz and 16-bit precision.
The transcript files (.trn) are plain text files.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Kaikki tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025101704

Viimeksi muokattu 2025-10-21