Aallon puheentunnistuskorpus eduskunnan istunnoista 2008-2020 (fi-parliament-asr)

Aallon puheentunnistuskorpus eduskunnan istunnoista 2008-2020 (fi-parliament-asr)

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

This corpus is extracted from the Finnish parliament plenary session transcripts and videos by the
Aalto Speech Recognition group. The original session transcripts and videos are available at the web
portals of the Parliament of Finland (avoindata.eduskunta.fi and verkkolahetys.eduskunta.fi).

The Finnish corpus is split into three parts:
1. 2015-2020 set
2. 2008-2016 set
3. Development and evaluation sets

A non-overlapping combination of the 2008-2016 set and the 2015-2020 set form a training set of size:
– 1 422 318 sample pairs
– 3 130 hours of speech
– 19 356 831 word tokens

The Finland Swedish corpus contains:
– 3889 sample pairs
– 6.4 hours of speech
– 333 483 word tokens

All audio files in this corpus are single-channel wavs with sample rate 16 kHz and 16-bit precision.
The transcript files (.trn) are plain text files.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Kaikki tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025101704

Viimeksi muokattu 2025-10-21