31.3.2015

Yli kolmen miljoonan sanan puheaineisto nyt verkossa 31.3.2015

Verkossa on nyt joustavasti katsottavissa ja kuunneltavissa yli kolmen miljoonan sanan puheaineisto. Julkaistavista aineistoista voi tehdä sanojen ja sananmuotojen perusteella hakuja, joiden tulokset pääsee heti myös kuuntelemaan. Osassa aineistoista voi lisäksi tehdä hakuja kieliopillisten ominaisuuksien perustella.

Aineisto sisältää runsaasti iäkkäiden maaseudulla asuneiden ihmisten murrepuhetta, mutta mukana on myös nykyistä puhekieltä sisältäviä aineistoja, esimerkiksi helsinkiläistä puhekieltä. Vanhemmat aineistot (Lauseopin arkiston murrekorpus ja Suomen kielen näytteitä) ovat verkossa vapaasti käytettävissä, mutta uudempien (Murteenseuruukorpus ja Helsingin puhekielen pitkittäiskorpus) käyttöön tarvitaan lupa.

Merkittävä osa aineistosta on peräisin Kotimaisten kielten keskuksen ylläpitämästä Suomen kielen nauhoitearkistosta. Nauhoitearkistoon on kerätty vuodesta 1959 alkaen tuhansia tunteja äänitteitä suomen murteista.

Aineistot on tuotettu FIN-CLARIN-yhteistyön merkeissä. FIN-CLARIN on suomalaisten yliopistojen, CSC:n (Tieteen tietotekniikan keskus) ja Kotimaisten kielten keskuksen muodostama tutkimusaineistoyhteenliittymä. Nyt julkistettavien aineistojen kehittämiseen ovat osallistuneet myös Turun ja Helsingin yliopistojen suomen kielen oppiaineet.