Aalto Finnish Parliament ASR Corpus 2008-2020

This corpus is extracted from the Finnish parliament plenary session transcripts and videos by the
Aalto Speech Recognition group. The original session transcripts and videos are available at the web
portals of the Parliament of Finland (avoindata.eduskunta.fi and verkkolahetys.eduskunta.fi). The
corpus is split into three parts:
1. 2015-2020 set
2. 2008-2016 set
3. Development and evaluation sets

A non-overlapping combination of the 2008-2016 set and the 2015-2020 set form a training set of size:
– 1 422 318 sample pairs
– 3 130 hours of speech
– 19 356 831 word tokens

All audio files in this corpus are single-channel wavs with sample rate 16 kHz and 16-bit precision.
The transcript files (.trn) are plain text files.

Latest versions/subcorpora:
Aalto Finnish Parliament ASR Corpus 2008-2020
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Search for these versions in META-SHARE

Of this language corpus different versions are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021081105

Finnish Proverb Collection

The collection includes dialectal proverbs collected from various areas in the 1930s. This is a resource of Kotimaisten kielten keskus, the Institute for the Languages of Finland. For more information please see https://kaino.kotus.fi/korpus/sp/meta/sp_coll_rdf.xml.

This resource contains only a part of the 1.4 million proverbs collected in different regions of Finland. The National Archives of Finland have digitized quite a few of the handwritten cards containing proverbs. The digitized cards are available in jpg format at http://digi.narc.fi/digi/dosearch.ka?sartun=385077.KA

Latest versions/subcorpora:
Proverb Collection, Kielipankki Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp
Search for these versions in META-SHARE

Of this language corpus different versions are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021081104

The Corpus of Beserman Udmurt, Kielipankki Version

The Corpus of Beserman Udmurt comprises 65 000 tokens. The Beserman dialect of Udmurt is used in daily communication approximately by 2 000 speakers (according to the 2010 census). The Beserman live in the basin of the Cheptsa river in the Republic of Udmurtia and in the Kirov Oblast of the Russian Federation. In the scientific literature Beserman is considered to be a dialect of the Udmurt language which is characterized by an unusual combination of specifically Beserman phenomena (concentrated in vocabulary and phonetics) with certain traits of Northern and Southern Udmurt dialects, mostly morphological and phonological. The dialect remains the main means of everyday communication in Beserman villages, at least for the older generation.

The texts contained in the corpus have been collected in the villages of Shamardan (109 texts of 117), Vortsa (4 of 117), Malaya Yunda (1 of 117) and Zhuvam (3 of 117) in the Republic of Udmurtia in the years 2003-2015. There are 33 informants in total. The texts have been recorded, transcribed and grammatically annotated in the SIL FieldWorks software. The corpus contains narratives, life stories, dialogues, recipes, and recordings of psycholinguistic experiments. Each sentence is provided with interlinear glossing (according to the Leipzig Glossing Rules) and translation. Both the full text version with audio files and the corpus version are available at http://beserman.ru/corpus/search/?interface_language=en

Latest versions/subcorpora:  
The Corpus of Beserman Udmurt, Kielipankki Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp
Search for all versions in META-SHARE  

Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021052406

Corpus of Age-related Voice Disguise

This corpus includes normal and age-related disguised speech uttered by 60 native Finnish speakers (31 females and 29 males). The speakers were asked to read the same text fragments several times, in their modal voice and in two disguised voices, first pretending to be an elderly speaker and then pretending to be a child. The texts consisted of the Finnish translations of The Rainbow Passage and The North Wind and the Sun, and two selected English sentences from the TIMIT[1] corpus (SA1, SA2). The corpus includes samples of 78 different sentences per speaker (66 Finnish, 12 English). The speech was recorded simultaneously with a portable recorder with close-talking microphone, and two smartphones applications, yielding a total of 14040 audio files (3 * 4680). The material was recorded in summer 2015 in order to study the effect of voice disguise on automatic speaker recognition.

Data protection policy for this corpus: http://urn.fi/urn:nbn:fi:lb-2018121021

Guidelines for processing corpora containing personal data in the Language Bank of Finland: http://urn.fi/urn:nbn:fi:lb-2020081522

Latest versions/subcorpora:
Corpus of Age-related Voice Disguise
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Search for all versions in META-SHARE

Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021052405

ArkiSyn Database of Finnish Conversational Discourse

The Arkisyn corpus contains Finnish everyday conversations which have been morphologically and syntactically annotated. The data comes from the Conversation Analysis Archive at the University of Helsinki and the Finnish language Recording Archive at the University of Turku.

Latest versions/subcorpora:
ArkiSyn Database of Finnish Conversational Discourse, Helsinki Korp Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp
Search for all versions in META-SHARE

Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2014073026

Aalto University DSP Course Conversation Corpus

Aalto University DSP Course Conversation Corpus contains transcribed recordings of Finnish conversations by Digital Signal Processing course students in Aalto University, Finland, from 2013 onwards. The intention has been to use the data to build better models for automatic speech recognition of conversational Finnish.

The corpus includes audio files, handwritten word-level transcripts, and phone-level alignments generated using the Aalto ASR system.

Latest versions/subcorpora:
Aalto University DSP Course Conversation Corpus 2013-2015, Downloadable Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Aalto University DSP Course Conversation Corpus 2013-2016, Downloadable Version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the resource
Search for these versions in META-SHARE

Of this language corpus different versions/subcorpora are published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2015101901

Suomalainen radio- ja tv-korpus

Viimeisimmät versiot: 
Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio
(LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta
Avaa aineisto LAT-palvelussa icon-question-circle
Suomalaisen radio- ja tv-korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Tämän version viittausohje
Hae käyttöoikeutta
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

The Finnish Broadcast Corpus is divided into two main parts: FBC-1 and FBC-2.

The Finnish Broadcast Corpus 1, FBC-1 contains 65 radio and tv recordings broadcast by YLE – the Finnish Broadcasting Company during the year 2003. Parts of the audio and video material have been annotated either manually or automatically in various levels: e.g., utterance (orthographic transcript), word, phone. FBC-1 was compiled under an initiative called Integrated Resources for Speech Technology and Spoken Language Research in Finland, funded by the Academy of Finland. It is CSC’s first multimodal corpus.

Details of the size of FBC-2 are being updated.

The material in the FBC-1 represents four categories:
* Radio monologues
– broadcast telegraph news (24 × 3 minutes, Nov. 2003)
– broadcast lectures of the week (8 × 14 minutes).
* Radio dialogues
– unfinished recordings of the Moninaisuusfoorumi event (5 × 1h).
* TV monologues
– broadcast main news read by Arvi Lind ja Eeva Polttila (15 × 30 minutes, September – November 2003), including the very last news telecast by Arvi Lind on October 15, 2003
* TV dialogues
– broadcast Aamu-TV programs (13 × ca. 12 minutes, 2003).

Formats:
* WAV audio format
* HQ_Pure audio format (44,1–48 KHz) (supported by the Puh-Editor, which is now obsolete)
* HQ_Pure audio format (16 KHz) (supported by the Puh-Editor, which is now obsolete)
* MPEG2 video

Funding Project:
Puheteknologian ja puheentutkimuksen yhteiset resurssit Suomessa, Integrated Resources for Speech Technology and Spoken Language Research in Finland (SA-Puhe)
Funding Type: National Funds
Funder: Academy of Finland
Funding Country: Finland
Project duration: 01/01/2002 – 12/31/2004

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-201403265

ProGram-aineisto, lumiukko- ja sammakkotarinat

Viimeisimmät versiot: 
ProGram-aineisto, lumiukko- ja sammakkotarinat, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
ProGram-aineisto, lumiukko- ja sammakkotarinat
(LAT-palvelussa; tämä versio on poistunut käytöstä joulukuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
(ei enää saatavilla; katso latausversio yllä)
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston aiemman LAT-version poistumisesta vuoden 2020 lopussa

Kielipankin LAT-alusta on poistunut käytöstä vuoden 2020 lopussa. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla omalle koneelle ladattavana versiona. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021052506

Reitti A-siipeen -demokorpus

Vapaasti käytettäväksi tarkoitettu näyteaineisto. Sisältää kahdenkeskisen videoidun keskustelun ”Reitti A-siipeen”, jossa selvitetään reittiä tiettyyn Helsingin yliopiston Metsätalossa sijaitsevaan huoneeseen.

Viimeisimmät versiot: 
Reitti A-siipeen -korpuksen Helsinki-Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto Korp-palvelussa icon-question-circle
Reitti A-siipeen -korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Viittausohje
Lataa aineisto
Reitti A-siipeen -korpuksen Helsinki-LAT-versio (LAT-palvelussa; tämä versio on poistunut käytöstä vuonna 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
ei enää saatavilla; ks. ladattava versio
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistettiin käytöstä vuoden 2020 lopussa. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN– ja Praat-ohjelmilla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014101401

Koltansaamen dokumentaatiokorpus (2016)

Viimeisimmät versiot: 
Koltansaamen dokumentaatiokorpus (2016), ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta
Lataa aineisto (tulossa pian!)
Koltansaamen dokumentaatiokorpus (2016) LAT-palvelussa
on poistunut käytöstä joulukuussa 2020.
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
(Aineiston LAT-versio ei ole enää saatavilla)
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta on poistettu käytöstä joulukuussa 2020. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus on tulossa saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104203

Kipo-korpus – Suomen viittomakielten kielipoliittinen ohjelma 2010

Viimeisimmät versiot: 
Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010), ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Aineiston aikaisempaa LAT-versiota vastaava sisältö löytyy nyt Kielipankin latauspalvelusta

Kielipankin LAT-alusta on poistettu käytöstä vuoden 2020 lopussa, eikä tätä aineistoa enää pääse käyttämään LAT-näkymän kautta. Vastaava sisältö on saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis jatkaa esimerkiksi ELAN-ohjelmalla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021052504

Pohjoissaamen näytekorpus

Viimeisimmät versiot: 
Pohjoissaamen näytekorpus (vain ladattavana)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2015060801

Murteenseuruukorpus

Viimeisimmät versiot: 
Murteenseuruukorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104202

ELFA – English as a Lingua Franca in Academic Settings

Current versions of this resource: 
The Helsinki Korp Version of the ELFA Corpus
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
The Transcriptions of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Download the resource
The Audio Files of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Download the resource
Search for other versions of this resource

The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).

The data consists of both recordings and their transcripts, which are available in several versions:

The recordings were made at the University of Tampere, the University of Helsinki, Tampere University of Technology, and Helsinki University of Technology.

The speech events in the corpus include both monologic events, such as lectures and presentations (33 % of data), and dialogic/polylogic events, such as seminars, thesis defences, and conference discussions, which have been given an emphasis in the data (67%).

As for the disciplinary domains, the ELFA corpus is composed of social sciences (29% of the recorded data), technology (19%), humanities (17%), natural sciences (13%), medicine (10%), behavioural sciences (7%), and economics and administration (5%).

Also the speakers in ELFA represent a wide range of first language backgrounds as the data comprises approximately 650 speakers with 51 different first languages ranging from African languages (e.g. Akan, Dagbani, Igbo, Kikuyu, Somali, Swahili), to Asian (e.g. Arabic, Bengali, Chinese, Hindi, Japanese, Persian, Turkish, Uzbek), and European languages (e.g. Czech, Danish, Dutch, French, German, Italian, Lithuanian, Polish, Portuguese, Russian, Romanian, Swedish etc.).The percentage of speech by native English speakers is 5%. Also, considering that the recordings were made in Finnish speaking universities, the percentage of speech by Finnish mother tongue speakers is relatively low at 28.5%.

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

The old LAT version of this corpus was removed in 2020

The experimental corpus version The Helsinki LAT Version of the ELFA Corpus is no longer available since the LAT service (lat.csc.fi) was discontinued in the Language Bank of Finland in December 2020. However, more accessible versions of the same content are maintained in Korp and in the download service.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-201403262

Suomalaisen viittomakielen korpus

Viimeisimmät versiot: 
Suomalaisen viittomakielen korpus: kerronta-aineisto, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Suomalaisen viittomakielen korpus: keskusteluaineisto, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-versioiden poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2019012321

Puheen ja EGG:n samanaikaiset tallenteet

Viimeisimmät versiot: 
Puheen ja EGG:n samanaikaiset tallenteet, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Puheen ja EGG:n samanaikaiset tallenteet
(LAT-versio, poistunut käytöstä)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
ei enää saatavilla
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta vuonna 2020

Kielipankin LAT-alusta poistui käytöstä joulukuussa 2020. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Vastaava aineisto tulee saataville Kielipankin latauspalvelussa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104201

Suomeksi

DMA, The Digital Morphology Archives

Resources:
Digital Morphology Archives
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Instructions in Finnish for using the Digital Morphology Archive in Korp
Select the corpus in Korp icon-question-circle
The Word Notes of the Digital Morphology Archives
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Search for all versions in META-SHARE

The Digital Morphology Archives (DMA) contains 403 963 morphologically coded dialectal clauses from 160 parishes in different parts of Finland. In addition, the archive contains pictures in pdf format of the word notes on which the example clauses are based. These examples describe the morphological phenomena in context. They are extracts from the spontaneous speech of the informants.

The DMA data are based on the Morphology Archives originally available in paper format. The example clauses are available in the Language Bank of Finland’s concordance service Korp, without registration and for unrestricted use licensed under Creative Commons Attribution 4.0 International. The scanned word notes are available by a separate application via the Language Bank Rights (https://lbr.csc.fi).

More information on how to use DMA in Korp: DMA Korp User Guide

Search for references to the language resource in Google Scholar

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021061101

In English

DMA, Digitaalinen muoto-opin arkisto

Aineistot:
Digitaalinen muoto-opin arkisto
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Ohjeita Digitaalisen muoto-opin arkiston (DMA) käyttämiseksi Korpissa
Avaa aineisto Korp-palvelussa icon-question-circle
Digitaalisen muoto-opin arkiston sanaliput
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Hae käyttöoikeutta

Digitaalinen muoto-opin arkisto (DMA) sisältää 403 963 morfologisesti koodattua murrelause-esimerkkiä 160 paikkakunnalta eri puolilta Suomea. Sen lisäksi arkisto sisältää on pdf-kuvat niistä arkiston paperilipuista, joista esimerkkilauseet ovat peräisin. Lause-esimerkit kuvaavat morfologisia ilmiöitä esiintymiskontekstissaan. Ne ovat poimintoja informanttien spontaanista puheesta.

DMA-aineisto pohjautuu alun perin paperimuotoiseen Muoto-opin arkistoon.

Lause-esimerkit ovat Kielipankin kautta avoimesti saatavilla konkordanssipalvelu Korpissa ilman kirjautumista. Sanaliput ovat saatavissa luvan hakeneille käyttäjille.

Etsi viittauksia aineistoon Google Scholar -palvelusta.

Raja-Karjalan korpus (FINKA)

The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.

The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.

The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.

Viimeisimmät versiot: 
Raja-Karjalan korpus, Kielipankin LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto LAT-palvelussa icon-question-circle
Raja-Karjalan korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Raja-Karjalan korpus sisältää yhteensä noin 120 tuntia wav-muotoisia äänitiedostoja sekä niiden suomalais-ugrilaisella tarkekirjoituksella tuotetut transkriptiot sekä raakatekstimuodossa että ääneen kohdistettuina TextGrid-tiedostoina, joista on ”riisuttu” tarkemerkit. TextGrid-muotoisissa annotaatiotiedostoissa eri puhujien puheenvuorot on merkitty eri kerroksiin.

Litterointimerkkien kuvaus (pdf)

Äänitteet edustavat 1800-luvun lopulla ja 1900-luvun alussa syntyneiden rajakarjalaisten haastattelupuhetta, jota on tallennettu Kotimaisten kielten keskuksen Suomen kielen nauhoitearkiston kokoelmiin pääosin 1960- ja 1970-luvuilla. Näytteet edustavat Ilomantsin, Korpiselän, Suojärven, Suistamon, Impilahden ja Salmin pitäjien murretta.

Aineistosta on tarjolla toistaiseksi kaksi versiota. Aineistoa voi kuunnella ja litteraateista voi tehdä hakuja Kielipankin LAT-palvelussa. LAT-palvelusta voi myös ladata yksittäisten haastattelujen (”sessioiden”) tiedostoja niputettuina omalle koneelle. Aineistosta on myös saatavilla kokonaan omalle koneelle ladattava versio.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014073033

Suomeksi

Plenary Sessions of the Parliament of Finland

The latest versions:  
Plenary Sessions of the Parliament of Finland, Kielipankki Korp Version 1.5
icon-info-circle Metadata and license
icon-quote-right How to cite this version
Open the corpus in Korp icon-question-circle
Plenary Sessions of the Parliament of Finland, Downloadable Version 1.5
icon-info-circle Metadata and license
icon-quote-rightHow to cite this version
Download the corpus
Locate other versions of the same resource  

Plenary Sessions of the Parliament of Finland contains audio and video recordings of the parliamentary sessions and the transcripts that have been aligned with the audio. Both the media files and the original transcripts have been obtained directly from the online public services of the Parliament. The content is openly available via the Language Bank of Finland without logging in.

Via the Korp service in the Language Bank of Finland, it is possible to perform various kinds of content searches on the corpus and to calculate statistics from the results. The turns of different speakers have been separated in the text. In the Extended search tab in Korp, it is possible to delimit searches on the basis of the speaker’s name, the parliamentary group or the role of the speaker.

In the search results of this corpus version in Korp, there are also links to the corresponding utterances in the original video. If you wish, you may download the ELAN/EAF annotation files and the audio files in the downloadable version of the corpus for further processing. Moreover, the original videos and transcripts can also be located in the online services of the Parliament of Finland.

The text in the original transcripts has been aligned with the audio recordings by automatic methods. The technological expertise in the alignment process was provided by Aalto University. In those audio portions where a matching text was not found in the transcript, an automatic speech recognizer was used in order to provide a tentative transcript. Thus, it is important to remember that the text in the Korp version of the corpus is not error-free and it may not always fully correspond to the original transcript.

Further information about the contents of the different corpus versions can be found in their metadata records.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-201407305

Search the Language Bank Portal:
Juho Leinonen
Researcher of the Month: Juho Leinonen

 

Tulevat tapahtumat

  1. CLARIN Annual Conference 2021

    27.9.2021 10.0029.9.2021 16.15

Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information