Latest versions: | |
The Helsinki Korp Version of Samples of Spoken Finnish Metadata and license Tämän version viittausohje |
Select the corpus in Korp |
Samples of Spoken Finnish, VRT Version Metadata and license Attribution instructions |
Download the resource |
Samples of Spoken Finnish, Downloadable Version (includes audio recordings and annotations) Metadata and license Attribution instructions |
Download the resource |
The Helsinki LAT Version of Samples of Spoken Finnish (PHASED OUT IN DECEMBER 2020) Metadata and license Attribution instructions |
(discontinued; downloadable version available) |
Search for all versions of this recourse in META-SHARE |
This corpus consists of audio samples with annotation on 50 Finnish dialects, based on the dialect book series of the same name published by the Institute for the Languages of Finland between 1978 and 2000 (Suomen kielen näytteitä).
PLEASE NOTE: The downloadable data was re-packaged on 31.01.2023, because some information was found to be missing in the former packages.
The following data was added:
– Four preface texts (’saate’) for the individual parts of the book series in PDF format
– PDF files with general information for each of the 50 municipalities
– wav files for the municipalities 9-14
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2023012601
This resource contains a copy of the original TV corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 325 million words of data in 75,000 TV episodes from 1950 to 2018. The TV scripts come from several different English-speaking countries (US, UK, 4 other dialects), which allows to compare very informal language in these countries. The corpus is related to many other corpora of English, formerly known as the ”BYU Corpora”.
More information on Mark Davies’ corpora at Kielipankki.
Latest versions/subcorpora: | |
The TV Corpus – Kielipankki version, source Metadata and license Attribution instructions |
The corpus will be available soon |
Search for all versions in META-SHARE |
Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2022112415
This resource contains a copy of the original Corpus of American Soap Operas (SOAP), provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 100 million words of data from 22,000 transcripts from American soap operas from the years 2001-2012, and it serves as a great resource to look at very informal language. The corpus is related to many other corpora of English, formerly known as the ”BYU Corpora”.
More information on Mark Davies’ corpora at Kielipankki.
Latest versions/subcorpora: | |
Corpus of American Soap Operas – Kielipankki version, source Metadata and license Attribution instructions |
The corpus will be available soon |
Search for all versions in META-SHARE |
Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2022112410
This resource contains a copy of the original Movie Corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 200 million words from about 25,000 movies from the years 1930-2018. The movie scripts come from several different English-speaking countries and include English from the US, UK and 4 other dialects. The corpus is related to many other corpora of English, formerly known as the ”BYU Corpora”.
More information on Mark Davies’ corpora at Kielipankki.
Latest versions/subcorpora: | |
The Movie Corpus – Kielipankki version, source Metadata and license Attribution instructions |
The corpus will be available soon |
Search for all versions in META-SHARE |
Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2022112305
Oletko tutkija? Lahjoita puhetta -aineistot akateemiseen tutkimuskäyttöön löytyvät toiselta sivulta.
Huom. Aineistopakettien sisältökuvaukset ja kokotiedot perustuvat alustavaan arvioon ja niitä voidaan tarvittaessa tarkentaa.
Tästä aineistosta tarjotaan yritysten ja ei-akateemisten organisaatioiden käyttöön seuraavat paketit: | |
---|---|
Lahjoita puhetta -aineisto: Näyte Kuvailutiedot Ilmainen näyte, joka sisältää 40 satunnaisesti valittua äänitiedostoa, niiden litteraatit raakatekstinä ja kohdistustiedostoina sekä käytettävissä olevat äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 35 minuuttia. |
Hinta: Maksuton näyte Hanki käyttöoikeus Lataa aineisto |
Lahjoita puhetta: Valikoitu aineisto Kuvailutiedot Tämä kokoelma sisältää viisi eri osa-aineistoa, jotka on poimittu Aalto-yliopistossa erityisesti automaattisen puheentunnistuksen kehitys-, opetus- ja testausvaiheita varten. Äänitteiden yhteenlaskettu kesto on noin 131 tuntia. |
Hinta: 1000 € Hanki käyttöoikeus Aineistopaketti on valmisteilla, latauslinkki tulee tähän |
Lahjoita puhetta: Annotoitu aineisto Kuvailutiedot Tämä kokoelma sisältää koko aineiston versioon 1 kuuluvat litteroidut äänitteet, litteraatit raakatekstinä ja kohdistustiedostoina sekä äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 1600 tuntia. |
Hinta: 5000 € Hanki käyttöoikeus Aineistopaketti on valmisteilla, latauslinkki tulee tähän |
Lahjoita puhetta: Koko aineisto (versio 1) Kuvailutiedot Kokoelmassa on mukana kaikki aineiston versioon 1 kuuluvat litteroidut ja litteroimattomat äänitteet, litteraatit raakatekstinä ja kohdistustiedostoina sekä äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 3200 tuntia. Tämän version viittausohje |
Hinta: 10.000 € Hanki käyttöoikeus Lataa aineisto |
Lahjoita puhetta -aineisto eli Puhelahjat on koostettu 16.6.2020 alkaneessa Vaken, Ylen ja Helsingin yliopiston toteuttamassa Lahjoita puhetta -kampanjassa, jossa kuka tahansa ainakin hieman suomea osaava on voinut helppokäyttöisen selain- tai mobiilisovelluksen kautta lahjoittaa omaa puhettaan. Aineisto on siinä mielessä ainutlaatuinen, että se on alusta alkaen kerätty mahdollisimman läpinäkyvästi sekä tutkijoiden että yritysten rajoitettuun käyttöön siten, että puheen lahjoittajien tietosuojasta pyritään huolehtimaan aineiston koko elinkaaren ajan.
Aineistosta on saatavilla erilaisia paketteja Kielipankin latauspalvelussa, josta luvan saaneet tutkijat, yritykset ja ei-akateemiset organisaatiot pääsevät niitä käyttämään. Kielipankin palvelut on lähtökohtaisesti suunnattu vain tutkijoille. Yrityksille ja ei-akateemisille organisaatioille aineiston käyttö on näyteaineistoa lukuunottamatta maksullista. Lisätietoja saa osoitteesta lahjoita-puhetta@helsinki.fi.
Huom. Ohjeita päivitetään edelleen.
Puhelahjat-aineiston käyttöehtojen mukaisesti käyttöoikeuksia voidaan myöntää myös yrityksille tai ei-akateemisille organisaatioille. Kunkin ei-akateemisen käyttäjätahon kanssa tehdään kirjallinen sopimus halutun aineiston käytöstä. Kun sopimuksen mukaiset velvoitteet on suoritettu, pääsy aineistoon voidaan myöntää yrityksen valtuuttamalle edustajalle.
Viimeksi päivitetty: 8.3.2023
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022111628
Tärkeää tietoa aineiston käyttäjille: Poistopyynnöt
Aineiston versiot: | |
---|---|
Lahjoita puhetta -aineisto, versio 1.0 Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
(vain tutkijoille; yhdellä hakemuksella saa pääsyn kaikkiin aineiston versioihin) Hae käyttöoikeutta +PRIV: Aineisto sisältää henkilötietoja. Toimita julkinen ilmoitus henkilötietojen käsittelystä Lataa aineisto |
Lahjoita puhetta -aineisto: Näyte Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Lataa aineisto |
Lahjoita puhetta -aineisto: Opetusdata (100h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Aineiston latauslinkki tulee tähän |
Lahjoita puhetta -aineisto: Testidata (10h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Aineiston latauslinkki tulee tähän |
Lahjoita puhetta -aineisto: Kehitysdata (10h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Aineiston latauslinkki tulee tähän |
Lahjoita puhetta -aineisto: Usean litteroijan testidata (1h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Aineiston latauslinkki tulee tähän |
Lahjoita puhetta -aineisto: Testidata useaan kertaan litteroiduilta puhujilta (10h) Kuvailutiedot Lisenssi (tutkijoille) Tämän version viittausohje |
Aineiston latauslinkki tulee tähän |
Etsi muut saatavilla olevat versiot |
Lahjoita puhetta -aineisto, lyhytnimeltään Puhelahjat, on koostettu 16.6.2020 alkaneessa Vake Oy:n (sittemmin Ilmastorahasto), Ylen ja Helsingin yliopiston toteuttamassa Lahjoita puhetta -kampanjassa, jossa kuka tahansa suomea osaava henkilö on voinut halutessaan lahjoittaa omaa puhettaan kielentutkimuksen sekä kieliteknologian kehitystyön edistämiseksi. Lahjoitettu puhe on tallennettu helppokäyttöisen selain- tai mobiilisovelluksen kautta.
Kevääseen 2021 mennessä lahjoitetuista puhenäytteistä on rakennettu ääniaineiston ensimmäinen versio, jonka kokonaiskesto on noin 3200 tuntia. Vuonna 2021 näistä äänitteistä litteroitiin käsityönä noin 1600 tuntia ja näin syntyneet tekstimuotoiset litteroinnit kohdistettiin vastaaviin äänitteisiin automaattisilla menetelmillä.
Aineiston ensimmäinen varsinainen versio 1.0 on saatavilla Kielipankin latauspalvelussa, josta luvan saaneet tutkijat ja myöhemmin myös yritykset pääsevät sitä käyttämään. Samaan aineistoon sisältyviä, esimerkiksi automaattisen puheentunnistuksen kehittämistä varten poimittuja osa-aineistoja on lisäksi tarjolla erillisinä paketteina, joiden sisältö ja viittauskäytänteet löytyvät kunkin aineistoversion kuvailutietueesta.
Lahjoita puhetta -aineistokokonaisuutta on tarkoitus myös myöhemmin päivittää ja laajentaa, kun uusia lahjoituksia on kertynyt riittävästi. Uusia versioita tehdään myös sitä mukaa, kun tutkijat tai yritykset jatkavat olemassa olevien äänitteiden litterointia ja muuta annotointia.
Puhelahjat-aineiston käyttäminen on luvanvaraista. Puhelahjat-ryhmän kaikkien osa-aineistojen tutkimuskäyttöä koskee sama lisenssi, johon sisältyy myös aineistokohtaisia tietosuojaehtoja.
Yrityskäytön ohjeet löytyvät omalta sivultaan.
Viimeksi päivitetty: 23.12.2022
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022102122
This corpus is extracted from the Finnish parliament plenary session transcripts and videos by the
Aalto Speech Recognition group. The original session transcripts and videos are available at the web
portals of the Parliament of Finland (avoindata.eduskunta.fi and verkkolahetys.eduskunta.fi).
The Finnish corpus is split into three parts:
1. 2015-2020 set
2. 2008-2016 set
3. Development and evaluation sets
A non-overlapping combination of the 2008-2016 set and the 2015-2020 set form a training set of size:
– 1 422 318 sample pairs
– 3 130 hours of speech
– 19 356 831 word tokens
The Finland Swedish corpus contains:
– 3889 sample pairs
– 6.4 hours of speech
– 333 483 word tokens
All audio files in this corpus are single-channel wavs with sample rate 16 kHz and 16-bit precision.
The transcript files (.trn) are plain text files.
Latest versions/subcorpora: | |
Aalto Finnish Parliament ASR Corpus 2008-2020, version 2 Metadata and license Attribution instructions |
Download the resource |
Aalto Finland Swedish Parliament ASR Corpus 2015-2020 Metadata and license Attribution instructions |
Download the resource |
Search for these versions in META-SHARE |
Of this language corpus different versions are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021081105
The collection includes dialectal proverbs collected from various areas in the 1930s. This is a resource of Kotimaisten kielten keskus, the Institute for the Languages of Finland. For more information please see https://kaino.kotus.fi/korpus/sp/meta/sp_coll_rdf.xml.
This resource contains only a part of the 1.4 million proverbs collected in different regions of Finland. The National Archives of Finland have digitized quite a few of the handwritten cards containing proverbs. The digitized cards are available in jpg format at http://digi.narc.fi/digi/dosearch.ka?sartun=385077.KA
Latest versions/subcorpora: | |
Proverb Collection, Kielipankki Version Metadata and license Attribution instructions | Select the corpus in Korp |
Search for these versions in META-SHARE |
Of this language corpus different versions are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021081104
The Corpus of Beserman Udmurt comprises 65 000 tokens. The Beserman dialect of Udmurt is used in daily communication approximately by 2 000 speakers (according to the 2010 census). The Beserman live in the basin of the Cheptsa river in the Republic of Udmurtia and in the Kirov Oblast of the Russian Federation. In the scientific literature Beserman is considered to be a dialect of the Udmurt language which is characterized by an unusual combination of specifically Beserman phenomena (concentrated in vocabulary and phonetics) with certain traits of Northern and Southern Udmurt dialects, mostly morphological and phonological. The dialect remains the main means of everyday communication in Beserman villages, at least for the older generation.
The texts contained in the corpus have been collected in the villages of Shamardan (109 texts of 117), Vortsa (4 of 117), Malaya Yunda (1 of 117) and Zhuvam (3 of 117) in the Republic of Udmurtia in the years 2003-2015. There are 33 informants in total. The texts have been recorded, transcribed and grammatically annotated in the SIL FieldWorks software. The corpus contains narratives, life stories, dialogues, recipes, and recordings of psycholinguistic experiments. Each sentence is provided with interlinear glossing (according to the Leipzig Glossing Rules) and translation. Both the full text version with audio files and the corpus version are available at http://beserman.ru/corpus/search/?interface_language=en
Latest versions/subcorpora: | |
The Corpus of Beserman Udmurt, Kielipankki Version Metadata and license Attribution instructions |
Select the corpus in Korp |
Search for all versions in META-SHARE |
Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021052406
This corpus includes normal and age-related disguised speech uttered by 60 native Finnish speakers (31 females and 29 males). The speakers were asked to read the same text fragments several times, in their modal voice and in two disguised voices, first pretending to be an elderly speaker and then pretending to be a child. The texts consisted of the Finnish translations of The Rainbow Passage and The North Wind and the Sun, and two selected English sentences from the TIMIT[1] corpus (SA1, SA2). The corpus includes samples of 78 different sentences per speaker (66 Finnish, 12 English). The speech was recorded simultaneously with a portable recorder with close-talking microphone, and two smartphones applications, yielding a total of 14040 audio files (3 * 4680). The material was recorded in summer 2015 in order to study the effect of voice disguise on automatic speaker recognition.
Data protection policy for this corpus: http://urn.fi/urn:nbn:fi:lb-2018121021
Guidelines for processing corpora containing personal data in the Language Bank of Finland: http://urn.fi/urn:nbn:fi:lb-2020081522
Latest versions/subcorpora: | |
Corpus of Age-related Voice Disguise Metadata and license Attribution instructions |
Download the resource |
Search for all versions in META-SHARE |
Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021052405
The Arkisyn corpus contains Finnish everyday conversations which have been morphologically and syntactically annotated. The data comes from the Conversation Analysis Archive at the University of Helsinki and the Finnish language Recording Archive at the University of Turku.
Latest versions/subcorpora: | |
ArkiSyn Database of Finnish Conversational Discourse, Helsinki Korp Version Metadata and license Attribution instructions | Select the corpus in Korp |
Search for all versions in META-SHARE |
Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2014073026
Aalto University DSP Course Conversation Corpus contains transcribed recordings of Finnish conversations by Digital Signal Processing course students in Aalto University, Finland, from 2013 onwards. The intention has been to use the data to build better models for automatic speech recognition of conversational Finnish.
The corpus includes audio files, handwritten word-level transcripts, and phone-level alignments generated using the Aalto ASR system.
Latest versions/subcorpora: | |
Aalto University DSP Course Conversation Corpus 2013-2015, Downloadable Version Metadata and license Attribution instructions | Download the resource |
Aalto University DSP Course Conversation Corpus 2013-2016, Downloadable Version Metadata and license Attribution instructions | Download the resource |
Search for these versions in META-SHARE |
Of this language corpus different versions/subcorpora are published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2015101901
Viimeisimmät versiot: | |
Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Avaa aineisto LAT-palvelussa |
Suomalaisen radio- ja tv-korpuksen ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
The Finnish Broadcast Corpus is divided into two main parts: FBC-1 and FBC-2.
The Finnish Broadcast Corpus 1, FBC-1 contains 65 radio and tv recordings broadcast by YLE – the Finnish Broadcasting Company during the year 2003. Parts of the audio and video material have been annotated either manually or automatically in various levels: e.g., utterance (orthographic transcript), word, phone. FBC-1 was compiled under an initiative called Integrated Resources for Speech Technology and Spoken Language Research in Finland, funded by the Academy of Finland. It is CSC’s first multimodal corpus.
Details of the size of FBC-2 are being updated.
The material in the FBC-1 represents four categories:
* Radio monologues
– broadcast telegraph news (24 × 3 minutes, Nov. 2003)
– broadcast lectures of the week (8 × 14 minutes).
* Radio dialogues
– unfinished recordings of the Moninaisuusfoorumi event (5 × 1h).
* TV monologues
– broadcast main news read by Arvi Lind ja Eeva Polttila (15 × 30 minutes, September – November 2003), including the very last news telecast by Arvi Lind on October 15, 2003
* TV dialogues
– broadcast Aamu-TV programs (13 × ca. 12 minutes, 2003).
Formats:
* WAV audio format
* HQ_Pure audio format (44,1–48 KHz) (supported by the Puh-Editor, which is now obsolete)
* HQ_Pure audio format (16 KHz) (supported by the Puh-Editor, which is now obsolete)
* MPEG2 video
Funding Project:
Puheteknologian ja puheentutkimuksen yhteiset resurssit Suomessa, Integrated Resources for Speech Technology and Spoken Language Research in Finland (SA-Puhe)
Funding Type: National Funds
Funder: Academy of Finland
Funding Country: Finland
Project duration: 01/01/2002 – 12/31/2004
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-201403265
Viimeisimmät versiot: | |
ProGram-aineisto, lumiukko- ja sammakkotarinat, ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Lataa aineisto |
ProGram-aineisto, lumiukko- ja sammakkotarinat (LAT-palvelussa; tämä versio on poistunut käytöstä joulukuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | (ei enää saatavilla; katso latausversio yllä) |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta on poistunut käytöstä vuoden 2020 lopussa. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla omalle koneelle ladattavana versiona. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021052506
Vapaasti käytettäväksi tarkoitettu näyteaineisto. Sisältää kahdenkeskisen videoidun keskustelun ”Reitti A-siipeen”, jossa selvitetään reittiä tiettyyn Helsingin yliopiston Metsätalossa sijaitsevaan huoneeseen.
Viimeisimmät versiot: | |
Reitti A-siipeen -korpuksen Helsinki-Korp-versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto Korp-palvelussa |
Reitti A-siipeen -korpuksen ladattava versio Kuvailutiedot ja lisenssi Viittausohje | Lataa aineisto |
Reitti A-siipeen -korpuksen Helsinki-LAT-versio (LAT-palvelussa; tämä versio on poistunut käytöstä vuonna 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | ei enää saatavilla; ks. ladattava versio |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistettiin käytöstä vuoden 2020 lopussa. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN– ja Praat-ohjelmilla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014101401
Viimeisimmät versiot: | |
Koltansaamen dokumentaatiokorpus (2016), ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Lataa aineisto (tulossa pian!) |
Koltansaamen dokumentaatiokorpus (2016) LAT-palvelussa on poistunut käytöstä joulukuussa 2020. Kuvailutiedot ja lisenssi Tämän version viittausohje | (Aineiston LAT-versio ei ole enää saatavilla) |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta on poistettu käytöstä joulukuussa 2020. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus on tulossa saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104203
Viimeisimmät versiot: | |
Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010), ladattava versio Kuvailutiedot ja lisenssi Viittausohje | Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta on poistettu käytöstä vuoden 2020 lopussa, eikä tätä aineistoa enää pääse käyttämään LAT-näkymän kautta. Vastaava sisältö on saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis jatkaa esimerkiksi ELAN-ohjelmalla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021052504
Viimeisimmät versiot: | |
Pohjoissaamen näytekorpus (vain ladattavana) Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021092403
Viimeisimmät versiot: | |
Murteenseuruukorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje |
|
Etsi muut saatavilla olevat versiot |
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104202
Current versions of this resource: | |
The Helsinki Korp Version of the ELFA Corpus Metadata and license Attribution instructions | Select the corpus in Korp |
The Transcriptions of the ELFA Corpus, Downloadable Version Metadata and license Attribution instructions | Download the resource |
The Audio Files of the ELFA Corpus, Downloadable Version Metadata and license Attribution instructions | Apply for rights to access the resource Download the resource |
Search for other versions of this resource |
The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).
The data consists of both recordings and their transcripts, which are available in several versions:
The recordings were made at the University of Tampere, the University of Helsinki, Tampere University of Technology, and Helsinki University of Technology.
The speech events in the corpus include both monologic events, such as lectures and presentations (33 % of data), and dialogic/polylogic events, such as seminars, thesis defences, and conference discussions, which have been given an emphasis in the data (67%).
As for the disciplinary domains, the ELFA corpus is composed of social sciences (29% of the recorded data), technology (19%), humanities (17%), natural sciences (13%), medicine (10%), behavioural sciences (7%), and economics and administration (5%).
Also the speakers in ELFA represent a wide range of first language backgrounds as the data comprises approximately 650 speakers with 51 different first languages ranging from African languages (e.g. Akan, Dagbani, Igbo, Kikuyu, Somali, Swahili), to Asian (e.g. Arabic, Bengali, Chinese, Hindi, Japanese, Persian, Turkish, Uzbek), and European languages (e.g. Czech, Danish, Dutch, French, German, Italian, Lithuanian, Polish, Portuguese, Russian, Romanian, Swedish etc.).The percentage of speech by native English speakers is 5%. Also, considering that the recordings were made in Finnish speaking universities, the percentage of speech by Finnish mother tongue speakers is relatively low at 28.5%.
Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.
Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.
The experimental corpus version The Helsinki LAT Version of the ELFA Corpus is no longer available since the LAT service (lat.csc.fi) was discontinued in the Language Bank of Finland in December 2020. However, more accessible versions of the same content are maintained in Korp and in the download service.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-201403262