
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
Helsingin puhekielen pitkittäiskorpus koostuu eri-ikäisten syntyperäisten helsinkiläisten äänitallennetuista yksilöhaastatteluista. Aineistoa on kerätty kolmella vuosikymmenellä, vuosina 1972–74, 1991–92 sekä 2013.
Kielipankin LAT-alusta on poistunut käytöstä vuonna 2020. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta, mutta LATissa ollut sisältö on edelleen saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Korpus on jaettu kolmeen pääosaan äänitysten vuosikymmenen mukaisesti: 1970, 1990 ja 2010. Sosiolingvististä tutkimusta varten 1970-luvun aineisto on jaettu osiin haastateltavan asuinkaupunginosan mukaan (S=Sörnäinen, T=Töölö). Myöhemmin kerätyissä osa-aineistoissa tästä kaupunginosajaosta ei enää nuorten puhujien osalta ole pidetty kiinni, vaan S- ja T-koodit viittaavat pikemminkin puhujien koulutustaustaan (S=ammattikoululainen, T=lukiolainen). Jokainen osakorpus on jaoteltu lisäksi haastateltavan ikäryhmän (1=vanhimmat, 2=keski-ikäiset, 3=nuoret) mukaan.
Osakorpuksissa on mukana osittain samoja haastateltavia. Vuosina 1991-1992 tavoitettiin 29 haastateltua 1970-luvulla tehdyn tutkimuksen kahdesta nuorimmasta ikäryhmästä sekä otettiin tutkittavaksi uusi nuorten ryhmä (16 haastateltavaa). Vuonna 2013 toteutetussa jatkohankkeessa haastateltiin 27:ää 1990-luvun informanteista sekä otettiin tutkittavaksi uusi nuorten ryhmä (yht. 16). Aiempien kierrosten tavoin aineisto kerättiin yksilöhaastatteluin. 13 informantille kyseessä oli jo kolmas haastattelu.
Puhujat on merkitty koodeilla F(nainen) tai M(mies) + juokseva numero. Näillä koodeilla samat henkilöt on myös yksilöity kaikkien kolmen osa-aineiston välillä: tiettyyn puhujaan viitataan aina samalla koodilla, kun hän esiintyy useammassa kuin yhdessä osakorpuksessa.
Kaikkien kolmen osakorpuksen äänitiedostoihin kohdistetut annotaatiot ovat saatavilla sekä ELAN-ohjelmalla toimivassa .eaf-muodossa että Praat-ohjelmalla toimivassa .TextGrid-muodossa.
Vuonna 2013 toteutetussa Helsingin puhekielen pitkittäiskorpus -hankkeessa kerättiin 2010-lukua edustava osa-aineisto sekä jalostettiin aiemmin 1970- ja 1990-luvuilla hankittu aineisto digitaaliseksi korpukseksi, mikä parantaa huomattavasti sen käytettävyyttä. Pitkittäiskorpus koostuu digitaalisista äänitiedostoista, jotka ovat kuunneltavissa kokonaisuudessaan, ja niihin liitettävistä litteroinneista, jotka kattavat tässä aineistoversiossa noin puoli tuntia kustakin haastattelusta. Litteraatit on suuressa osassa aineistoa kohdistettu äänitiedostojen vastaaviin kohtiin, jolloin litteroinnin perusteella voi tehdä hakuja ja hakuosumia vastaavia äänitteiden kohtia pääsee suoraan kuuntelemaan. Lisäksi suureen osaan ääniaineistoa on kohdistettu asiasanoja, joiden avulla voidaan tehdä myös aiheenmukaisia hakuja esimerkiksi kulttuurin- ja historiantutkimuksen tarpeisiin.
Korpuksen toinen versio sisältää 1970-, 1990- ja 2010-luvun osa-aineistojen annotaatiotiedostojen päivityksiä: joko uusia litteraatteja äänitiedostoihin, joita ensimmäisessä versiossa ei ollut lainkaan litteroitu, tai 1970-luvun osa-aineiston kohdalla vanhojen litteraattien kohdistettuja versioita. Osa aikaisemmista litteroinneista on myös päivitetty tai äänitteestä on saatettu litteroida pitempi pätkä. Yhteensä 83 äänitiedostoon liittyviä annotaatioita on päivitetty tai lisätty. Uusia äänitteitä ei siis tätä versiota varten kerätty.
Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta LAT-alustalla. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. 1970-T1M2C_1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.
Aineiston litteroinnit ja muu annotaatio ovat saatavilla Praat-ohjelman käyttämässä TextGrid-muodossa sekä ELAN-ohjelman käyttämässä EAF-muodossa. Annotaatiotiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi joko ELAN- tai Praat-ohjelmalla. Kummassakin tapauksessa on ladattava annotaatiotiedoston pariksi myös sitä vastaava WAV-muotoinen äänitiedosto.
LAT-alustalla olevat äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa yksitellen myös ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. !M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.
Huom! Haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja erityisesti vanhimmat nauhat on digitoitu vasta myöhemmin. Tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.
Koko 2010-luvun osa-aineistosta sekä osittain myös 1990- ja 1970-lukujen osa-aineistoista on saatavilla ääneen kohdistetut litteraatit (.eaf, .TextGrid). Litteraatin perusteella voidaan siis tehdä hakuja ja kuunnella karkeasti kutakin hakutulosta vastaava ääninäytteen kohta. Osa 1970- ja 1990-luvun aineistosta on kuitenkin saatavilla vain erillisinä teksti- (.txt) ja äänitiedostoina (.wav).
Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.
Tiedostoja voi ladata LATista yksitellen omalle koneelle komennolla download (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta Download all resources. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.
Vanhemmat korpusversiot ja äänitiedostopaketit ovat ladattavissa Kielipankin latauspalvelusta.
Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta helpuhe-solmua ja valitse annotation content search). Trova-ikkunan yläosasta voidaan rastittaa, minkätyyppisiin annotaatiotiedostoihin haku kohdistetaan: ELAN-muotoisiin .eaf-tiedostoihin, Praat-muotoisiin .TextGrid-tiedostoihin ja/tai kohdistamattomiin .txt-raakatekstitiedostoihin.
Myös vanhemmista korpusversioista voi tehdä hakuja omalle koneelle asennetulla ELAN-ohjelmalla. Koko korpus tai osakorpus täytyy tällöin ensin ladata Kielipankin latauspalvelusta. ELANissa voi käyttää toimintoa Search: Structured Search Multiple eaf, joka toimii vastaavalla periaatteella kuin LAT-palvelun Trova-työkalu. Hakualueeksi (Define Domain) määritellään ELANissa se hakemisto/hakemistot, johon korpuspaketit on purettu.
ELAN-hakujen tekemisestä on tulossa myöhemmin lisäohjeita.
Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyyppi (Tier type) on interviewer speech, kun taas kaikki speech-tyyppiset kerrokset liittyvät joko varsinaisten haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun kohdistetaan Single Layer- tai Multiple Layer -haku tietyntyyppisiin kerroksiin, voidaan etsiä osumia pelkästään haastateltavien vs. haastattelijoiden puheesta. 1970-luvun aineistoon on merkitty näkyviin haastattelijan nimikirjaimet, mutta 1990-luvun ja 2010-luvun aineistossa haastattelijan vuorot on merkitty pelkällä H-kirjaimella.
Osa aineistosta on koodattu temaattisesti ts. asiasanoitettu puheenaiheen mukaan. Tietyt asiasanat on merkitty samaa aihetta käsittelevän osuuden kohdalle 1-3 annotaatiokerrokseen. Näiden kerrosten nimet ovat annotaatiotiedostoissa asiasana1, asiasana2 ja asiasana3. Asiasanoja voi hakea valitsemalla kohteena olevan kerroksen tyypiksi Tier type: thematic keyword.
Muutamiin annotaatiotiedostoihin on myös merkitty referointiosuuksia (Tier type: reference) sekä nimiä (Tier type: name).
Helsingin puhekielen aineistohankkeen käynnisti prof. Terho Itkonen Helsingin yliopistossa. Vuodesta 1976 lähtien hanketta johti prof. Heikki Paunonen. 1970-luvun osa-aineisto on kerätty Itkosen ja Paunosen johdolla. 1990-luvun osakorpuksen aineisto kerättiin vuosina 1991–92, jolloin hankkeen johtajana jatkoi prof. Heikki Paunonen. Vuonna 2013 toteutetussa, Koneen Säätiön rahoittamassa jatkohankkeessa kerättiin 2010-luvun osa-aineisto, jonka haastatteluista ja litterointityöstä vastasivat tutkimusavustajina suomen kielen opiskelijat Saila Marttila, Sanni Surkka ja Suvi Syrjänen. Hankkeen johtajana toimi Hanna Lappalainen Helsingin yliopiston suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitokselta. Aineiston temaattisen koodauksen suunnittelusta ja toteutuksesta vastasi FT Pauliina Latvala, joka työskenteli hankkeessa apurahatutkijana.
Lisätietoa Helsingin puhekielen pitkittäiskorpus -aineistohankkeesta
Korpuksen ensimmäinen versio helpuhe1 on ladattavissa tiedostopaketteina Kielipankin latauspalvelusta (http://urn.fi/urn:nbn:fi:lb-2014073041).
Korpuksen toinen, annotaatioiden osalta päivitetty versio (helpuhe-v2, http://urn.fi/urn:nbn:fi:lb-2016041424) tulee myöhemmin saataville latauspaketteina.
Aineistosta on tekeillä myös Kielipankin Korp-palvelun kautta käytettävä versio.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2025120402
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.
The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.
The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.
Litterointimerkkien kuvaus (pdf)
The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.
If you are a researcher affiliated to a member university of the FIN-CLARIN consortium in Finland, the Language Bank can offer you access to various versions of a number of corpora originating from the external service english-corpora.org, created by Mark Davies.
In addition to the corpus variants provided locally within Finland, the Language Bank of Finland also offers an academic license to use the external interface at english-corpora.org for logged-in students and faculty members at the University of Helsinki during the years 2022–2026. See the instructions below.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
These resource versions are not yet available in the Language Bank of Finland.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
If you fulfilled the criteria for the academic license, you should be able to perform up to 200 searches per day if you are a student, and 400 searches per day if you are a faculty member.
The corpus architecture and web interface at english-corpora.org/ (and many of the corpora that are available there) were created by Mark Davies and/or other parties. Further details on how to cite their corpora, licensing, technical features etc. can be found at https://www.english-corpora.org/faq.asp#cite.
This page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2025120301
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
This resource contains a copy of the original Movie Corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 200 million words from about 25,000 movies from the years 1930-2018. The movie scripts come from several different English-speaking countries and include English from the US, UK and 4 other dialects.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112805
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Global Web-Based English (GloWbE) contains about 1.8 billion words from web pages in the United States, Great Britain, Australia, India, and 16 other countries. About 60 % of the texts come from blogs. It is unique in the way that it allows you to carry out comparisons between different varieties of English. The original, frequently updated version of GloWbE is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of GloWbE under a restricted academic license that is available for users affiliated with a university in Finland.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112804
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Coronavirus Corpus contains data on the medical, social, cultural, and economic impact of the coronavirus (COVID-19) from online magazines and newspapers in 20 different English-speaking countries from 1 Jan 2020 to 31 May 2021. The original version is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of the corpus under a restricted academic license that is available for users affiliated with a university in Finland.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112803
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Historical American English (COHA) is the largest structured corpus of historical English. The corpus is balanced by genre across the decades. The original version of COHA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COHA under a restricted academic license that is available for users affiliated with a university in Finland.
For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112802
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Contemporary American English (COCA) is a very large corpus of American English. The original, frequently updated version of COCA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COCA under a restricted academic license that is available for users affiliated with a university in Finland.
For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112801
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The corpus contains Finnish essays written by the students of the 1994, 1999 and 2004 matriculation examinations.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112704
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Korpus sisältää Ylilaudan keskustelupalvelun keskustelupalstoja ajalta 2012-2014.
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112703
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
This resource collection contains word embeddings trained with word2vec from various corpora.
The embedding file is in a simple and easily parsed textual format produced by word2vec. The first line in the file gives the vocabulary size and dimension. Each line after that begins with a vocabulary item, followed by a space, followed by 128 floating point numbers (represented textually) each followed by a space.
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112702
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Aineisto kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta. Tekstit on eristetty Wikipedian tarjoamista kielikohtaisista kokonaisaineistoista (https://dumps.wikimedia.org/). Aineisto on jaettu arikkeleihin, kappaleisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku Dependenssi jäsennintä (http://turkunlp.github.io/Finnish-dep-parser/).
Kuvaus tietojen rakenteesta laskentaympäristössä:

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112701
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Wanca 2016 is a collection of web corpora in small Uralic languages. The collection is composed of 29 sentence corpora in different languages. The corpora have been collected from the Internet using the automated system developed in the Finno-Ugric Languages and the Internet project (SUKI) supported by the Kone foundation from their Language Programme 2012-2016. The sentences have been extracted from the pages found while harvesting with Heritrix and the language of each sentence has been identified with MultiLi using HeLI as the identification method. Each sentence has a link to the original page it was found in, but it is possible that some of the links stop working. In that case we recommend searching for the page in the Internet Archive Wayback machine https://archive.org/web/.
More information on Wanca: http://www.suki.ling.helsinki.fi/wanca
The languages in Wanca 2016 are:
| ISO 639-3 | Name of language |
| fit | Tornedalen Finnish (meänkieli) |
| fkv | Kven (kvääni) |
| izh | Ingrian (ižoran keel) |
| kca | Khanty (ханты ясанг) |
| koi | Komi-Permyak (перем коми кыв) |
| kpv | Komi-Zyrian (Коми кыв) |
| krl | Karelian (karjal) |
| liv | Liv (līvõ kēļ) |
| lud | Ludian (lüüdin kiel’) |
| mdf | Moksha (мокшень) |
| mhr | Eastern and Meadow Mari (марий йылме) |
| mns | Mansi (мāньси лāтыӈ) |
| mrj | Western or Hill Mari (Кырык мары) |
| myv | Erzya (эрзянь) |
| nio | Nganasan (ня”) |
| olo | Livvi (Olonets / livvin karjal) |
| sjd | Kildin Sami (Кӣллт са̄мь кӣлл) |
| sjk | Kemi Sami (samääškiela) |
| sju | Ume Sami (uumajanlappi) |
| sma | Southern Sami (åarjel-saemien) |
| sme | Northern Sami (davvisámi, davvisámegiella) |
| smj | Lule Sami (julevsábme) |
| smn | Inari Sami (anarâškielâ) |
| sms | Skolt Sami (sää´mǩiõll) |
| udm | Udmurt (удмурт кыл) |
| vep | Veps (vepsän kel’) |
| vot | Votic (vad̕d̕a ceeli) |
| vro | Võro (võro kiil) |
| yrk | Nenets (ненэцяʼ вада) |
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112609
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Written Finnish texts from the years between 1543 and 1810, browsable and searchable on the web. The collection contains bible translations and religious texts (e.g. all of Mikael Agricola’s Finnish works), legal texts, poems, and texts concerning agriculture, nature, health etc., among others. It was compiled for lexicographic use.
More information on the corpus: http://kaino.kotus.fi/korpus/vks/meta/vks_coll_rdf.xml
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112608
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
This resource is offered by Kotus, Kotimaisten kielten keskus, the Institute for the Languages of Finland.
The resource contains the Online Lexicon of Veps Language from Lauri Kettunen’s (1885-1963) handwritten dictionary and notes. Kettunen travelled twice to Veps areas, in 1917-1918 and in 1934 with Lauri Posti and Paavo Siro.
The lexicon, which is based on the field notes, has been digitized.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112607
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Tasavallan presidenttien uudenvuodenpuheiden kokoelmassa on kaikki tasavallan presidenttien pitämät uudenvuodenpuheet vuosilta 1935–2007. Muutaman kerran puheen on pitänyt joku muu kuin presidentti. Nämäkin puheet sisältyvät aineistoon.
Kokoelma on järjestetty presidenteittäin ja vuosittain. Kokoelma koostuu lehtileikkeistä, konekirjoitusliuskoista, kirjojen sivuista, lehdistötiedotteista ja verkkoteksteistä. Aineistoa on hankittu arkistoista, kirjoista ja Internetistä.
Lisätietoja: http://kaino.kotus.fi/korpus/teko/meta/presidentti/presidentti_coll_rdf.xml
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112606
The Corpus of Sociolinguistic Variation in the Province of Satakunta, source is available at the download service at Kielipankki.
More information can be found on the resource group page.
Title of the Resource: Multimodal Translation and Interaction between Blind and Sighted Persons
Metadata: urn:nbn:fi:lb-2021042021
License: urn:nbn:fi:lb-2025090424
This page describes the specific conditions regarding the processing of the personal data in this Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.
Tampere University
Kalevantie 4
33014 Tampere University
Data Protection Officer of Tampere University
Email: dpo@tuni.fi
For details on the data protection of the resources in the Language Bank of Finland, please contact FIN-CLARIN helpdesk.
The material contains video footage of individuals (faces, parts of the body) and speech. The material also contains conversations between individuals, mainly related to work tasks but also partly to personal life. The material may contain sensitive personal data that could not be removed from the video or audio recording without compromising the research use of the material.
Direct personal data appearing in the text-based transcripts of the material, e.g., names of people and workplaces, have been pseudonymized.
Situations related to teamwork and/or interaction related to audio description were selected for this resource. Visually impaired adults, adults with normal vision and audio description professionals, mainly in work situations, were selected as the research subjects. In the subcorpus ’mutable-art’, individuals in the aforementioned groups were also recorded partly in their leisure time (a museum visit would be a work situation for audio describers and personal assistants, but leisure time for other participants).
In these data protection terms and conditions, End-User means the party acting as the controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the CLARIN service user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.
The End-User understands that when receiving the Resource, it becomes a controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.
When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice (see instructions). This information will be published on the website of the Language Bank of Finland.
It is likely that the resource will no longer contain personal data after the year 2100.
Persistent identifier of this page: urn:nbn:fi:lb-2025090426
Aineiston nimi: Multimodaalinen käännöstyö ja vuorovaikutus sokeiden ja näkevien kesken
Aineiston kuvailutiedot: urn:nbn:fi:lb-2021042021
Lisenssi: urn:nbn:fi:lb-2025090425
Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.
Tampereen yliopisto
Kalevantie 4
33014 Tampereen yliopisto
Helsingin yliopiston tietosuojavastaava
Sähköpostiosoite: dpo@tuni.fi
Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.
Aineisto sisältää videokuvaa henkilöistä (kasvot, osa vartaloa) ja puheääntä. Aineisto sisältää myös henkilöiden välisiä keskusteluja, jotka liittyvät pääosin työtehtäviin mutta osin myös henkilökohtaiseen elämään. Aineisto voi sisältää arkaluonteisia henkilötietoja, joita ei ole ollut mahdollista poistaa videokuvasta tai äänitteestä ilman, että Aineiston tutkimuskäyttö samalla vaarantuisi.
Aineiston tekstimuotoisissa litteraateissa esiintyvät suorat henkilötiedot, kuten henkilöiden nimet ja työpaikat, on pseudonymisoitu.
Aineistoon kerättiin tilanteita kuvailutulkkaukseen liittyvästä tiimityöstä ja/tai vuorovaikutuksesta. Tutkittaviksi valittiin aikuisia, näkövammaisia ja normaalisti näkeviä henkilöitä ja kuvailutulkkausammattilaisia pääosin työskentelytilanteissa. Osakorpuksessa ’mutable-art’ on kuvattu myös em. ryhmiin kuuluvia henkilöitä osittain vapaa-ajan tilanteissa (museovierailu on kuvailutulkille ja henkilökohtaisille avustajille työtilanne, mutta muille osallistujille vapaa-aikaa).
Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.
Käyttäjä ymmärtää, että aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.
Kun ryhdyt käyttämään tätä Aineistoa, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille (ks. ohjeet). Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.
Aineisto ei sisältäne henkilötietoja enää vuoden 2100 jälkeen.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2025090427
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025090423
Viimeksi muokattu 2025-11-19
