
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
Helsingin puhekielen pitkittäiskorpus koostuu eri-ikäisten syntyperäisten helsinkiläisten äänitallennetuista yksilöhaastatteluista. Aineistoa on kerätty kolmella vuosikymmenellä, vuosina 1972–74, 1991–92 sekä 2013.
Kielipankin LAT-alusta on poistunut käytöstä vuonna 2020. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta, mutta LATissa ollut sisältö on edelleen saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Korpus on jaettu kolmeen pääosaan äänitysten vuosikymmenen mukaisesti: 1970, 1990 ja 2010. Sosiolingvististä tutkimusta varten 1970-luvun aineisto on jaettu osiin haastateltavan asuinkaupunginosan mukaan (S=Sörnäinen, T=Töölö). Myöhemmin kerätyissä osa-aineistoissa tästä kaupunginosajaosta ei enää nuorten puhujien osalta ole pidetty kiinni, vaan S- ja T-koodit viittaavat pikemminkin puhujien koulutustaustaan (S=ammattikoululainen, T=lukiolainen). Jokainen osakorpus on jaoteltu lisäksi haastateltavan ikäryhmän (1=vanhimmat, 2=keski-ikäiset, 3=nuoret) mukaan.
Osakorpuksissa on mukana osittain samoja haastateltavia. Vuosina 1991-1992 tavoitettiin 29 haastateltua 1970-luvulla tehdyn tutkimuksen kahdesta nuorimmasta ikäryhmästä sekä otettiin tutkittavaksi uusi nuorten ryhmä (16 haastateltavaa). Vuonna 2013 toteutetussa jatkohankkeessa haastateltiin 27:ää 1990-luvun informanteista sekä otettiin tutkittavaksi uusi nuorten ryhmä (yht. 16). Aiempien kierrosten tavoin aineisto kerättiin yksilöhaastatteluin. 13 informantille kyseessä oli jo kolmas haastattelu.
Puhujat on merkitty koodeilla F(nainen) tai M(mies) + juokseva numero. Näillä koodeilla samat henkilöt on myös yksilöity kaikkien kolmen osa-aineiston välillä: tiettyyn puhujaan viitataan aina samalla koodilla, kun hän esiintyy useammassa kuin yhdessä osakorpuksessa.
Kaikkien kolmen osakorpuksen äänitiedostoihin kohdistetut annotaatiot ovat saatavilla sekä ELAN-ohjelmalla toimivassa .eaf-muodossa että Praat-ohjelmalla toimivassa .TextGrid-muodossa.
Vuonna 2013 toteutetussa Helsingin puhekielen pitkittäiskorpus -hankkeessa kerättiin 2010-lukua edustava osa-aineisto sekä jalostettiin aiemmin 1970- ja 1990-luvuilla hankittu aineisto digitaaliseksi korpukseksi, mikä parantaa huomattavasti sen käytettävyyttä. Pitkittäiskorpus koostuu digitaalisista äänitiedostoista, jotka ovat kuunneltavissa kokonaisuudessaan, ja niihin liitettävistä litteroinneista, jotka kattavat tässä aineistoversiossa noin puoli tuntia kustakin haastattelusta. Litteraatit on suuressa osassa aineistoa kohdistettu äänitiedostojen vastaaviin kohtiin, jolloin litteroinnin perusteella voi tehdä hakuja ja hakuosumia vastaavia äänitteiden kohtia pääsee suoraan kuuntelemaan. Lisäksi suureen osaan ääniaineistoa on kohdistettu asiasanoja, joiden avulla voidaan tehdä myös aiheenmukaisia hakuja esimerkiksi kulttuurin- ja historiantutkimuksen tarpeisiin.
Korpuksen toinen versio sisältää 1970-, 1990- ja 2010-luvun osa-aineistojen annotaatiotiedostojen päivityksiä: joko uusia litteraatteja äänitiedostoihin, joita ensimmäisessä versiossa ei ollut lainkaan litteroitu, tai 1970-luvun osa-aineiston kohdalla vanhojen litteraattien kohdistettuja versioita. Osa aikaisemmista litteroinneista on myös päivitetty tai äänitteestä on saatettu litteroida pitempi pätkä. Yhteensä 83 äänitiedostoon liittyviä annotaatioita on päivitetty tai lisätty. Uusia äänitteitä ei siis tätä versiota varten kerätty.
Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta LAT-alustalla. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. 1970-T1M2C_1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.
Aineiston litteroinnit ja muu annotaatio ovat saatavilla Praat-ohjelman käyttämässä TextGrid-muodossa sekä ELAN-ohjelman käyttämässä EAF-muodossa. Annotaatiotiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi joko ELAN- tai Praat-ohjelmalla. Kummassakin tapauksessa on ladattava annotaatiotiedoston pariksi myös sitä vastaava WAV-muotoinen äänitiedosto.
LAT-alustalla olevat äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa yksitellen myös ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. !M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.
Huom! Haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja erityisesti vanhimmat nauhat on digitoitu vasta myöhemmin. Tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.
Koko 2010-luvun osa-aineistosta sekä osittain myös 1990- ja 1970-lukujen osa-aineistoista on saatavilla ääneen kohdistetut litteraatit (.eaf, .TextGrid). Litteraatin perusteella voidaan siis tehdä hakuja ja kuunnella karkeasti kutakin hakutulosta vastaava ääninäytteen kohta. Osa 1970- ja 1990-luvun aineistosta on kuitenkin saatavilla vain erillisinä teksti- (.txt) ja äänitiedostoina (.wav).
Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.
Tiedostoja voi ladata LATista yksitellen omalle koneelle komennolla download (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta Download all resources. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.
Vanhemmat korpusversiot ja äänitiedostopaketit ovat ladattavissa Kielipankin latauspalvelusta.
Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta helpuhe-solmua ja valitse annotation content search). Trova-ikkunan yläosasta voidaan rastittaa, minkätyyppisiin annotaatiotiedostoihin haku kohdistetaan: ELAN-muotoisiin .eaf-tiedostoihin, Praat-muotoisiin .TextGrid-tiedostoihin ja/tai kohdistamattomiin .txt-raakatekstitiedostoihin.
Myös vanhemmista korpusversioista voi tehdä hakuja omalle koneelle asennetulla ELAN-ohjelmalla. Koko korpus tai osakorpus täytyy tällöin ensin ladata Kielipankin latauspalvelusta. ELANissa voi käyttää toimintoa Search: Structured Search Multiple eaf, joka toimii vastaavalla periaatteella kuin LAT-palvelun Trova-työkalu. Hakualueeksi (Define Domain) määritellään ELANissa se hakemisto/hakemistot, johon korpuspaketit on purettu.
ELAN-hakujen tekemisestä on tulossa myöhemmin lisäohjeita.
Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyyppi (Tier type) on interviewer speech, kun taas kaikki speech-tyyppiset kerrokset liittyvät joko varsinaisten haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun kohdistetaan Single Layer- tai Multiple Layer -haku tietyntyyppisiin kerroksiin, voidaan etsiä osumia pelkästään haastateltavien vs. haastattelijoiden puheesta. 1970-luvun aineistoon on merkitty näkyviin haastattelijan nimikirjaimet, mutta 1990-luvun ja 2010-luvun aineistossa haastattelijan vuorot on merkitty pelkällä H-kirjaimella.
Osa aineistosta on koodattu temaattisesti ts. asiasanoitettu puheenaiheen mukaan. Tietyt asiasanat on merkitty samaa aihetta käsittelevän osuuden kohdalle 1-3 annotaatiokerrokseen. Näiden kerrosten nimet ovat annotaatiotiedostoissa asiasana1, asiasana2 ja asiasana3. Asiasanoja voi hakea valitsemalla kohteena olevan kerroksen tyypiksi Tier type: thematic keyword.
Muutamiin annotaatiotiedostoihin on myös merkitty referointiosuuksia (Tier type: reference) sekä nimiä (Tier type: name).
Helsingin puhekielen aineistohankkeen käynnisti prof. Terho Itkonen Helsingin yliopistossa. Vuodesta 1976 lähtien hanketta johti prof. Heikki Paunonen. 1970-luvun osa-aineisto on kerätty Itkosen ja Paunosen johdolla. 1990-luvun osakorpuksen aineisto kerättiin vuosina 1991–92, jolloin hankkeen johtajana jatkoi prof. Heikki Paunonen. Vuonna 2013 toteutetussa, Koneen Säätiön rahoittamassa jatkohankkeessa kerättiin 2010-luvun osa-aineisto, jonka haastatteluista ja litterointityöstä vastasivat tutkimusavustajina suomen kielen opiskelijat Saila Marttila, Sanni Surkka ja Suvi Syrjänen. Hankkeen johtajana toimi Hanna Lappalainen Helsingin yliopiston suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitokselta. Aineiston temaattisen koodauksen suunnittelusta ja toteutuksesta vastasi FT Pauliina Latvala, joka työskenteli hankkeessa apurahatutkijana.
Lisätietoa Helsingin puhekielen pitkittäiskorpus -aineistohankkeesta
Korpuksen ensimmäinen versio helpuhe1 on ladattavissa tiedostopaketteina Kielipankin latauspalvelusta (http://urn.fi/urn:nbn:fi:lb-2014073041).
Korpuksen toinen, annotaatioiden osalta päivitetty versio (helpuhe-v2, http://urn.fi/urn:nbn:fi:lb-2016041424) tulee myöhemmin saataville latauspaketteina.
Aineistosta on tekeillä myös Kielipankin Korp-palvelun kautta käytettävä versio.
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.
The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.
The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.
Litterointimerkkien kuvaus (pdf)
The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
This resource contains a copy of the original Movie Corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 200 million words from about 25,000 movies from the years 1930-2018. The movie scripts come from several different English-speaking countries and include English from the US, UK and 4 other dialects.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112805
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Global Web-Based English (GloWbE) contains about 1.8 billion words from web pages in the United States, Great Britain, Australia, India, and 16 other countries. About 60 % of the texts come from blogs. It is unique in the way that it allows you to carry out comparisons between different varieties of English. The original, frequently updated version of GloWbE is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of GloWbE under a restricted academic license that is available for users affiliated with a university in Finland.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112804
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Coronavirus Corpus contains data on the medical, social, cultural, and economic impact of the coronavirus (COVID-19) from online magazines and newspapers in 20 different English-speaking countries from 1 Jan 2020 to 31 May 2021. The original version is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of the corpus under a restricted academic license that is available for users affiliated with a university in Finland.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112803
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Historical American English (COHA) is the largest structured corpus of historical English. The corpus is balanced by genre across the decades. The original version of COHA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COHA under a restricted academic license that is available for users affiliated with a university in Finland.
For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112802
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Contemporary American English (COCA) is a very large corpus of American English. The original, frequently updated version of COCA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COCA under a restricted academic license that is available for users affiliated with a university in Finland.
For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112801
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The corpus contains Finnish essays written by the students of the 1994, 1999 and 2004 matriculation examinations.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112704
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Korpus sisältää Ylilaudan keskustelupalvelun keskustelupalstoja ajalta 2012-2014.
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112703
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
This resource collection contains word embeddings trained with word2vec from various corpora.
The embedding file is in a simple and easily parsed textual format produced by word2vec. The first line in the file gives the vocabulary size and dimension. Each line after that begins with a vocabulary item, followed by a space, followed by 128 floating point numbers (represented textually) each followed by a space.
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112702
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Aineisto kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta. Tekstit on eristetty Wikipedian tarjoamista kielikohtaisista kokonaisaineistoista (https://dumps.wikimedia.org/). Aineisto on jaettu arikkeleihin, kappaleisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku Dependenssi jäsennintä (http://turkunlp.github.io/Finnish-dep-parser/).
Kuvaus tietojen rakenteesta laskentaympäristössä:

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112701
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Wanca 2016 is a collection of web corpora in small Uralic languages. The collection is composed of 29 sentence corpora in different languages. The corpora have been collected from the Internet using the automated system developed in the Finno-Ugric Languages and the Internet project (SUKI) supported by the Kone foundation from their Language Programme 2012-2016. The sentences have been extracted from the pages found while harvesting with Heritrix and the language of each sentence has been identified with MultiLi using HeLI as the identification method. Each sentence has a link to the original page it was found in, but it is possible that some of the links stop working. In that case we recommend searching for the page in the Internet Archive Wayback machine https://archive.org/web/.
More information on Wanca: http://www.suki.ling.helsinki.fi/wanca
The languages in Wanca 2016 are:
| ISO 639-3 | Name of language |
| fit | Tornedalen Finnish (meänkieli) |
| fkv | Kven (kvääni) |
| izh | Ingrian (ižoran keel) |
| kca | Khanty (ханты ясанг) |
| koi | Komi-Permyak (перем коми кыв) |
| kpv | Komi-Zyrian (Коми кыв) |
| krl | Karelian (karjal) |
| liv | Liv (līvõ kēļ) |
| lud | Ludian (lüüdin kiel’) |
| mdf | Moksha (мокшень) |
| mhr | Eastern and Meadow Mari (марий йылме) |
| mns | Mansi (мāньси лāтыӈ) |
| mrj | Western or Hill Mari (Кырык мары) |
| myv | Erzya (эрзянь) |
| nio | Nganasan (ня”) |
| olo | Livvi (Olonets / livvin karjal) |
| sjd | Kildin Sami (Кӣллт са̄мь кӣлл) |
| sjk | Kemi Sami (samääškiela) |
| sju | Ume Sami (uumajanlappi) |
| sma | Southern Sami (åarjel-saemien) |
| sme | Northern Sami (davvisámi, davvisámegiella) |
| smj | Lule Sami (julevsábme) |
| smn | Inari Sami (anarâškielâ) |
| sms | Skolt Sami (sää´mǩiõll) |
| udm | Udmurt (удмурт кыл) |
| vep | Veps (vepsän kel’) |
| vot | Votic (vad̕d̕a ceeli) |
| vro | Võro (võro kiil) |
| yrk | Nenets (ненэцяʼ вада) |
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112609
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Written Finnish texts from the years between 1543 and 1810, browsable and searchable on the web. The collection contains bible translations and religious texts (e.g. all of Mikael Agricola’s Finnish works), legal texts, poems, and texts concerning agriculture, nature, health etc., among others. It was compiled for lexicographic use.
More information on the corpus: http://kaino.kotus.fi/korpus/vks/meta/vks_coll_rdf.xml
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112608
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
This resource is offered by Kotus, Kotimaisten kielten keskus, the Institute for the Languages of Finland.
The resource contains the Online Lexicon of Veps Language from Lauri Kettunen’s (1885-1963) handwritten dictionary and notes. Kettunen travelled twice to Veps areas, in 1917-1918 and in 1934 with Lauri Posti and Paavo Siro.
The lexicon, which is based on the field notes, has been digitized.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112607
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Tasavallan presidenttien uudenvuodenpuheiden kokoelmassa on kaikki tasavallan presidenttien pitämät uudenvuodenpuheet vuosilta 1935–2007. Muutaman kerran puheen on pitänyt joku muu kuin presidentti. Nämäkin puheet sisältyvät aineistoon.
Kokoelma on järjestetty presidenteittäin ja vuosittain. Kokoelma koostuu lehtileikkeistä, konekirjoitusliuskoista, kirjojen sivuista, lehdistötiedotteista ja verkkoteksteistä. Aineistoa on hankittu arkistoista, kirjoista ja Internetistä.
Lisätietoja: http://kaino.kotus.fi/korpus/teko/meta/presidentti/presidentti_coll_rdf.xml
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112606
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025090423
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025090422
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Terminological Vocabulary of Kela – Benefit-related Concepts, 4th edition (TSK 49) contains information on more than 500 concepts in term records and concept diagrams. The concepts have been given definitions and term recommendations in Finnish and Swedish. The relations between the concepts are illustrated with the help of concept diagrams. The vocabulary is totally bilingual: foreword, instructions, concept descriptions and concept diagrams have all been translated into Swedish. The subjects covered in the vocabulary are the benefits provided by Kela (the Social Insurance Institution of Finland), e.g. sickness allowances and reimbursements for medical expenses under the Health Insurance Act, international medical care, occupational health care, disability benefits and interpreting services, rehabilitation organized and reimbursed by Kela, pensions paid by Kela, housing benefits, financial aid for students, conscript’s allowance, benefits for families with children and unemployment allowances.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112605
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Sanasto sisältää 465 työsuojelualan käsitettä määritelmineen ja niitä täydentävine huomautuksineen. Käsitteille on annettu suositukset suomenkielisestä ammattitermistöstä sekä vastineet ruotsin, englannin, saksan ja ranskan kielellä. Määritelmät ja niitä täydentävät huomautukset on käännetty ruotsiksi.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112604
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Topling is a research project of the Department of Languages and Centre for Applied Language Studies at the University of Jyväskylä. It is financed by the Academy of Finland (2010-2013) and the University of Jyväskylä. It makes use of the data and results of an earlier project called Cefling.
The main objective of the project is to compare cross-sectional and longitudinal sequences of the acquisition of writing skills in Finnish, English and Swedish as second languages in the Finnish educational system (incl. adults).
The cross-sectional data, 1,194 samples for L2 Finnish, 3,154 for L2 English, on a variety of tasks, already exists, rated for level and coded for analyses, with similar data available for Swedish. The longitudinal data (incl. language use outside school) will be collected during this project.
The corpus can be used e.g. to better understand and predict problems in the development of writing proficiency in foreign/second languages.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112603
Viimeksi muokattu 2025-11-27
