
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Tämä aineisto koostuu pohjoismaisesta tietokannasta, joka sisältää podcasteja ja niiden transkriptioita. Tietokanta koottiin alun perin vertailututkimusta varten, jossa tarkasteltiin englannista peräisin olevia pragmaattisia lainasanoja pohjoismaisissa kielissä ja suomessa. Se sisältää aineistoa tanskaksi, suomeksi, islanniksi, norjaksi ja ruotsiksi (suomenruotsi ja Ruotsissa puhuttu ruotsi). Aineisto on kerätty vuonna 2025, ja se on peräisin pääasiassa vuodelta 2024.
Aineisto on merkitty kunkin kielen kirjallisten kieliopillisten sääntöjen mukaisesti. Uudemmat englannista peräisin olevat lainasanat ja kieltenvaihto on korostettu.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026040104
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
This resource consists of a Nordic database of podcast recordings and their transcripts. The database was originally compiled for a comparative study of English pragmatic loanwords in the Nordic languages and Finnish.
It contains material in Danish, Finnish, Icelandic, Norwegian, and Swedish (Finland Swedish and Swedish spoken in Sweden). The material was collected in 2025 and dates mainly from 2024.
The material has been annotated in accordance with the written language conventions of each language. More recent loanwords from English and code-switching have been highlighted.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2026040103
The tool parses running Finnish text using TurkuNLP’s TNPP, and visualises with CoNLL-U viewer from The University of Groningen
The text is first parsed into a dependency parse tree in CoNLL-U format, and then visualised with dependency arrows that connect words in a sentence with each other.
NOTE: This tool is currently available as a demo version.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026031901
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Tampereen puhekielen pitkittäisaineisto koostuu haastatteluäänitteistä, jotka on kerätty sosiolingvististä pitkittäistutkimusta varten. Tutkimuksen juuret ovat 1970-luvulla käynnistyneessä Nykysuomalaisen puhekielen murros -hankkeessa. Hankkeen yhteydessä kerättiin laajat kaupunkipuhekielen aineistot neljässä suomalaisessa yliopistokaupungissa: Tampereella, Helsingissä, Turussa ja Jyväskylässä. Tampereen puhekielen pitkittäisaineisto on toteutustavaltaan samanlainen kuin Helsingin puhekielen pitkittäiskorpus (http://urn.fi/urn:nbn:fi:lb-2021052503). Sekä Helsingissä että Tampereella tehtiin vielä uusintakierrokset 1990- ja 2010-luvuilla osittain samojen haastateltavien kanssa. Seurantamateriaalin avulla on mahdollista tutkia myös ajan myötä tapahtuvia muutoksia puhekielessä ja murteissa.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026012022
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The material consists of interview recordings collected for a sociolinguistic longitudinal study. The roots of the study lie in the project ‘Nykysuomalaisen puhekielen murros’ (The Transformation of Contemporary Finnish Colloquial Language), which was launched in the 1970s. As part of the project, extensive urban colloquial language data was collected in four Finnish university cities: Tampere, Helsinki, Turku, and Jyväskylä.
The longitudinal corpus of Tampere colloquial language is similar in its implementation to the longitudinal corpus of Helsinki colloquial language (http://urn.fi/urn:nbn:fi:lb-2021052503). Both in Helsinki and Tampere follow-up rounds were conducted in the 1990s and 2010s, partly with the same interviewees.
The follow-up material also makes it possible to study changes in spoken language and dialects over time.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2026012021
Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multitasking model that can perform multilingual speech recognition, speech translation, and language identification.
Whisper can be installed to a SD Desktop virtual machine with SD Software installer.
The version provided for SD Desktop is based on Faster-Whisper-XXL.
After installation, Whisper is available as a command-line tool in SD Desktop.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020504
This web service inputs a media file with a speech signal and a text file with a corresponding orthographic transcript, and computes a word segmentation and a phonetic segmentation and labeling.
The tools were developed at the Institute for Phonetics and Speech Processing in Munich, in the context of CLARIN-D.
For more information see the tutorial.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020503
These command-line tools implement composable manipulations of segmented and annotated text in a VRT format aka verticalized text, related to Corpus WorkBench that is used in the back-end to the Korp concordance engine.
The basic function of the VRT tools is to preserve previous annotations, including structural markup that may contain valuable information about the text units, without the underlying tools even knowing that their input sentences are extracted from such context. New annotations from an underlying tool are added to their proper place in the input document.
The major innovation in FIN-CLARIN VRT is the use of names for the fields that are only positional in basic format. In the basic format the declaration of names is only a comment but these VRT tools use it extensively.
For more information see the README
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020502
COMEDI is a Web-based editor for CMDI-conformant metadata, as adopted by CLARIN, hosted by the CLARINO Bergen CLARIN Centre.
With COMEDI, you can interactively create new CMDI Metadata records, or upload and modify existing metadata. A metadata record in COMEDI can be exported as a CMDI XML file. It can also be harvested with OAI-PMH.
In order to use COMEDI, you have to sign in. Login is necessary to write protect your metadata records from other users.
The metadata for all resources provided by the Language Bank of Finland is maintained and provided using COMEDI.
For further information on how to use COMEDI, please see the Documentation
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026012901
Lakitutka, ”the Law Radar”, compiles public documents generated during the legislative process into a single search service, covering the entire preparatory process. At the same time, Lakitutka offers everyone better access to background material on legislation that affects their everyday lives.
Lakitutka’s document materials are retrieved from The Government Project Register Hankeikkuna, Eduskunta Open Data Online Service and Finlex Open Data service.
This content search tool was developed at the University of Turku.
More information about the project
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026012903
Trankit is a light-weight Transformer-based Python Toolkit for multilingual Natural Language Processing (NLP).
Trankit can process inputs which are untokenized (raw) or pretokenized strings, at both sentence and document level.
This tool is installed in CSC’s computing environment (’module load trankit’).
The current version is Trankit v1.0.0
For more details, please see Trankit’s Documentation.
Currently, Trankit supports the following tasks:
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026011402
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Kokoelma sisältää Suomalais-Ugrilaisen Seuran digitoimia kielennäytteitä (10 nidettä, digitoituja ja kauttaaltaan oikoluettuja) käännöksineen (saksa tai suomi) kappaletasolla kohdistettuna. Näytteet on julkaistu Suomalais-Ugrilaisen Seuran Toimituksia ja Castrenianumin toimitteita -sarjoissa. Kyseessä on otos Seuran julkaisutoiminnasta. Kokoelma on Suomen tiedekustantajien liiton rahoituksella toteutettu pilotti, joka edeltää Seuran teosten laajamittaisempaa julkaisemista korpusmuodossa. Ensimmäiseen otokseen sisällytetyt teokset edustavat muun muassa liivin, vepsän, komin ja udmurtin kieliä.
Teokset on julkaistu PDF-muodossa Edition.fi-palvelussa, ja Kielipankin korpuksesta on sivukohtaiset linkit teoksiin. Korpuksesta on mahdollista tehdä hakuja sekä alkuperäisellä suomalais-ugrilaisella tarkekirjoituksella että kielten nykyortografioilla, jotka on tuotettu automaattisesti. Annotaatiot on tuotettu automaattisesti GiellaLT:n infrastruktuuria hyödyntäen.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112004
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The collection consists of language samples digitized by the Finno-Ugrian Society (10 volumes, digitized and proofread in their entirety) with their translations (German, Finnish or Russian ) aligned at the paragraph level. The text samples have been published in the series ”Suomalais-Ugrilaisen Seuran Toimituksia” and ”Castrenianumin toimitteita”. This represents an excerpt of the Society’s publications. The collection has been made as a pilot with funding from the Finnish Association for Scholarly Publishing. It is a forerunner to a more extensive corpus publication project by the Society. Works included in the first excerpt provide a broad sample of the Livonian, Veps, Komi and Udmurt languages.
The works have been published in PDF format through the ”Edition.fi” service and in text format on the Language Bank of Finland KORP server. The KORP search engine makes it possible to search using the original Finno-Ugric Transcription of the texts or modern orthography, the latter of which has been produced automatically. Search results have page-specific links to the PDF publications at ”Edition.fi”. Annotations have been produced automatically using finite-state descriptions of the individual languages constructed on the GiellaLT infrastructure.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025112003
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
Helsingin puhekielen pitkittäiskorpus koostuu eri-ikäisten syntyperäisten helsinkiläisten äänitallennetuista yksilöhaastatteluista. Aineistoa on kerätty kolmella vuosikymmenellä, vuosina 1972–74, 1991–92 sekä 2013.
Kielipankin LAT-alusta on poistunut käytöstä vuonna 2020. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta, mutta LATissa ollut sisältö on edelleen saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Korpus on jaettu kolmeen pääosaan äänitysten vuosikymmenen mukaisesti: 1970, 1990 ja 2010. Sosiolingvististä tutkimusta varten 1970-luvun aineisto on jaettu osiin haastateltavan asuinkaupunginosan mukaan (S=Sörnäinen, T=Töölö). Myöhemmin kerätyissä osa-aineistoissa tästä kaupunginosajaosta ei enää nuorten puhujien osalta ole pidetty kiinni, vaan S- ja T-koodit viittaavat pikemminkin puhujien koulutustaustaan (S=ammattikoululainen, T=lukiolainen). Jokainen osakorpus on jaoteltu lisäksi haastateltavan ikäryhmän (1=vanhimmat, 2=keski-ikäiset, 3=nuoret) mukaan.
Osakorpuksissa on mukana osittain samoja haastateltavia. Vuosina 1991-1992 tavoitettiin 29 haastateltua 1970-luvulla tehdyn tutkimuksen kahdesta nuorimmasta ikäryhmästä sekä otettiin tutkittavaksi uusi nuorten ryhmä (16 haastateltavaa). Vuonna 2013 toteutetussa jatkohankkeessa haastateltiin 27:ää 1990-luvun informanteista sekä otettiin tutkittavaksi uusi nuorten ryhmä (yht. 16). Aiempien kierrosten tavoin aineisto kerättiin yksilöhaastatteluin. 13 informantille kyseessä oli jo kolmas haastattelu.
Puhujat on merkitty koodeilla F(nainen) tai M(mies) + juokseva numero. Näillä koodeilla samat henkilöt on myös yksilöity kaikkien kolmen osa-aineiston välillä: tiettyyn puhujaan viitataan aina samalla koodilla, kun hän esiintyy useammassa kuin yhdessä osakorpuksessa.
Kaikkien kolmen osakorpuksen äänitiedostoihin kohdistetut annotaatiot ovat saatavilla sekä ELAN-ohjelmalla toimivassa .eaf-muodossa että Praat-ohjelmalla toimivassa .TextGrid-muodossa.
Vuonna 2013 toteutetussa Helsingin puhekielen pitkittäiskorpus -hankkeessa kerättiin 2010-lukua edustava osa-aineisto sekä jalostettiin aiemmin 1970- ja 1990-luvuilla hankittu aineisto digitaaliseksi korpukseksi, mikä parantaa huomattavasti sen käytettävyyttä. Pitkittäiskorpus koostuu digitaalisista äänitiedostoista, jotka ovat kuunneltavissa kokonaisuudessaan, ja niihin liitettävistä litteroinneista, jotka kattavat tässä aineistoversiossa noin puoli tuntia kustakin haastattelusta. Litteraatit on suuressa osassa aineistoa kohdistettu äänitiedostojen vastaaviin kohtiin, jolloin litteroinnin perusteella voi tehdä hakuja ja hakuosumia vastaavia äänitteiden kohtia pääsee suoraan kuuntelemaan. Lisäksi suureen osaan ääniaineistoa on kohdistettu asiasanoja, joiden avulla voidaan tehdä myös aiheenmukaisia hakuja esimerkiksi kulttuurin- ja historiantutkimuksen tarpeisiin.
Korpuksen toinen versio sisältää 1970-, 1990- ja 2010-luvun osa-aineistojen annotaatiotiedostojen päivityksiä: joko uusia litteraatteja äänitiedostoihin, joita ensimmäisessä versiossa ei ollut lainkaan litteroitu, tai 1970-luvun osa-aineiston kohdalla vanhojen litteraattien kohdistettuja versioita. Osa aikaisemmista litteroinneista on myös päivitetty tai äänitteestä on saatettu litteroida pitempi pätkä. Yhteensä 83 äänitiedostoon liittyviä annotaatioita on päivitetty tai lisätty. Uusia äänitteitä ei siis tätä versiota varten kerätty.
Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta LAT-alustalla. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. 1970-T1M2C_1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.
Aineiston litteroinnit ja muu annotaatio ovat saatavilla Praat-ohjelman käyttämässä TextGrid-muodossa sekä ELAN-ohjelman käyttämässä EAF-muodossa. Annotaatiotiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi joko ELAN- tai Praat-ohjelmalla. Kummassakin tapauksessa on ladattava annotaatiotiedoston pariksi myös sitä vastaava WAV-muotoinen äänitiedosto.
LAT-alustalla olevat äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa yksitellen myös ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. !M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.
Huom! Haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja erityisesti vanhimmat nauhat on digitoitu vasta myöhemmin. Tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.
Koko 2010-luvun osa-aineistosta sekä osittain myös 1990- ja 1970-lukujen osa-aineistoista on saatavilla ääneen kohdistetut litteraatit (.eaf, .TextGrid). Litteraatin perusteella voidaan siis tehdä hakuja ja kuunnella karkeasti kutakin hakutulosta vastaava ääninäytteen kohta. Osa 1970- ja 1990-luvun aineistosta on kuitenkin saatavilla vain erillisinä teksti- (.txt) ja äänitiedostoina (.wav).
Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.
Tiedostoja voi ladata LATista yksitellen omalle koneelle komennolla download (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta Download all resources. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.
Vanhemmat korpusversiot ja äänitiedostopaketit ovat ladattavissa Kielipankin latauspalvelusta.
Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta helpuhe-solmua ja valitse annotation content search). Trova-ikkunan yläosasta voidaan rastittaa, minkätyyppisiin annotaatiotiedostoihin haku kohdistetaan: ELAN-muotoisiin .eaf-tiedostoihin, Praat-muotoisiin .TextGrid-tiedostoihin ja/tai kohdistamattomiin .txt-raakatekstitiedostoihin.
Myös vanhemmista korpusversioista voi tehdä hakuja omalle koneelle asennetulla ELAN-ohjelmalla. Koko korpus tai osakorpus täytyy tällöin ensin ladata Kielipankin latauspalvelusta. ELANissa voi käyttää toimintoa Search: Structured Search Multiple eaf, joka toimii vastaavalla periaatteella kuin LAT-palvelun Trova-työkalu. Hakualueeksi (Define Domain) määritellään ELANissa se hakemisto/hakemistot, johon korpuspaketit on purettu.
ELAN-hakujen tekemisestä on tulossa myöhemmin lisäohjeita.
Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyyppi (Tier type) on interviewer speech, kun taas kaikki speech-tyyppiset kerrokset liittyvät joko varsinaisten haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun kohdistetaan Single Layer- tai Multiple Layer -haku tietyntyyppisiin kerroksiin, voidaan etsiä osumia pelkästään haastateltavien vs. haastattelijoiden puheesta. 1970-luvun aineistoon on merkitty näkyviin haastattelijan nimikirjaimet, mutta 1990-luvun ja 2010-luvun aineistossa haastattelijan vuorot on merkitty pelkällä H-kirjaimella.
Osa aineistosta on koodattu temaattisesti ts. asiasanoitettu puheenaiheen mukaan. Tietyt asiasanat on merkitty samaa aihetta käsittelevän osuuden kohdalle 1-3 annotaatiokerrokseen. Näiden kerrosten nimet ovat annotaatiotiedostoissa asiasana1, asiasana2 ja asiasana3. Asiasanoja voi hakea valitsemalla kohteena olevan kerroksen tyypiksi Tier type: thematic keyword.
Muutamiin annotaatiotiedostoihin on myös merkitty referointiosuuksia (Tier type: reference) sekä nimiä (Tier type: name).
Helsingin puhekielen aineistohankkeen käynnisti prof. Terho Itkonen Helsingin yliopistossa. Vuodesta 1976 lähtien hanketta johti prof. Heikki Paunonen. 1970-luvun osa-aineisto on kerätty Itkosen ja Paunosen johdolla. 1990-luvun osakorpuksen aineisto kerättiin vuosina 1991–92, jolloin hankkeen johtajana jatkoi prof. Heikki Paunonen. Vuonna 2013 toteutetussa, Koneen Säätiön rahoittamassa jatkohankkeessa kerättiin 2010-luvun osa-aineisto, jonka haastatteluista ja litterointityöstä vastasivat tutkimusavustajina suomen kielen opiskelijat Saila Marttila, Sanni Surkka ja Suvi Syrjänen. Hankkeen johtajana toimi Hanna Lappalainen Helsingin yliopiston suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitokselta. Aineiston temaattisen koodauksen suunnittelusta ja toteutuksesta vastasi FT Pauliina Latvala, joka työskenteli hankkeessa apurahatutkijana.
Lisätietoa Helsingin puhekielen pitkittäiskorpus -aineistohankkeesta
Korpuksen ensimmäinen versio helpuhe1 on ladattavissa tiedostopaketteina Kielipankin latauspalvelusta (http://urn.fi/urn:nbn:fi:lb-2014073041).
Korpuksen toinen, annotaatioiden osalta päivitetty versio (helpuhe-v2, http://urn.fi/urn:nbn:fi:lb-2016041424) tulee myöhemmin saataville latauspaketteina.
Aineistosta on tekeillä myös Kielipankin Korp-palvelun kautta käytettävä versio.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2025120402
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
|---|---|---|---|---|---|---|---|---|
| Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.
The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.
The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.
Litterointimerkkien kuvaus (pdf)
The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
This resource contains a copy of the original Movie Corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 200 million words from about 25,000 movies from the years 1930-2018. The movie scripts come from several different English-speaking countries and include English from the US, UK and 4 other dialects.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112805
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Global Web-Based English (GloWbE) contains about 1.8 billion words from web pages in the United States, Great Britain, Australia, India, and 16 other countries. About 60 % of the texts come from blogs. It is unique in the way that it allows you to carry out comparisons between different varieties of English. The original, frequently updated version of GloWbE is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of GloWbE under a restricted academic license that is available for users affiliated with a university in Finland.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112804
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Coronavirus Corpus contains data on the medical, social, cultural, and economic impact of the coronavirus (COVID-19) from online magazines and newspapers in 20 different English-speaking countries from 1 Jan 2020 to 31 May 2021. The original version is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of the corpus under a restricted academic license that is available for users affiliated with a university in Finland.
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112803
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Historical American English (COHA) is the largest structured corpus of historical English. The corpus is balanced by genre across the decades. The original version of COHA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COHA under a restricted academic license that is available for users affiliated with a university in Finland.
For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112802
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
|---|---|---|---|---|---|---|---|---|
| Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Yhteyshenkilö | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
The Corpus of Contemporary American English (COCA) is a very large corpus of American English. The original, frequently updated version of COCA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COCA under a restricted academic license that is available for users affiliated with a university in Finland.
For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).
More information about all corpora from english-corpora.org that are available via the Language Bank
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112801
Viimeksi muokattu 2025-12-01
