Pohjoismainen podcast-tietokanta (PLIS)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Tämä aineisto koostuu pohjoismaisesta tietokannasta, joka sisältää podcasteja ja niiden transkriptioita. Tietokanta koottiin alun perin vertailututkimusta varten, jossa tarkasteltiin englannista peräisin olevia pragmaattisia lainasanoja pohjoismaisissa kielissä ja suomessa. Se sisältää aineistoa tanskaksi, suomeksi, islanniksi, norjaksi ja ruotsiksi (suomenruotsi ja Ruotsissa puhuttu ruotsi). Aineisto on kerätty vuonna 2025, ja se on peräisin pääasiassa vuodelta 2024.
Aineisto on merkitty kunkin kielen kirjallisten kieliopillisten sääntöjen mukaisesti. Uudemmat englannista peräisin olevat lainasanat ja kieltenvaihto on korostettu.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • (Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.)
  • (Joidenkin tämän aineiston versioiden kopio voi olla saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake).)

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026040104

The Nordic database of podcasts (PLIS)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

This resource consists of a Nordic database of podcast recordings and their transcripts. The database was originally compiled for a comparative study of English pragmatic loanwords in the Nordic languages and Finnish.
It contains material in Danish, Finnish, Icelandic, Norwegian, and Swedish (Finland Swedish and Swedish spoken in Sweden). The material was collected in 2025 and dates mainly from 2024.
The material has been annotated in accordance with the written language conventions of each language. More recent loanwords from English and code-switching have been highlighted.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • (Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.)
  • (Some versions of this resource are available in the computing environment (see column ’Location’). icon-question-circle)

 

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2026040103

finnish-parse

The tool parses running Finnish text using TurkuNLP’s TNPP, and visualises with CoNLL-U viewer from The University of Groningen

The text is first parsed into a dependency parse tree in CoNLL-U format, and then visualised with dependency arrows that connect words in a sentence with each other.

NOTE: This tool is currently available as a demo version.

Access to the demo version.

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026031901

Tampereen puhekielen pitkittäiskorpus (1970, 1990, 2010) (tampuhe)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Tampereen puhekielen pitkittäisaineisto koostuu haastatteluäänitteistä, jotka on kerätty sosiolingvististä pitkittäistutkimusta varten. Tutkimuksen juuret ovat 1970-luvulla käynnistyneessä Nykysuomalaisen puhekielen murros -hankkeessa. Hankkeen yhteydessä kerättiin laajat kaupunkipuhekielen aineistot neljässä suomalaisessa yliopistokaupungissa: Tampereella, Helsingissä, Turussa ja Jyväskylässä. Tampereen puhekielen pitkittäisaineisto on toteutustavaltaan samanlainen kuin Helsingin puhekielen pitkittäiskorpus (http://urn.fi/urn:nbn:fi:lb-2021052503). Sekä Helsingissä että Tampereella tehtiin vielä uusintakierrokset 1990- ja 2010-luvuilla osittain samojen haastateltavien kanssa. Seurantamateriaalin avulla on mahdollista tutkia myös ajan myötä tapahtuvia muutoksia puhekielessä ja murteissa.

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versioihin täytyy hakea erikseen henkilökohtaista käyttöoikeutta (RES). Hae käyttöoikeutta
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Kaikki tämän aineiston versioihin sisältyy henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin sisältyy erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.)

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026012022

The Longitudinal Corpus of Finnish Spoken in Tampere (1970s, 1990s and 2010s) (tampuhe)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The material consists of interview recordings collected for a sociolinguistic longitudinal study. The roots of the study lie in the project ‘Nykysuomalaisen puhekielen murros’ (The Transformation of Contemporary Finnish Colloquial Language), which was launched in the 1970s. As part of the project, extensive urban colloquial language data was collected in four Finnish university cities: Tampere, Helsinki, Turku, and Jyväskylä.
The longitudinal corpus of Tampere colloquial language is similar in its implementation to the longitudinal corpus of Helsinki colloquial language (http://urn.fi/urn:nbn:fi:lb-2021052503). Both in Helsinki and Tampere follow-up rounds were conducted in the 1990s and 2010s, partly with the same interviewees.
The follow-up material also makes it possible to study changes in spoken language and dialects over time.

License and access

  • This resource requires you to apply for individual access rights (RES). Apply
  • Click on the license image to see the resource-specific license text.
  • All versions of this resource contain personal data (license condition +PRIV). The license includes additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.)

 

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2026012021

Whisper

Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multitasking model that can perform multilingual speech recognition, speech translation, and language identification.

Whisper can be installed to a SD Desktop virtual machine with SD Software installer.

The version provided for SD Desktop is based on Faster-Whisper-XXL.

After installation, Whisper is available as a command-line tool in SD Desktop.

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020504

WebMAUS

This web service inputs a media file with a speech signal and a text file with a corresponding orthographic transcript, and computes a word segmentation and a phonetic segmentation and labeling.

The tools were developed at the Institute for Phonetics and Speech Processing in Munich, in the context of CLARIN-D.

For more information see the tutorial.

Access the web service


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020503

VRT tools

These command-line tools implement composable manipulations of segmented and annotated text in a VRT format aka verticalized text, related to Corpus WorkBench that is used in the back-end to the Korp concordance engine.

The basic function of the VRT tools is to preserve previous annotations, including structural markup that may contain valuable information about the text units, without the underlying tools even knowing that their input sentences are extracted from such context. New annotations from an underlying tool are added to their proper place in the input document.

The major innovation in FIN-CLARIN VRT is the use of names for the fields that are only positional in basic format. In the basic format the declaration of names is only a comment but these VRT tools use it extensively.

For more information see the README

Access on GitHub


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020502

COMEDI

COMEDI is a Web-based editor for CMDI-conformant metadata, as adopted by CLARIN, hosted by the CLARINO Bergen CLARIN Centre.

With COMEDI, you can interactively create new CMDI Metadata records, or upload and modify existing metadata. A metadata record in COMEDI can be exported as a CMDI XML file. It can also be harvested with OAI-PMH.

In order to use COMEDI, you have to sign in. Login is necessary to write protect your metadata records from other users.

 

The metadata for all resources provided by the Language Bank of Finland is maintained and provided using COMEDI.

 

For further information on how to use COMEDI, please see the Documentation


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026012901

Lakitutka

Lakitutka, ”the Law Radar”, compiles public documents generated during the legislative process into a single search service, covering the entire preparatory process. At the same time, Lakitutka offers everyone better access to background material on legislation that affects their everyday lives.

Lakitutka’s document materials are retrieved from The Government Project Register Hankeikkuna, Eduskunta Open Data Online Service and Finlex Open Data service.

This content search tool was developed at the University of Turku.

Access the website

More information about the project


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026012903

Trankit

Trankit is a light-weight Transformer-based Python Toolkit for multilingual Natural Language Processing (NLP).

Trankit can process inputs which are untokenized (raw) or pretokenized strings, at both sentence and document level.

This tool is installed in CSC’s computing environment (’module load trankit’).

The current version is Trankit v1.0.0

For more details, please see Trankit’s Documentation.

 

Currently, Trankit supports the following tasks:

  • Sentence segmentation.
  • Tokenization.
  • Multi-word token expansion.
  • Part-of-speech tagging.
  • Morphological feature tagging.
  • Dependency parsing.
  • Named entity recognition.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026011402

Suomalais-Ugrilaisen Seuran tekstikokoelmat (sus-texts)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Kokoelma sisältää Suomalais-Ugrilaisen Seuran digitoimia kielennäytteitä (10 nidettä, digitoituja ja kauttaaltaan oikoluettuja) käännöksineen (saksa tai suomi) kappaletasolla kohdistettuna. Näytteet on julkaistu Suomalais-Ugrilaisen Seuran Toimituksia ja Castrenianumin toimitteita -sarjoissa. Kyseessä on otos Seuran julkaisutoiminnasta. Kokoelma on Suomen tiedekustantajien liiton rahoituksella toteutettu pilotti, joka edeltää Seuran teosten laajamittaisempaa julkaisemista korpusmuodossa. Ensimmäiseen otokseen sisällytetyt teokset edustavat muun muassa liivin, vepsän, komin ja udmurtin kieliä.

Teokset on julkaistu PDF-muodossa Edition.fi-palvelussa, ja Kielipankin korpuksesta on sivukohtaiset linkit teoksiin. Korpuksesta on mahdollista tehdä hakuja sekä alkuperäisellä suomalais-ugrilaisella tarkekirjoituksella että kielten nykyortografioilla, jotka on tuotettu automaattisesti. Annotaatiot on tuotettu automaattisesti GiellaLT:n infrastruktuuria hyödyntäen.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • (Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.)

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112004

Text Collections of the Finno-Ugrian Society (sus-texts)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The collection consists of language samples digitized by the Finno-Ugrian Society (10 volumes, digitized and proofread in their entirety) with their translations (German, Finnish or Russian ) aligned at the paragraph level. The text samples have been published in the series ”Suomalais-Ugrilaisen Seuran Toimituksia” and ”Castrenianumin toimitteita”. This represents an excerpt of the Society’s publications. The collection has been made as a pilot with funding from the Finnish Association for Scholarly Publishing. It is a forerunner to a more extensive corpus publication project by the Society. Works included in the first excerpt provide a broad sample of the Livonian, Veps, Komi and Udmurt languages.

The works have been published in PDF format through the ”Edition.fi” service and in text format on the Language Bank of Finland KORP server. The KORP search engine makes it possible to search using the original Finno-Ugric Transcription of the texts or modern orthography, the latter of which has been produced automatically. Search results have page-specific links to the PDF publications at ”Edition.fi”. Annotations have been produced automatically using finite-state descriptions of the individual languages constructed on the GiellaLT infrastructure.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • (Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.)

 

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025112003

The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s) (helpuhe)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Tietoa aineistosta

Helsingin puhekielen pitkittäiskorpus koostuu eri-ikäisten syntyperäisten helsinkiläisten äänitallennetuista yksilöhaastatteluista. Aineistoa on kerätty kolmella vuosikymmenellä, vuosina 1972–74, 1991–92 sekä 2013.

Tietoa tämän aineiston LAT-version poistumisesta vuoden 2020 lopussa

Kielipankin LAT-alusta on poistunut käytöstä vuonna 2020. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta, mutta LATissa ollut sisältö on edelleen saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.


Korpuksen rakenne

Korpus on jaettu kolmeen pääosaan äänitysten vuosikymmenen mukaisesti: 1970, 1990 ja 2010. Sosiolingvististä tutkimusta varten 1970-luvun aineisto on jaettu osiin haastateltavan asuinkaupunginosan mukaan (S=Sörnäinen, T=Töölö). Myöhemmin kerätyissä osa-aineistoissa tästä kaupunginosajaosta ei enää nuorten puhujien osalta ole pidetty kiinni, vaan S- ja T-koodit viittaavat pikemminkin puhujien koulutustaustaan (S=ammattikoululainen, T=lukiolainen). Jokainen osakorpus on jaoteltu lisäksi haastateltavan ikäryhmän (1=vanhimmat, 2=keski-ikäiset, 3=nuoret) mukaan.

Osakorpuksissa on mukana osittain samoja haastateltavia. Vuosina 1991-1992 tavoitettiin 29 haastateltua 1970-luvulla tehdyn tutkimuksen kahdesta nuorimmasta ikäryhmästä sekä otettiin tutkittavaksi uusi nuorten ryhmä (16 haastateltavaa). Vuonna 2013 toteutetussa jatkohankkeessa haastateltiin 27:ää 1990-luvun informanteista sekä otettiin tutkittavaksi uusi nuorten ryhmä (yht. 16). Aiempien kierrosten tavoin aineisto kerättiin yksilöhaastatteluin. 13 informantille kyseessä oli jo kolmas haastattelu.

Puhujat on merkitty koodeilla F(nainen) tai M(mies) + juokseva numero. Näillä koodeilla samat henkilöt on myös yksilöity kaikkien kolmen osa-aineiston välillä: tiettyyn puhujaan viitataan aina samalla koodilla, kun hän esiintyy useammassa kuin yhdessä osakorpuksessa.

Osakorpusten sisältö

  • 1970-luvun osa-aineistosta on saatavilla litteroidut tekstit pääosin vain kohdistamattomina tekstitiedostoina (.txt) ja erillisinä, kokonaisen haastattelun pituisina äänitiedostoina (.wav). Litteroitu osuus kattaa noin puoli tuntia kustakin haastattelusta. Pieni osa litteroinneista on myös kohdistettu ääneen.
  • 1990-luvun osakorpuksesta on tarjolla osaksi pelkät äänitiedostot, osaksi kohdistetut litteroinnit vastaavasti kuin 1970-luvun osuudesta. Huomaa, että litterointityyli on jossakin määrin erilainen kuin 1970-luvun osa-aineistossa.
  • 2010-luvun osakorpus on litteroitu suoraan äänitiedostoon kohdistettuna.

Kaikkien kolmen osakorpuksen äänitiedostoihin kohdistetut annotaatiot ovat saatavilla sekä ELAN-ohjelmalla toimivassa .eaf-muodossa että Praat-ohjelmalla toimivassa .TextGrid-muodossa.

Versio 1 (helpuhe1):

Vuonna 2013 toteutetussa Helsingin puhekielen pitkittäiskorpus -hankkeessa kerättiin 2010-lukua edustava osa-aineisto sekä jalostettiin aiemmin 1970- ja 1990-luvuilla hankittu aineisto digitaaliseksi korpukseksi, mikä parantaa huomattavasti sen käytettävyyttä. Pitkittäiskorpus koostuu digitaalisista äänitiedostoista, jotka ovat kuunneltavissa kokonaisuudessaan, ja niihin liitettävistä litteroinneista, jotka kattavat tässä aineistoversiossa noin puoli tuntia kustakin haastattelusta. Litteraatit on suuressa osassa aineistoa kohdistettu äänitiedostojen vastaaviin kohtiin, jolloin litteroinnin perusteella voi tehdä hakuja ja hakuosumia vastaavia äänitteiden kohtia pääsee suoraan kuuntelemaan. Lisäksi suureen osaan ääniaineistoa on kohdistettu asiasanoja, joiden avulla voidaan tehdä myös aiheenmukaisia hakuja esimerkiksi kulttuurin- ja historiantutkimuksen tarpeisiin.

Versio 2 (helpuhe-v2):

Korpuksen toinen versio sisältää 1970-, 1990- ja 2010-luvun osa-aineistojen annotaatiotiedostojen päivityksiä: joko uusia litteraatteja äänitiedostoihin, joita ensimmäisessä versiossa ei ollut lainkaan litteroitu, tai 1970-luvun osa-aineiston kohdalla vanhojen litteraattien kohdistettuja versioita. Osa aikaisemmista litteroinneista on myös päivitetty tai äänitteestä on saatettu litteroida pitempi pätkä. Yhteensä 83 äänitiedostoon liittyviä annotaatioita on päivitetty tai lisätty. Uusia äänitteitä ei siis tätä versiota varten kerätty.

Käyttöohjeita

Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta LAT-alustalla. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. 1970-T1M2C_1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Litteroinnit ja muu annotaatio

Aineiston litteroinnit ja muu annotaatio ovat saatavilla Praat-ohjelman käyttämässä TextGrid-muodossa sekä ELAN-ohjelman käyttämässä EAF-muodossa. Annotaatiotiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi joko ELAN- tai Praat-ohjelmalla. Kummassakin tapauksessa on ladattava annotaatiotiedoston pariksi myös sitä vastaava WAV-muotoinen äänitiedosto.

LAT-alustalla olevat äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa yksitellen myös ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. !M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

Huom! Haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja erityisesti vanhimmat nauhat on digitoitu vasta myöhemmin. Tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.

Annotaatiotiedostojen sisältö

Koko 2010-luvun osa-aineistosta sekä osittain myös 1990- ja 1970-lukujen osa-aineistoista on saatavilla ääneen kohdistetut litteraatit (.eaf, .TextGrid). Litteraatin perusteella voidaan siis tehdä hakuja ja kuunnella karkeasti kutakin hakutulosta vastaava ääninäytteen kohta. Osa 1970- ja 1990-luvun aineistosta on kuitenkin saatavilla vain erillisinä teksti- (.txt) ja äänitiedostoina (.wav).

Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.

Tiedostojen lataaminen omalle koneelle

Tiedostoja voi ladata LATista yksitellen omalle koneelle komennolla download (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta Download all resources. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Vanhemmat korpusversiot ja äänitiedostopaketit ovat ladattavissa Kielipankin latauspalvelusta.

Annotaatioihin pohjautuvien hakujen tekeminen LAT-alustalla (ja ELAN-ohjelmalla)

Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta helpuhe-solmua ja valitse annotation content search). Trova-ikkunan yläosasta voidaan rastittaa, minkätyyppisiin annotaatiotiedostoihin haku kohdistetaan: ELAN-muotoisiin .eaf-tiedostoihin, Praat-muotoisiin .TextGrid-tiedostoihin ja/tai kohdistamattomiin .txt-raakatekstitiedostoihin.

Myös vanhemmista korpusversioista voi tehdä hakuja omalle koneelle asennetulla ELAN-ohjelmalla. Koko korpus tai osakorpus täytyy tällöin ensin ladata Kielipankin latauspalvelusta. ELANissa voi käyttää toimintoa Search: Structured Search Multiple eaf, joka toimii vastaavalla periaatteella kuin LAT-palvelun Trova-työkalu. Hakualueeksi (Define Domain) määritellään ELANissa se hakemisto/hakemistot, johon korpuspaketit on purettu.

ELAN-hakujen tekemisestä on tulossa myöhemmin lisäohjeita.

Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyyppi (Tier type) on interviewer speech, kun taas kaikki speech-tyyppiset kerrokset liittyvät joko varsinaisten haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun kohdistetaan Single Layer- tai Multiple Layer -haku tietyntyyppisiin kerroksiin, voidaan etsiä osumia pelkästään haastateltavien vs. haastattelijoiden puheesta. 1970-luvun aineistoon on merkitty näkyviin haastattelijan nimikirjaimet, mutta 1990-luvun ja 2010-luvun aineistossa haastattelijan vuorot on merkitty pelkällä H-kirjaimella.

Osa aineistosta on koodattu temaattisesti ts. asiasanoitettu puheenaiheen mukaan. Tietyt asiasanat on merkitty samaa aihetta käsittelevän osuuden kohdalle 1-3 annotaatiokerrokseen. Näiden kerrosten nimet ovat annotaatiotiedostoissa asiasana1, asiasana2 ja asiasana3. Asiasanoja voi hakea valitsemalla kohteena olevan kerroksen tyypiksi Tier type: thematic keyword.

Muutamiin annotaatiotiedostoihin on myös merkitty referointiosuuksia (Tier type: reference) sekä nimiä (Tier type: name).

Korpuksen tuottajat

Helsingin puhekielen aineistohankkeen käynnisti prof. Terho Itkonen Helsingin yliopistossa. Vuodesta 1976 lähtien hanketta johti prof. Heikki Paunonen. 1970-luvun osa-aineisto on kerätty Itkosen ja Paunosen johdolla. 1990-luvun osakorpuksen aineisto kerättiin vuosina 1991–92, jolloin hankkeen johtajana jatkoi prof. Heikki Paunonen. Vuonna 2013 toteutetussa, Koneen Säätiön rahoittamassa jatkohankkeessa kerättiin 2010-luvun osa-aineisto, jonka haastatteluista ja litterointityöstä vastasivat tutkimusavustajina suomen kielen opiskelijat Saila Marttila, Sanni Surkka ja Suvi Syrjänen. Hankkeen johtajana toimi Hanna Lappalainen Helsingin yliopiston suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitokselta. Aineiston temaattisen koodauksen suunnittelusta ja toteutuksesta vastasi FT Pauliina Latvala, joka työskenteli hankkeessa apurahatutkijana.

Lisätietoa Helsingin puhekielen pitkittäiskorpus -aineistohankkeesta

Korpuksen versiot

Korpuksen ensimmäinen versio helpuhe1 on ladattavissa tiedostopaketteina Kielipankin latauspalvelusta (http://urn.fi/urn:nbn:fi:lb-2014073041).

Korpuksen toinen, annotaatioiden osalta päivitetty versio (helpuhe-v2, http://urn.fi/urn:nbn:fi:lb-2016041424) tulee myöhemmin saataville latauspaketteina.

Aineistosta on tekeillä myös Kielipankin Korp-palvelun kautta käytettävä versio.


Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2025120402

Corpus of Border Karelia (finka)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.

The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.

The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.

Litterointimerkkien kuvaus (pdf)

 

Content corresponding to the previous LAT version of the material is now available in the Language Bank download service

The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.

License and access

  • The versions of this resource are available publicly (PUB).
  • Click on the license image to see the resource-specific license text.

 

 


The Movie Corpus (Mark Davies, english-corpora.org) – Kielipankki version

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This resource contains a copy of the original Movie Corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 200 million words from about 25,000 movies from the years 1930-2018. The movie scripts come from several different English-speaking countries and include English from the US, UK and 4 other dialects.

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.

Korp versions

  • Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
  • Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

  • Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
  • To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
  • To access the download service, click on the link under ’Location’, or see the metadata record for the link.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112805

Corpus of Global Web-Based English (GloWbE)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The Corpus of Global Web-Based English (GloWbE) contains about 1.8 billion words from web pages in the United States, Great Britain, Australia, India, and 16 other countries. About 60 % of the texts come from blogs. It is unique in the way that it allows you to carry out comparisons between different varieties of English. The original, frequently updated version of GloWbE is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of GloWbE under a restricted academic license that is available for users affiliated with a university in Finland.

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.

Korp versions

  • Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
  • Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

  • Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
  • To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
  • To access the download service, click on the link under ’Location’, or see the metadata record for the link.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112804

The Coronavirus Corpus (Mark Davies, english-corpora.org) – Kielipankin versio

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The Coronavirus Corpus contains data on the medical, social, cultural, and economic impact of the coronavirus (COVID-19) from online magazines and newspapers in 20 different English-speaking countries from 1 Jan 2020 to 31 May 2021.  The original version is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of the corpus under a restricted academic license that is available for users affiliated with a university in Finland.

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.

Korp versions

  • Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
  • Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

  • Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
  • To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
  • To access the download service, click on the link under ’Location’, or see the metadata record for the link.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112803

Corpus of Historical American English (coha)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The Corpus of Historical American English (COHA) is the largest structured corpus of historical English. The corpus is balanced by genre across the decades. The original version of COHA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COHA under a restricted academic license that is available for users affiliated with a university in Finland.

For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.

Korp versions

  • Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
  • Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

  • Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
  • To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
  • To access the download service, click on the link under ’Location’, or see the metadata record for the link.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112802

Corpus of Contemporary American English (coca)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The Corpus of Contemporary American English (COCA) is a very large corpus of American English. The original, frequently updated version of COCA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COCA under a restricted academic license that is available for users affiliated with a university in Finland.

For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.

Korp versions

  • Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
  • Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

  • Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
  • To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
  • To access the download service, click on the link under ’Location’, or see the metadata record for the link.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112801

Viimeksi muokattu 2025-12-01

Hae Kielipankki-portaalista:
Max Wahlström
Kuukauden tutkija: Max Wahlström

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot