Mink

At kielipankki.fi/future/mink, a browser-based tool called Mink is available, where users logged in via Haka can upload their own text materials for processing. The file formats supported by Mink include plain text (UTF-8), XML (where the analysis pipeline preserves the structures), Microsoft Word (.docx), Open Document (.odt), PDF, and CoNLL-U.

You can perform advanced searches on your own text corpora within the Korp environment accessible through the Mink service. If necessary, texts can first be automatically parsed and annotated in Mink, which improves the search capabilities in Korp. For now, the Mink platform supports lemmatization (i.e., the analysis of the base forms of the words) as well as morphological and dependency-based syntactic analysis for Finnish, Swedish, and English text, and the recognition of named phrases in English text. In addition to using your corpus via Korp, you can also save the analyzed texts to your own computer.

With Mink, users can prepare, test, and explore their own Korp corpus. For now, only the user themselves can access the materials they have transferred to the Korp environment within Mink. At a later stage, the plan is to make it possible to share the data stored in Mink with the members of the user’s own research group, for example. Separate arrangements can also be made to make the finalized corpus available to other researchers through the public Korp service of the Language Bank.

For now, more detailed instructions on how to use Mink can be found on the Swedish Språkbanken website. Please note that the Mink environment developed by Språkbanken has been slightly adapted for users of the Language Bank of Finland, so not all features work in exactly the same way in both Mink services.

The Mink platform is currently being further developed, and the Language Bank welcomes feedback on its functionality; see contact information.

Access Mink

Mink (Språkbanken Text)

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026042421

Mink – omien aineistojen analysointi ja vienti Korpiin

Name: ASTIN: Language Technologies in the Nordic Countries 2026
Start: 2026-11-10T00:00:00+02:00
End: 2026-11-11T23:59:59+02:00
Location: Helsinki

In English

Osoitteessa kielipankki.fi/future/mink on käytettävissä selainpohjainen työkalu Mink, johon Haka-kirjautuneet käyttäjät voivat viedä käsiteltäviksi omia tekstiaineistojaan. Minkissä tuetut aineistoformaatit ovat muotoilematon teksti (utf-8), XML (jonka sisältämät rakenteet analyysiputki säilyttää), Microsoft Word (.docx), Open Document (.odt), PDF ja CoNLL-U.

Omista tekstiaineistoista voi tehdä edistyneitä hakuja Mink-palvelun sisällä näkyvässä Korp-ympäristössä. Tekstit voi tarvittaessa ensin automaattisesti jäsentää ja annotoida Minkissä, jolloin Korpin hakumahdollisuudet paranevat. Mink-alusta tukee toistaiseksi lemmatisointia (eli sanojen perusmuotoistusta) sekä morfologista ja dependenssisyntaktista analyysia suomen-, ruotsin- ja englanninkieliselle tekstille sekä nimettyjen ilmausten tunnistusta englanninkieliselle tekstille. Korpin lisäksi analyysin tulokset voi myös tallentaa takaisin omalle koneelle.

Minkin avulla käyttäjä voi siis valmistella, kokeilla ja tutkia omaa Korp-korpustaan. Toistaiseksi vain käyttäjä itse pääsee käyttämään Minkin Korp-ympäristöön siirtämäänsä aineistoa. Myöhemmässä vaiheessa on tarkoitus, että Minkissä olevaa aineistoa olisi mahdollista jakaa esimerkiksi oman tutkimusryhmän jäsenten kanssa. Erikseen voidaan myös sopia valmiin korpuksen toimittamisesta muiden tutkijoiden saataville Kielipankin yhteisen Korp-palvelun kautta.

Tarkempia ohjeita Minkin käyttöön löytyy toistaiseksi ruotsalaisen Språkbankenin sivuilta. Huomaa, että Språkbankenissa kehitettyä Mink-ympäristöä on jonkin verran sovitettu suomalaisen Kielipankin käyttäjiä varten, joten kaikki ominaisuudet eivät välttämättä toimi samalla tavalla molemmissa Mink-palveluissa.

Mink-ympäristöä kehitetään edelleen ja Kielipankki ottaa vastaan palautetta Minkin toimivuudesta, ks.yhteystiedot.

Avaa Mink

Mink (Språkbanken Text)

Tämän aineistoryhmäsivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026042422

Ha-kieliaineisto (ha-corpus)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Aineisto sisältää eri tyyppisten puhutun han kielen näytteiden (tarinat ja elisitoidut lauseet) tekstimuotoisia litteraatteja. Näytteet on kerätty Kibondon, Kasulun ja Kigoman kaupungeissa ja niiden ympäristössä Länsi-Tansaniassa vuosina 199, 2000 ja 2003. Alkuperäiset litteraatit on peudonymisoitu.
Han kieltä (ISO 639-3: haq; Suurten järvien bantukieli JD66; vaihtoehtoiset nimet igiha, giha, kiha) puhutaan Länsi-Tansaniassa Kigoman läänissä. Se on läheistä sukua esimerkiksi Burundissa puhuttavalle rundin kielelle ja Ruandan kinyaruandalle. Ha on yksi Tansanian suurimmista kielistä: sitä puhuu noin 1,2 miljoonaa ihmistä.

Aineiston keruu ja analyysi on tarkemmin kuvattu seuraavassa han kielioppia ja sanastoa käsittelevässä teoksessa:
Harjula, Lotta, 2004. The Ha Language of Tanzania: Grammar, Texts, and Vocabulary. East African Languages and Dialects 13. Köln: Köppe. ISBN 978-3-89645-027-2.

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026042402

Ha Language Corpus (ha-corpus)

Suomeksi

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Resource information

This corpus of spoken Ha language consists of transcripts of elicited types of natural speech (stories and elicited sentences) collected in the towns of Kibondo, Kasulu and Kigoma and nearby regions in Tanzania during the years 1997, 2000 and 2003. The original transcripts have been pseudonymized.
Ha language (ISO 639-3: haq; Great Lakes Bantu language JD66; alternative names Igiha, Giha, Kiha) is spoken in Western Tanzania in the Kigoma region. It is closely related to, for example, Rundi of Burundi and Kinyarwanda of Rwanda. Ha is one of biggest languages in Tanzania with approximately 1,2 million speakers.

The collection and analysis of the corpus data is described in the following publication:
Harjula, Lotta 2004. The Ha Language of Tanzania: Grammar, Texts, and Vocabulary. East African Languages and Dialects 13. Cologne: Köppe. ISBN 978-3-89645-027-2.

License and access

The versions of this resource are available publicly (PUB).
Click on the license image to see the resource-specific license text.

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2026042401

Pohjoismainen podcast-tietokanta (PLIS)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Tämä aineisto koostuu pohjoismaisesta tietokannasta, joka sisältää podcasteja ja niiden transkriptioita. Tietokanta koottiin alun perin vertailututkimusta varten, jossa tarkasteltiin englannista peräisin olevia pragmaattisia lainasanoja pohjoismaisissa kielissä ja suomessa. Se sisältää aineistoa tanskaksi, suomeksi, islanniksi, norjaksi ja ruotsiksi (suomenruotsi ja Ruotsissa puhuttu ruotsi). Aineisto on kerätty vuonna 2025, ja se on peräisin pääasiassa vuodelta 2024.
Aineisto on merkitty kunkin kielen kirjallisten kieliopillisten sääntöjen mukaisesti. Uudemmat englannista peräisin olevat lainasanat ja kieltenvaihto on korostettu.

Lisenssi ja pääsy aineistoon

Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
(Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.)
(Joidenkin tämän aineiston versioiden kopio voi olla saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake).)

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026040104

The Nordic database of podcasts (PLIS)

Suomeksi

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Resource information

This resource consists of a Nordic database of podcast recordings and their transcripts. The database was originally compiled for a comparative study of English pragmatic loanwords in the Nordic languages and Finnish.
It contains material in Danish, Finnish, Icelandic, Norwegian, and Swedish (Finland Swedish and Swedish spoken in Sweden). The material was collected in 2025 and dates mainly from 2024.
The material has been annotated in accordance with the written language conventions of each language. More recent loanwords from English and code-switching have been highlighted.

License and access

Some versions of this resource are available publicly (PUB), whereas others require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
Click on the license image to see the resource-specific license text.
(Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.)
(Some versions of this resource are available in the computing environment (see column ’Location’). )

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2026040103

finnish-parse

The tool parses running Finnish text using TurkuNLP’s TNPP, and visualises with CoNLL-U viewer from The University of Groningen

The text is first parsed into a dependency parse tree in CoNLL-U format, and then visualised with dependency arrows that connect words in a sentence with each other.

NOTE: This tool is currently available as a demo version.

Access to the demo version.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026031901

Tampereen puhekielen pitkittäiskorpus (1970, 1990, 2010) (tampuhe)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Tampereen puhekielen pitkittäisaineisto koostuu haastatteluäänitteistä, jotka on kerätty sosiolingvististä pitkittäistutkimusta varten. Tutkimuksen juuret ovat 1970-luvulla käynnistyneessä Nykysuomalaisen puhekielen murros -hankkeessa. Hankkeen yhteydessä kerättiin laajat kaupunkipuhekielen aineistot neljässä suomalaisessa yliopistokaupungissa: Tampereella, Helsingissä, Turussa ja Jyväskylässä. Tampereen puhekielen pitkittäisaineisto on toteutustavaltaan samanlainen kuin Helsingin puhekielen pitkittäiskorpus (http://urn.fi/urn:nbn:fi:lb-2021052503). Sekä Helsingissä että Tampereella tehtiin vielä uusintakierrokset 1990- ja 2010-luvuilla osittain samojen haastateltavien kanssa. Seurantamateriaalin avulla on mahdollista tutkia myös ajan myötä tapahtuvia muutoksia puhekielessä ja murteissa.

Lisenssi ja pääsy aineistoon

Tämän aineiston versioihin täytyy hakea erikseen henkilökohtaista käyttöoikeutta (RES). Hae käyttöoikeutta
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Kaikki tämän aineiston versioihin sisältyy henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin sisältyy erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.)

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2026012022

The Longitudinal Corpus of Finnish Spoken in Tampere (1970s, 1990s and 2010s) (tampuhe)

Suomeksi

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Resource information

The material consists of interview recordings collected for a sociolinguistic longitudinal study. The roots of the study lie in the project ‘Nykysuomalaisen puhekielen murros’ (The Transformation of Contemporary Finnish Colloquial Language), which was launched in the 1970s. As part of the project, extensive urban colloquial language data was collected in four Finnish university cities: Tampere, Helsinki, Turku, and Jyväskylä.
The longitudinal corpus of Tampere colloquial language is similar in its implementation to the longitudinal corpus of Helsinki colloquial language (http://urn.fi/urn:nbn:fi:lb-2021052503). Both in Helsinki and Tampere follow-up rounds were conducted in the 1990s and 2010s, partly with the same interviewees.
The follow-up material also makes it possible to study changes in spoken language and dialects over time.

License and access

This resource requires you to apply for individual access rights (RES). Apply
Click on the license image to see the resource-specific license text.
All versions of this resource contain personal data (license condition +PRIV). The license includes additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.)

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2026012021

Whisper

Whisper is a general-purpose speech recognition model. It is trained on a large dataset of diverse audio and is also a multitasking model that can perform multilingual speech recognition, speech translation, and language identification.

Whisper home page

Whisper can be installed to a SD Desktop virtual machine with SD Software installer.

The version provided for SD Desktop is based on Faster-Whisper-XXL.

After installation, Whisper is available as a command-line tool in SD Desktop.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020504

WebMAUS

This web service inputs a media file with a speech signal and a text file with a corresponding orthographic transcript, and computes a word segmentation and a phonetic segmentation and labeling.

The tools were developed at the Institute for Phonetics and Speech Processing in Munich, in the context of CLARIN-D.

For more information see the tutorial.

Access the web service

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020503

VRT tools

These command-line tools implement composable manipulations of segmented and annotated text in a VRT format aka verticalized text, related to Corpus WorkBench that is used in the back-end to the Korp concordance engine.

The basic function of the VRT tools is to preserve previous annotations, including structural markup that may contain valuable information about the text units, without the underlying tools even knowing that their input sentences are extracted from such context. New annotations from an underlying tool are added to their proper place in the input document.

The major innovation in FIN-CLARIN VRT is the use of names for the fields that are only positional in basic format. In the basic format the declaration of names is only a comment but these VRT tools use it extensively.

For more information see the README

Access on GitHub

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026020502

COMEDI

COMEDI is a Web-based editor for CMDI-conformant metadata, as adopted by CLARIN, hosted by the CLARINO Bergen CLARIN Centre.

With COMEDI, you can interactively create new CMDI Metadata records, or upload and modify existing metadata. A metadata record in COMEDI can be exported as a CMDI XML file. It can also be harvested with OAI-PMH.

In order to use COMEDI, you have to sign in. Login is necessary to write protect your metadata records from other users.

The metadata for all resources provided by the Language Bank of Finland is maintained and provided using COMEDI.

For further information on how to use COMEDI, please see the Documentation

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026012901

Lakitutka

Lakitutka, ”the Law Radar”, compiles public documents generated during the legislative process into a single search service, covering the entire preparatory process. At the same time, Lakitutka offers everyone better access to background material on legislation that affects their everyday lives.

Lakitutka’s document materials are retrieved from The Government Project Register Hankeikkuna, Eduskunta Open Data Online Service and Finlex Open Data service.

This content search tool was developed at the University of Turku.

Access the website

More information about the project

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026012903

Trankit

Trankit is a light-weight Transformer-based Python Toolkit for multilingual Natural Language Processing (NLP).

Trankit can process inputs which are untokenized (raw) or pretokenized strings, at both sentence and document level.

This tool is installed in CSC’s computing environment (’module load trankit’).

The current version is Trankit v1.0.0

For more details, please see Trankit’s Documentation.

Currently, Trankit supports the following tasks:

Sentence segmentation.
Tokenization.
Multi-word token expansion.
Part-of-speech tagging.
Morphological feature tagging.
Dependency parsing.
Named entity recognition.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2026011402

Suomalais-Ugrilaisen Seuran tekstikokoelmat (sus-texts)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Kokoelma sisältää Suomalais-Ugrilaisen Seuran digitoimia kielennäytteitä (10 nidettä, digitoituja ja kauttaaltaan oikoluettuja) käännöksineen (saksa tai suomi) kappaletasolla kohdistettuna. Näytteet on julkaistu Suomalais-Ugrilaisen Seuran Toimituksia ja Castrenianumin toimitteita -sarjoissa. Kyseessä on otos Seuran julkaisutoiminnasta. Kokoelma on Suomen tiedekustantajien liiton rahoituksella toteutettu pilotti, joka edeltää Seuran teosten laajamittaisempaa julkaisemista korpusmuodossa. Ensimmäiseen otokseen sisällytetyt teokset edustavat muun muassa liivin, vepsän, komin ja udmurtin kieliä.

Teokset on julkaistu PDF-muodossa Edition.fi-palvelussa, ja Kielipankin korpuksesta on sivukohtaiset linkit teoksiin. Korpuksesta on mahdollista tehdä hakuja sekä alkuperäisellä suomalais-ugrilaisella tarkekirjoituksella että kielten nykyortografioilla, jotka on tuotettu automaattisesti. Annotaatiot on tuotettu automaattisesti GiellaLT:n infrastruktuuria hyödyntäen.

Lisenssi ja pääsy aineistoon

Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
(Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.)

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112004

Text Collections of the Finno-Ugrian Society (sus-texts)

Suomeksi

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Resource information

The collection consists of language samples digitized by the Finno-Ugrian Society (10 volumes, digitized and proofread in their entirety) with their translations (German, Finnish or Russian ) aligned at the paragraph level. The text samples have been published in the series ”Suomalais-Ugrilaisen Seuran Toimituksia” and ”Castrenianumin toimitteita”. This represents an excerpt of the Society’s publications. The collection has been made as a pilot with funding from the Finnish Association for Scholarly Publishing. It is a forerunner to a more extensive corpus publication project by the Society. Works included in the first excerpt provide a broad sample of the Livonian, Veps, Komi and Udmurt languages.

The works have been published in PDF format through the ”Edition.fi” service and in text format on the Language Bank of Finland KORP server. The KORP search engine makes it possible to search using the original Finno-Ugric Transcription of the texts or modern orthography, the latter of which has been produced automatically. Search results have page-specific links to the PDF publications at ”Edition.fi”. Annotations have been produced automatically using finite-state descriptions of the individual languages constructed on the GiellaLT infrastructure.

License and access

Some versions of this resource are available publicly (PUB), whereas others require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
Click on the license image to see the resource-specific license text.
(Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.)

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025112003

The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s) (helpuhe)

Suomeksi

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Tietoa aineistosta

Helsingin puhekielen pitkittäiskorpus koostuu eri-ikäisten syntyperäisten helsinkiläisten äänitallennetuista yksilöhaastatteluista. Aineistoa on kerätty kolmella vuosikymmenellä, vuosina 1972–74, 1991–92 sekä 2013.

Tietoa tämän aineiston LAT-version poistumisesta vuoden 2020 lopussa

Kielipankin LAT-alusta on poistunut käytöstä vuonna 2020. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta, mutta LATissa ollut sisältö on edelleen saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Korpuksen rakenne

Korpus on jaettu kolmeen pääosaan äänitysten vuosikymmenen mukaisesti: 1970, 1990 ja 2010. Sosiolingvististä tutkimusta varten 1970-luvun aineisto on jaettu osiin haastateltavan asuinkaupunginosan mukaan (S=Sörnäinen, T=Töölö). Myöhemmin kerätyissä osa-aineistoissa tästä kaupunginosajaosta ei enää nuorten puhujien osalta ole pidetty kiinni, vaan S- ja T-koodit viittaavat pikemminkin puhujien koulutustaustaan (S=ammattikoululainen, T=lukiolainen). Jokainen osakorpus on jaoteltu lisäksi haastateltavan ikäryhmän (1=vanhimmat, 2=keski-ikäiset, 3=nuoret) mukaan.

Osakorpuksissa on mukana osittain samoja haastateltavia. Vuosina 1991-1992 tavoitettiin 29 haastateltua 1970-luvulla tehdyn tutkimuksen kahdesta nuorimmasta ikäryhmästä sekä otettiin tutkittavaksi uusi nuorten ryhmä (16 haastateltavaa). Vuonna 2013 toteutetussa jatkohankkeessa haastateltiin 27:ää 1990-luvun informanteista sekä otettiin tutkittavaksi uusi nuorten ryhmä (yht. 16). Aiempien kierrosten tavoin aineisto kerättiin yksilöhaastatteluin. 13 informantille kyseessä oli jo kolmas haastattelu.

Puhujat on merkitty koodeilla F(nainen) tai M(mies) + juokseva numero. Näillä koodeilla samat henkilöt on myös yksilöity kaikkien kolmen osa-aineiston välillä: tiettyyn puhujaan viitataan aina samalla koodilla, kun hän esiintyy useammassa kuin yhdessä osakorpuksessa.

Osakorpusten sisältö

1970-luvun osa-aineistosta on saatavilla litteroidut tekstit pääosin vain kohdistamattomina tekstitiedostoina (.txt) ja erillisinä, kokonaisen haastattelun pituisina äänitiedostoina (.wav). Litteroitu osuus kattaa noin puoli tuntia kustakin haastattelusta. Pieni osa litteroinneista on myös kohdistettu ääneen.
1990-luvun osakorpuksesta on tarjolla osaksi pelkät äänitiedostot, osaksi kohdistetut litteroinnit vastaavasti kuin 1970-luvun osuudesta. Huomaa, että litterointityyli on jossakin määrin erilainen kuin 1970-luvun osa-aineistossa.
2010-luvun osakorpus on litteroitu suoraan äänitiedostoon kohdistettuna.

Kaikkien kolmen osakorpuksen äänitiedostoihin kohdistetut annotaatiot ovat saatavilla sekä ELAN-ohjelmalla toimivassa .eaf-muodossa että Praat-ohjelmalla toimivassa .TextGrid-muodossa.

Versio 1 (helpuhe1):

Vuonna 2013 toteutetussa Helsingin puhekielen pitkittäiskorpus -hankkeessa kerättiin 2010-lukua edustava osa-aineisto sekä jalostettiin aiemmin 1970- ja 1990-luvuilla hankittu aineisto digitaaliseksi korpukseksi, mikä parantaa huomattavasti sen käytettävyyttä. Pitkittäiskorpus koostuu digitaalisista äänitiedostoista, jotka ovat kuunneltavissa kokonaisuudessaan, ja niihin liitettävistä litteroinneista, jotka kattavat tässä aineistoversiossa noin puoli tuntia kustakin haastattelusta. Litteraatit on suuressa osassa aineistoa kohdistettu äänitiedostojen vastaaviin kohtiin, jolloin litteroinnin perusteella voi tehdä hakuja ja hakuosumia vastaavia äänitteiden kohtia pääsee suoraan kuuntelemaan. Lisäksi suureen osaan ääniaineistoa on kohdistettu asiasanoja, joiden avulla voidaan tehdä myös aiheenmukaisia hakuja esimerkiksi kulttuurin- ja historiantutkimuksen tarpeisiin.

Versio 2 (helpuhe-v2):

Korpuksen toinen versio sisältää 1970-, 1990- ja 2010-luvun osa-aineistojen annotaatiotiedostojen päivityksiä: joko uusia litteraatteja äänitiedostoihin, joita ensimmäisessä versiossa ei ollut lainkaan litteroitu, tai 1970-luvun osa-aineiston kohdalla vanhojen litteraattien kohdistettuja versioita. Osa aikaisemmista litteroinneista on myös päivitetty tai äänitteestä on saatettu litteroida pitempi pätkä. Yhteensä 83 äänitiedostoon liittyviä annotaatioita on päivitetty tai lisätty. Uusia äänitteitä ei siis tätä versiota varten kerätty.

Käyttöohjeita

Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta LAT-alustalla. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. 1970-T1M2C_1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Litteroinnit ja muu annotaatio

Aineiston litteroinnit ja muu annotaatio ovat saatavilla Praat-ohjelman käyttämässä TextGrid-muodossa sekä ELAN-ohjelman käyttämässä EAF-muodossa. Annotaatiotiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi joko ELAN- tai Praat-ohjelmalla. Kummassakin tapauksessa on ladattava annotaatiotiedoston pariksi myös sitä vastaava WAV-muotoinen äänitiedosto.

LAT-alustalla olevat äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa yksitellen myös ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. !M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

Huom! Haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja erityisesti vanhimmat nauhat on digitoitu vasta myöhemmin. Tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.

Annotaatiotiedostojen sisältö

Koko 2010-luvun osa-aineistosta sekä osittain myös 1990- ja 1970-lukujen osa-aineistoista on saatavilla ääneen kohdistetut litteraatit (.eaf, .TextGrid). Litteraatin perusteella voidaan siis tehdä hakuja ja kuunnella karkeasti kutakin hakutulosta vastaava ääninäytteen kohta. Osa 1970- ja 1990-luvun aineistosta on kuitenkin saatavilla vain erillisinä teksti- (.txt) ja äänitiedostoina (.wav).

Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.

Tiedostojen lataaminen omalle koneelle

Tiedostoja voi ladata LATista yksitellen omalle koneelle komennolla download (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta Download all resources. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Vanhemmat korpusversiot ja äänitiedostopaketit ovat ladattavissa Kielipankin latauspalvelusta.

Annotaatioihin pohjautuvien hakujen tekeminen LAT-alustalla (ja ELAN-ohjelmalla)

Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta helpuhe-solmua ja valitse annotation content search). Trova-ikkunan yläosasta voidaan rastittaa, minkätyyppisiin annotaatiotiedostoihin haku kohdistetaan: ELAN-muotoisiin .eaf-tiedostoihin, Praat-muotoisiin .TextGrid-tiedostoihin ja/tai kohdistamattomiin .txt-raakatekstitiedostoihin.

Myös vanhemmista korpusversioista voi tehdä hakuja omalle koneelle asennetulla ELAN-ohjelmalla. Koko korpus tai osakorpus täytyy tällöin ensin ladata Kielipankin latauspalvelusta. ELANissa voi käyttää toimintoa Search: Structured Search Multiple eaf, joka toimii vastaavalla periaatteella kuin LAT-palvelun Trova-työkalu. Hakualueeksi (Define Domain) määritellään ELANissa se hakemisto/hakemistot, johon korpuspaketit on purettu.

ELAN-hakujen tekemisestä on tulossa myöhemmin lisäohjeita.

Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyyppi (Tier type) on interviewer speech, kun taas kaikki speech-tyyppiset kerrokset liittyvät joko varsinaisten haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun kohdistetaan Single Layer- tai Multiple Layer -haku tietyntyyppisiin kerroksiin, voidaan etsiä osumia pelkästään haastateltavien vs. haastattelijoiden puheesta. 1970-luvun aineistoon on merkitty näkyviin haastattelijan nimikirjaimet, mutta 1990-luvun ja 2010-luvun aineistossa haastattelijan vuorot on merkitty pelkällä H-kirjaimella.

Osa aineistosta on koodattu temaattisesti ts. asiasanoitettu puheenaiheen mukaan. Tietyt asiasanat on merkitty samaa aihetta käsittelevän osuuden kohdalle 1-3 annotaatiokerrokseen. Näiden kerrosten nimet ovat annotaatiotiedostoissa asiasana1, asiasana2 ja asiasana3. Asiasanoja voi hakea valitsemalla kohteena olevan kerroksen tyypiksi Tier type: thematic keyword.

Muutamiin annotaatiotiedostoihin on myös merkitty referointiosuuksia (Tier type: reference) sekä nimiä (Tier type: name).

Korpuksen tuottajat

Helsingin puhekielen aineistohankkeen käynnisti prof. Terho Itkonen Helsingin yliopistossa. Vuodesta 1976 lähtien hanketta johti prof. Heikki Paunonen. 1970-luvun osa-aineisto on kerätty Itkosen ja Paunosen johdolla. 1990-luvun osakorpuksen aineisto kerättiin vuosina 1991–92, jolloin hankkeen johtajana jatkoi prof. Heikki Paunonen. Vuonna 2013 toteutetussa, Koneen Säätiön rahoittamassa jatkohankkeessa kerättiin 2010-luvun osa-aineisto, jonka haastatteluista ja litterointityöstä vastasivat tutkimusavustajina suomen kielen opiskelijat Saila Marttila, Sanni Surkka ja Suvi Syrjänen. Hankkeen johtajana toimi Hanna Lappalainen Helsingin yliopiston suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitokselta. Aineiston temaattisen koodauksen suunnittelusta ja toteutuksesta vastasi FT Pauliina Latvala, joka työskenteli hankkeessa apurahatutkijana.

Lisätietoa Helsingin puhekielen pitkittäiskorpus -aineistohankkeesta

Korpuksen versiot

Korpuksen ensimmäinen versio helpuhe1 on ladattavissa tiedostopaketteina Kielipankin latauspalvelusta (http://urn.fi/urn:nbn:fi:lb-2014073041).

Korpuksen toinen, annotaatioiden osalta päivitetty versio (helpuhe-v2, http://urn.fi/urn:nbn:fi:lb-2016041424) tulee myöhemmin saataville latauspaketteina.

Aineistosta on tekeillä myös Kielipankin Korp-palvelun kautta käytettävä versio.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2025120402

Corpus of Border Karelia (finka)

Suomeksi

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Resource information

The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.

The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.

The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.

Litterointimerkkien kuvaus (pdf)

Content corresponding to the previous LAT version of the material is now available in the Language Bank download service

The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.

License and access

The versions of this resource are available publicly (PUB).
Click on the license image to see the resource-specific license text.

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025120401

The Movie Corpus (Mark Davies, english-corpora.org) – Kielipankki version

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

This resource contains a copy of the original Movie Corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 200 million words from about 25,000 movies from the years 1930-2018. The movie scripts come from several different English-speaking countries and include English from the US, UK and 4 other dialects.

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.

Korp versions

Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
To access the download service, click on the link under ’Location’, or see the metadata record for the link.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112805

Last modified on 2025-12-03

Search the Language Bank Portal:

Researcher of the Month: Mari Myllylä

Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information

Mink

Mink – omien aineistojen analysointi ja vienti Korpiin

Ha-kieliaineisto (ha-corpus)

Saatavilla olevat versiot

Tulossa olevat versiot

Tietoa aineistosta

Lisenssi ja pääsy aineistoon

Ha Language Corpus (ha-corpus)

Currently available versions of this resource

Upcoming versions of this resource

Resource information

License and access

Pohjoismainen podcast-tietokanta (PLIS)

Saatavilla olevat versiot

Tulossa olevat versiot

Tietoa aineistosta

Lisenssi ja pääsy aineistoon

The Nordic database of podcasts (PLIS)

Currently available versions of this resource

Upcoming versions of this resource

Resource information

License and access

finnish-parse

Tampereen puhekielen pitkittäiskorpus (1970, 1990, 2010) (tampuhe)

Saatavilla olevat versiot

Tulossa olevat versiot

Tietoa aineistosta

Lisenssi ja pääsy aineistoon

The Longitudinal Corpus of Finnish Spoken in Tampere (1970s, 1990s and 2010s) (tampuhe)

Currently available versions of this resource

Upcoming versions of this resource

Resource information

License and access

Whisper

WebMAUS

VRT tools

COMEDI

Lakitutka

Trankit

Suomalais-Ugrilaisen Seuran tekstikokoelmat (sus-texts)

Saatavilla olevat versiot

Tulossa olevat versiot

Tietoa aineistosta

Lisenssi ja pääsy aineistoon

Text Collections of the Finno-Ugrian Society (sus-texts)

Currently available versions of this resource

Upcoming versions of this resource

Resource information

License and access

The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s) (helpuhe)

Currently available versions of this resource

Upcoming versions of this resource

Tietoa aineistosta

Tietoa tämän aineiston LAT-version poistumisesta vuoden 2020 lopussa

Korpuksen rakenne

Osakorpusten sisältö

Versio 1 (helpuhe1):

Versio 2 (helpuhe-v2):

Käyttöohjeita

Litteroinnit ja muu annotaatio

Annotaatiotiedostojen sisältö

Tiedostojen lataaminen omalle koneelle

Annotaatioihin pohjautuvien hakujen tekeminen LAT-alustalla (ja ELAN-ohjelmalla)

Korpuksen tuottajat

Korpuksen versiot

Corpus of Border Karelia (finka)

Currently available versions of this resource

Upcoming versions of this resource

Resource information

Content corresponding to the previous LAT version of the material is now available in the Language Bank download service

License and access

The Movie Corpus (Mark Davies, english-corpora.org) – Kielipankki version

Saatavilla olevat versiot

Tulossa olevat versiot

Tietoa aineistosta

Lisenssi ja pääsy aineistoon

Korp versions

Downloadable versions

News

Contact