Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The University of Oulu Päätalo collection contains the literary output of the author Kalle Päätalo published so far. The works are to be made available via the Language Bank of Finland as several text corpora, the first of which was the Iijoki corpus.
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
The available resources can be accessed by logging in as an academic user (”ACA”). Click on the license image to see the resource-specific license text.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023110921
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon tähän asti julkaistun kirjallisen tuotannon. Teoksia tuodaan saataville Kielipankin kautta useina kokonaisuuksina, joista ensimmäinen oli Iijoki-korpus.
Toisessa vaiheessa on tarkoitus julkaista korpusmuodossa seuraavat teokset:
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän aineiston versioihin täytyy kirjautua akateemisena käyttäjänä (ACA). Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2023110922
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Aineisto on kerätty Valenciassa, Espanjassa (2021-2022) ja Guadalajarassa, Meksikossa (2022-2023) osana Koneen Säätiön rahoittamaa tutkimushanketta ”Sukupuoli, yhteiskunta ja kielenkäyttö: näyttöä Meksikosta ja Espanjasta”. Tavoitteena on ollut luoda vertailukelpoinen korpus kummankin kaupungin puhutusta espanjasta, jotta voidaan tutkia puhujan sukupuolen, yhteiskunnallisten sukupuoliroolien ja -odotusten sekä puhutun kielen vaihtelun välisiä yhteyksiä yhdistämällä sosiolingvistisiä ja sosiaalipsykologisia menetelmiä.
Aineisto koostuu sosiolingvistisistä haastatteluista, jotka on jaettu osiin, joissa sukupuoli joko aktivoituu tai ei aktivoidu diskurssin aiheena, sekä kahdesta konfliktitilanteita simuloivasta roolileikistä, joissa informantti näyttelee yhtä ja haastattelija toista roolia. Informantit edustavat keskiluokkaista sosioekonomista taustaa, ja heidät on jaettu kahteen ikäryhmään, 30-40- ja 60-70-vuotiaisiin. Tarkka kuvaus aineistosta ja sosiolingvistisistä muuttujista on saatavilla aineiston mukana.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024030608
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The data have been collected as part of the research project Gender, society, and language use: evidence from Mexico and Spain funded by Kone Foundation in Valencia, Spain (2021-2022) and Guadalajara, Mexico (2022–2023). The objective has been to create a comparable corpus of spoken Spanish from each city to enable the study of the interconnections between speaker gender, societal gender roles and expectations and variation in spoken language combining sociolinguistic and social psychological methodologies.
The data consist of sociolinguistic interviews divided into parts where gender is vs. is not activated as discourse topic, and two role plays simulating conflictive situations, with the informant playing one role and the interviewer the other role. The informants represent a middle class socioeconomic background and are divided into two age groups, 30–40 and 60–70. A thorough description of the data and the sociolinguistic variables is available with the data.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024030607
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.
The Finnish Broadcast Corpus is divided into two main parts: FBC-1 and FBC-2.
The Finnish Broadcast Corpus 1, FBC-1 contains 65 radio and tv recordings broadcast by YLE – the Finnish Broadcasting Company during the year 2003. Parts of the audio and video material have been annotated either manually or automatically in various levels: e.g., utterance (orthographic transcript), word, phone. FBC-1 was compiled under an initiative called Integrated Resources for Speech Technology and Spoken Language Research in Finland, funded by the Academy of Finland. It is CSC’s first multimodal corpus.
Details of the size of FBC-2 are being updated.
The material in the FBC-1 represents four categories:
* Radio monologues
– broadcast telegraph news (24 × 3 minutes, Nov. 2003)
– broadcast lectures of the week (8 × 14 minutes).
* Radio dialogues
– unfinished recordings of the Moninaisuusfoorumi event (5 × 1h).
* TV monologues
– broadcast main news read by Arvi Lind ja Eeva Polttila (15 × 30 minutes, September – November 2003), including the very last news telecast by Arvi Lind on October 15, 2003
* TV dialogues
– broadcast Aamu-TV programs (13 × ca. 12 minutes, 2003).
Formats:
* WAV audio format
* HQ_Pure audio format (44,1–48 KHz) (supported by the Puh-Editor, which is now obsolete)
* HQ_Pure audio format (16 KHz) (supported by the Puh-Editor, which is now obsolete)
* MPEG2 video
Funding Project:
Puheteknologian ja puheentutkimuksen yhteiset resurssit Suomessa, Integrated Resources for Speech Technology and Spoken Language Research in Finland (SA-Puhe)
Funding Type: National Funds
Funder: Academy of Finland
Funding Country: Finland
Project duration: 01/01/2002 – 12/31/2004
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025032701
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Finnish Conversation Analysis Archive (FCAA) contains audio and video recordings of everyday and institutional conversations in Finnish. When possible, individual resources from the archive are going to be made available via the Language Bank of Finland.
The Finnish Conversation Analysis Archive is one of the largest collections of conversational Finnish speech in Finland. Currently, the archive contains more than 500 hours of audio and video recordings, of which about 100 hours have been transcribed. The corpus consists mainly of everyday speech (e.g., couples’ phone calls, family coffee table conversations and children’s games), but it also includes some institutional speech (business calls, conversations in the hairdressing salon, political TV debates and classroom conversations). Permission has been obtained from the participants and from the recording persons. The identity of the speakers is protected when using the material.
The archive includes not only the recordings and transcripts themselves, but also the bachelor’s theses written on the basis of this data. All the material is in electronic form, but for the time being only locally, at the Muoto-opin Archives in the main building of the University of Helsinki. The most common storage formats for audio files are mp3 and wav. Video material is available in formats such as mpg and wmv. There is a detailed electronic card index of the material.
Researchers may, under certain conditions, have access to the data for research purposes.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031103
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Helsingin yliopiston Keskusteluntutkimuksen arkisto sisältää ääni- ja videotallenteita suomenkielisistä arkipäivän ja institutionaalisista keskusteluista. Yksittäisiä aineistoja on tarkoitus ryhtyä julkaisemaan Kielipankissa, jos mahdollista. Julkaistavien aineistojen tiedot tulevat näkyviin tällä olevaan luetteloon.
Helsingin yliopiston suomen kielen oppiaineen yhteydessä sijaitseva Keskusteluntutkimuksen arkisto on yksi Suomen laajimmista suomenkielisen vuorovaikutuspuheen kokoelmista. Tällä hetkellä ääni- tai ääni- ja kuvanauhoitettua aineistoa on arkistossa yli 500 tuntia, josta litteroituna on noin 100 tuntia. Pääasiallisesti korpus koostuu arkipuheesta (mm. pariskuntien puheluita, perheen kahvipöytäkeskusteluja ja lasten leikkejä) mutta mukana on myös jonkin verran institutionaalista puhetta (asiointipuheluita, kampaamokeskusteluja, poliittisia tv-väittelyjä ja luokkahuonekeskustelua). Aineistoihin on saatu osallistujien ja nauhoittajan lupa, ja aineistoja käytettäessä puhujien henkilöllisyys suojataan.
Arkiston aineistoon kuuluvat paitsi itse tallenteet ja litteraatit, myös niistä tehdyt kandidaatintyöt. Kaikki aineisto on sähköisessä muodossa, mutta toistaiseksi vain paikallisesti, Muoto-opin arkiston tiloissa Helsingin yliopiston päärakennuksessa. Äänitiedostojen yleisimmät tallennusmuodot ovat mp3 ja wav. Videoaineistoa löytyy muun muassa mpg- ja wmv-muodossa. Aineistosta on yksityiskohtainen sähköinen kortisto.
Tutkijoiden on mahdollista tietyin ehdoin saada aineistoa tutkimuskäyttöön.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031104
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Tekstikorpus sisältää babylonialaisia nuolenpäätekstejä uusbabylonialaiselta, persialaiselta ja hellenistiseltä kaudelta (n. 626-93 eaa.). Yli puolet teksteistä on peräisin edesmenneeltä János Everlingiltä, joka teki uraauurtavaa työtä julkaistessaan translitteroituja nuolenpäätekstejä avoimesti verkossa. Muiden tekstien translitteraatioiden ja käännösten alkuperäiset julkaisijat ovat Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl ja Caroline Waerzeggers, jotka ovat antaneet luvan tekstien julkaisemiseen Korpissa. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.
Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Tutkijat ovat myös luoneet ja keränneet kuvailutietoja kaikille korpuksen teksteille. Osa kuvailutiedoista on peräisin NaBuCCo-hankkeesta (https://nabucco.acdh.oeaw.ac.at/). Tutkimusryhmä kiittää Kathleen Abrahamia, Michael Jursaa ja Shai Gordinia luvasta käyttää NaBuCCon kuvailutietoja, ja myös Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.
Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031102
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Achemenet-hanke (http://www.achemenet.com/) julkaisee translitteraatioita ja käännöksiä teksteistä, jotka on kirjoitettu Persian akhaimenidien valtakunnassa (550-330 eaa.). Kielipankin Korpissa oleva versio Achemenetista sisältää babylonialaiset nuolenpäätekstit, jotka olivat saatavilla Achemenetissa joulukuussa 2020. Tekstit on julkaistu Korpissa Achemenet-hankkeen luvalla. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.
Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä kiittää Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.
Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031301
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The corpus contains Babylonian cuneiform texts from the Neo-Babylonian, Persian, and Hellenistic periods (c. 626-93 BCE). More than half of the transliterated texts are legacy data of the late János Everling, who was one of the pioneers in making transliterated cuneiform texts available online. The other texts have been transliterated and translated by Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl, and Caroline Waerzeggers, who gave permission to publish their texts on Korp. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.
The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. They have created and gathered some basic metadata for all the texts in this corpus. Some metadata was created using data from the NaBuCCo project (https://nabucco.acdh.oeaw.ac.at/). The research group thanks Kathleen Abraham, Michael Jursa, and Shai Gordin for giving access to the NaBuCCo metadata. They also thank Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031101
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Achemenet project provides transliterations and translations of documents written in the Achaemenid Persian Empire (550-330 BCE). The Korp version of Achemenet contains the Babylonian cuneiform texts available on Achemenet in December 2020. The texts have been published in Korp with the permission of the Achemenet project. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.
The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group thanks Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023062103
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Giellagas Corpus of Spoken Saami Languages includes three subcorpora of Sámi languages spoken in Finland: Samples of Northern Saami (currently available, see above), and Aanaar (Inari) Saami and Skolt Saami, both of which will be made available at a later stage.
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025021321
Finnish-nertag is a named entity recogniser for Finnish. This tool implements a pipeline in which FiNER is the ner-tagging stage. Users can install the tools on their systems or run them in the local directory without installing.
FiNER is a rule-based named-entity recognition tool for Finnish, developed at the University of Helsinki for the FIN-CLARIN consortium. It uses tools based on the CRF-based tagger FinnPos, the Finnish morphology package OmorFi, and the FinnTreeBank corpus for tokenization and morphological analysis, and a set of pattern-matching (pmatch
) rules for recognizing and categorizing proper names and other expressions in plaintext input.
The pattern-matching rules are built and compiled using the Helsinki Finite-State Technology toolkit.
More information and a technical documentation can be found here.
Finnish-nertag is offered in CSC’s computing environment. It is also available for download as part of the software package finnish-tagtools, whose current version number is 1.6.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2025021801
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tarkemmat tämän korpuksen toisen osan videoiden kokoamisesta ja koosta löytyvät täältä.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2021092401
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
Details on the compilation of the videos and sizes of the second part of this corpus can be found here.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024060525
Finland Swedish Online is a platform offering online courses for learners of Finland Swedish. The service is provided by the University of Helsinki. The service is based on Icelandic Online provided by the University of Iceland. The courses are offered at different levels. They are learner centered with interactive visual and listening exercises organized around themes relevant to life in Finland. The courses are supported by glossaries, grammars and dictionaries.
Access Finland Swedish Online
Try out the related service for Icelandic, Iclandic Online
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024112801
Tärkeää: STT:n uutisarkiston kokotekstiaineistojen käyttöoikeus on päättynyt 21.2.2025
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Nämä aineistoversiot eivät enää ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Viite | Aineistoryhmä ja ohje | Julkaisuvuosi |
---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Viite | Aineistoryhmä ja ohje | Julkaisuvuosi |
Suomen Tietotoimiston (STT) uutisarkisto sisältää uutisjakelun suomenkieliset artikkelit, jotka STT on lähettänyt media-asiakkaidensa käytettäväksi vuodesta 1992 lähtien. Valtaosa artikkeleista on uutisjuttuja, joiden pituus vaihtelee hyvin lyhyistä ”viivauutisista” uutissähkeisiin ja pidempiin uutisjuttuihin. Artikkelit on luokiteltu osastoittain (kotimaa, ulkomaat, talous, politiikka, kulttuuri, viihde ja urheilu) ja niihin liittyvän metadatan mukaan (IPTC-asiasanat tai avainsanat sekä tietyiltä osin paikkaluokitukset). Arkisto sisältää myös muuta STT:n luomaa tai välittämää materiaalia kuten asiakkaille lähetettäviä uutislupauksia, urheilutuloksia, vieraskynäartikkeleita ja tiedotteita.
Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista. Kuvailutiedoista löytyvät myös tiedot aineiston käyttöoikeuksista ja lisensseistä.
Lisenssin muutos 2024-11-21: STT:n uutisarkiston kokotekstiaineistoja koskeva lisenssi on päättynyt 21.2.2025. Mikäli olet saanut Kielipankin kautta käyttöoikeuden STT:n uutisarkiston kokotekstiaineistoihin, sinun on lisenssiehtojen mukaisesti lopetettava kyseisten aineistojen käyttö ja poistettava ne laitteiltasi (ks. lisenssin linkki edellä). Aiemmin luvan saaneille käyttäjille on ilmoitettu asiasta myös sähköpostitse.
Huomaathan, että käyttöoikeus päättyy vain STT:n uutisarkiston kokotekstiversioiden osalta! Niitä STT:n uutisarkiston versioita, joissa on saatavilla vain rajallisia konteksteja kerrallaan (esim. Kielipankissa olevat STT:n uutisarkiston Korp-versiot) tai joissa tekstisisällön virkejärjestys on sekoitettu, on edelleen sallittua käyttää. Kielipankki pyrkii lähitulevaisuudessa toimittamaan korvaavia aineistoversioita saataville latauspalvelun kautta.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2018121001
Important: The license of the full-text versions of the Finnish News Agency Archive has been terminated on 21.2.2025
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
These resource versions are no longer available in the Language Bank of Finland.
Shortname | Nimi ja kuvailutiedot | Lisenssi | Viite | Aineistoryhmä ja ohje | Publication year |
---|---|---|---|---|---|
Shortname | Nimi ja kuvailutiedot | Lisenssi | Viite | Aineistoryhmä ja ohje | Publication year |
The Finnish News Agency Archive corpus comprises newswire articles in Finnish sent to media outlets by the Finnish News Agency (STT) since 1992.
Most of the material is news articles that vary from short “news flashes” to telegrams and longer articles. News articles are categorized by department (domestic, foreign, economy, politics, culture, entertainment and sports) as well as by metadata (IPTC subject categories or keywords and location data). The archive also includes other material STT has created or forwarded such as news planning lists, sports results, analysis articles and press releases.
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
License change 2024-11-21: The end-user license of the full-text versions of the Finnish News Agency Archive has been terminated on 21st February 2025. In case you were granted the right to use the full text versions via the Language Bank of Finland, you must stop using the resources in question and you must remove them from your devices (see the license link above). The users who have access rights to the full-text versions have also been notified by email.
Please note that the termination of the license only affects the full-text versions of the resource! You may continue using those versions of the Finnish News Agency Archive that only show restricted contexts (e.g., the Korp versions of the archive in the Language Bank) or where the order of the sentences has been scrambled. The Language Bank is already working on new downloadable versions that can be made available under the public license.
Persistent identifier of this page: http://urn.fi/urn:nbn:fi:lb-2023072121
Suomenruotsalaisen viittomakielen korpus (CFSTS) on alun perin Suomen viittomakielten korpusprojektissa (CFINSL) systemaattisesti kerätty ja käsitelty aineistokokoelma. Korpus koostuu videotiedostoista, videoita koskevista annotaatioista ELAN-ohjelman tiedostoformaatissa sekä viittojia koskevista metatiedoista. Aineisto on jaettu kahteen osakorpukseen, joista yhdessä on kerronta-aineistoa (cfsts-elicit) ja toisessa viitottua keskustelua (cfsts-conv) kahdeltatoista viittojalta. Kerronta-aineisto on julkisesti saatavilla, kun taas keskustelut ovat luvanvaraisesti saatavilla rajoitetulla lisenssillä. Tarkempia tietoja löytyy kummankin aineiston kuvailutietueesta, ks. alla olevat linkit.
Vinkki: Katso myös Signbank: suomenruotsalainen viittomakieli.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024090328
Den finlandssvenska teckenspråkskorpusen (CFSTS) är en systematisk samling av material på finlandssvenskt teckenspråk som ursprungligen samlades in i korpusprojektet för Finlands teckenspråk (CFINSL). Resursen innehåller videofiler, inspelade från upp till sex olika kameravinklar, annoteringar av videorna i ELAN-format och metadata om 12 teckenspråksanvändare. Korpusen är uppdelad i två delkorpusar: den ena innehåller eliciterade berättelser (cfsts-elicit) och den andra innehåller diskussioner (cfsts-conv) från teckenspråksanvändarna. Berättelserna är allmänt tillgängliga, medan diskussionerna är tillgängliga under en begränsad licens.
Mer information finns i metadataposten för varje delkorpus, se nedan.
Tips: Se även Signbank: finlandssvenskt teckenspråk.
Förkortning | Namn och metadata | Lisens | Tillgång | Citera | Resursgrupp och hjälp | Ansök | Utgivningsår | Servicenivå |
---|---|---|---|---|---|---|---|---|
Förkortning | Namn och metadata | Lisens | Tillgång | Citera | Resursgrupp och hjälp | Ansök | Utgivningsår | Servicenivå |
Följande resursversioner är ännu inte tillgängliga i Språkbanken i Finland.
Förkortning | Namn och metadata | Lisens | Format | Servicenivå | Kontakt | Tillgång | Resursgrupp och hjälp | Diverse / länkar |
---|---|---|---|---|---|---|---|---|
Förkortning | Namn och metadata | Lisens | Format | Servicenivå | Kontakt | Tillgång | Resursgrupp och hjälp | Diverse / länkar |
Den här sidan har en beständig identifierare: http://urn.fi/urn:nbn:fi:lb-2024090329
Last modified on 2025-01-30