The University of Oulu Päätalo collection (paatalo)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The University of Oulu Päätalo collection contains the literary output of the author Kalle Päätalo published so far. The works are to be made available via the Language Bank of Finland as several text corpora, the first of which was the Iijoki corpus.

Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

License and access

The available resources can be accessed by logging in as an academic user (”ACA”). Click on the license image to see the resource-specific license text.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023110921

Oulun yliopiston Päätalo-kokoelma (paatalo)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon tähän asti julkaistun kirjallisen tuotannon. Teoksia tuodaan saataville Kielipankin kautta useina kokonaisuuksina, joista ensimmäinen oli Iijoki-korpus.

Toisessa vaiheessa on tarkoitus julkaista korpusmuodossa seuraavat teokset:

  • Ihmisiä telineillä (1958)
  • Koillismaa-sarjan osat:
    • Koillismaa (1960)
    • Selkosen kansaa (1962)
    • Myrsky Koillismaassa (1963)
    • Myrskyn jälkeen (1965)
    • Mustan lumen talvi (1969)

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Tämän aineiston versioihin täytyy kirjautua akateemisena käyttäjänä (ACA). Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2023110922

Korpus kielen ja sukupuolen tutkimiseen Meksikossa ja Espanjassa (CoLaGe) (colage)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Aineisto on kerätty Valenciassa, Espanjassa (2021-2022) ja Guadalajarassa, Meksikossa (2022-2023) osana Koneen Säätiön rahoittamaa tutkimushanketta ”Sukupuoli, yhteiskunta ja kielenkäyttö: näyttöä Meksikosta ja Espanjasta”. Tavoitteena on ollut luoda vertailukelpoinen korpus kummankin kaupungin puhutusta espanjasta, jotta voidaan tutkia puhujan sukupuolen, yhteiskunnallisten sukupuoliroolien ja -odotusten sekä puhutun kielen vaihtelun välisiä yhteyksiä yhdistämällä sosiolingvistisiä ja sosiaalipsykologisia menetelmiä.

Aineisto koostuu sosiolingvistisistä haastatteluista, jotka on jaettu osiin, joissa sukupuoli joko aktivoituu tai ei aktivoidu diskurssin aiheena, sekä kahdesta konfliktitilanteita simuloivasta roolileikistä, joissa informantti näyttelee yhtä ja haastattelija toista roolia. Informantit edustavat keskiluokkaista sosioekonomista taustaa, ja heidät on jaettu kahteen ikäryhmään, 30-40- ja 60-70-vuotiaisiin. Tarkka kuvaus aineistosta ja sosiolingvistisistä muuttujista on saatavilla aineiston mukana.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024030608

Corpus for the study of Language and Gender in Mexico and Spain (CoLaGe) (colage)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The data have been collected as part of the research project Gender, society, and language use: evidence from Mexico and Spain funded by Kone Foundation in Valencia, Spain (2021-2022) and Guadalajara, Mexico (2022–2023). The objective has been to create a comparable corpus of spoken Spanish from each city to enable the study of the interconnections between speaker gender, societal gender roles and expectations and variation in spoken language combining sociolinguistic and social psychological methodologies.

The data consist of sociolinguistic interviews divided into parts where gender is vs. is not activated as discourse topic, and two role plays simulating conflictive situations, with the informant playing one role and the interviewer the other role. The informants represent a middle class socioeconomic background and are divided into two age groups, 30–40 and 60–70. A thorough description of the data and the sociolinguistic variables is available with the data.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024030607

Finnish Broadcast Corpus

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Content corresponding to the previous LAT version of the material is now available in the Language Bank download service

The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.

Resource information

The Finnish Broadcast Corpus is divided into two main parts: FBC-1 and FBC-2.

The Finnish Broadcast Corpus 1, FBC-1 contains 65 radio and tv recordings broadcast by YLE – the Finnish Broadcasting Company during the year 2003. Parts of the audio and video material have been annotated either manually or automatically in various levels: e.g., utterance (orthographic transcript), word, phone. FBC-1 was compiled under an initiative called Integrated Resources for Speech Technology and Spoken Language Research in Finland, funded by the Academy of Finland. It is CSC’s first multimodal corpus.

Details of the size of FBC-2 are being updated.

The material in the FBC-1 represents four categories:
* Radio monologues
– broadcast telegraph news (24 × 3 minutes, Nov. 2003)
– broadcast lectures of the week (8 × 14 minutes).
* Radio dialogues
– unfinished recordings of the Moninaisuusfoorumi event (5 × 1h).
* TV monologues
– broadcast main news read by Arvi Lind ja Eeva Polttila (15 × 30 minutes, September – November 2003), including the very last news telecast by Arvi Lind on October 15, 2003
* TV dialogues
– broadcast Aamu-TV programs (13 × ca. 12 minutes, 2003).

Formats:
* WAV audio format
* HQ_Pure audio format (44,1–48 KHz) (supported by the Puh-Editor, which is now obsolete)
* HQ_Pure audio format (16 KHz) (supported by the Puh-Editor, which is now obsolete)
* MPEG2 video

Funding Project:
Puheteknologian ja puheentutkimuksen yhteiset resurssit Suomessa, Integrated Resources for Speech Technology and Spoken Language Research in Finland (SA-Puhe)
Funding Type: National Funds
Funder: Academy of Finland
Funding Country: Finland
Project duration: 01/01/2002 – 12/31/2004

License and access

  • This resource requires you to apply for individual access rights (RES). Apply
  • Click on the license image to see the resource-specific license text.
  • Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.
  • Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record.


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025032701

Finnish Conversation Analysis Archive (FCAA)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Finnish Conversation Analysis Archive (FCAA) contains audio and video recordings of everyday and institutional conversations in Finnish. When possible, individual resources from the archive are going to be made available via the Language Bank of Finland.

The Finnish Conversation Analysis Archive is one of the largest collections of conversational Finnish speech in Finland. Currently, the archive contains more than 500 hours of audio and video recordings, of which about 100 hours have been transcribed. The corpus consists mainly of everyday speech (e.g., couples’ phone calls, family coffee table conversations and children’s games), but it also includes some institutional speech (business calls, conversations in the hairdressing salon, political TV debates and classroom conversations). Permission has been obtained from the participants and from the recording persons. The identity of the speakers is protected when using the material.

The archive includes not only the recordings and transcripts themselves, but also the bachelor’s theses written on the basis of this data. All the material is in electronic form, but for the time being only locally, at the Muoto-opin Archives in the main building of the University of Helsinki. The most common storage formats for audio files are mp3 and wav. Video material is available in formats such as mpg and wmv. There is a detailed electronic card index of the material.

Researchers may, under certain conditions, have access to the data for research purposes.

License and access

  • When parts of the material are published in the Language Bank of Finland, some versions of this resource may be available publicly (PUB), whereas others might require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some or all versions of this resource contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data obtained via the Language Bank of Finland, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.
  • Different versions/subcorpora may be published in the Language Bank of Finland. Some versions may become available via the  download service, some via the Korp concordance tool. The links to the different versions will be added to the list of resources on this page.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031103

Keskusteluntutkimuksen arkisto

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Helsingin yliopiston Keskusteluntutkimuksen arkisto sisältää ääni- ja videotallenteita suomenkielisistä arkipäivän ja institutionaalisista keskusteluista. Yksittäisiä aineistoja on tarkoitus ryhtyä julkaisemaan Kielipankissa, jos mahdollista. Julkaistavien aineistojen tiedot tulevat näkyviin tällä olevaan luetteloon.

Helsingin yliopiston suomen kielen oppiaineen yhteydessä sijaitseva Keskusteluntutkimuksen arkisto on yksi Suomen laajimmista suomenkielisen vuorovaikutuspuheen kokoelmista. Tällä hetkellä ääni- tai ääni- ja kuvanauhoitettua aineistoa on arkistossa yli 500 tuntia, josta litteroituna on noin 100 tuntia. Pääasiallisesti korpus koostuu arkipuheesta (mm. pariskuntien puheluita, perheen kahvipöytäkeskusteluja ja lasten leikkejä) mutta mukana on myös jonkin verran institutionaalista puhetta (asiointipuheluita, kampaamokeskusteluja, poliittisia tv-väittelyjä ja luokkahuonekeskustelua). Aineistoihin on saatu osallistujien ja nauhoittajan lupa, ja aineistoja käytettäessä puhujien henkilöllisyys suojataan.

Arkiston aineistoon kuuluvat paitsi itse tallenteet ja litteraatit, myös niistä tehdyt kandidaatintyöt. Kaikki aineisto on sähköisessä muodossa, mutta toistaiseksi vain paikallisesti, Muoto-opin arkiston tiloissa Helsingin yliopiston päärakennuksessa. Äänitiedostojen yleisimmät tallennusmuodot ovat mp3 ja wav. Videoaineistoa löytyy muun muassa mpg- ja wmv-muodossa. Aineistosta on yksityiskohtainen sähköinen kortisto.

Tutkijoiden on mahdollista tietyin ehdoin saada aineistoa tutkimuskäyttöön.

Lisenssi ja pääsy aineistoon

  • Kun aineistoja julkaistaan Kielipankissa, jotkin osakorpukset ovat ehkä saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joihinkin tämän aineiston versioihin sisältyy henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031104

BALT: Babylonian Administrative and Legal Texts

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Tekstikorpus sisältää babylonialaisia nuolenpäätekstejä uusbabylonialaiselta, persialaiselta ja hellenistiseltä kaudelta (n. 626-93 eaa.). Yli puolet teksteistä on peräisin edesmenneeltä János Everlingiltä, joka teki uraauurtavaa työtä julkaistessaan translitteroituja nuolenpäätekstejä avoimesti verkossa. Muiden tekstien translitteraatioiden ja käännösten alkuperäiset julkaisijat ovat Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl ja Caroline Waerzeggers, jotka ovat antaneet luvan tekstien julkaisemiseen Korpissa. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.

Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Tutkijat ovat myös luoneet ja keränneet kuvailutietoja kaikille korpuksen teksteille. Osa kuvailutiedoista on peräisin NaBuCCo-hankkeesta (https://nabucco.acdh.oeaw.ac.at/). Tutkimusryhmä kiittää Kathleen Abrahamia, Michael Jursaa ja Shai Gordinia luvasta käyttää NaBuCCon kuvailutietoja, ja myös Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.
  • Tästä aineistosta on julkaistu (tai saatetaan tulevaisuudessa julkaista) eri versioita/osakorpuksia Kielipankissa. Versiot ovat saatavilla Kielipankin latauspalvelun ja/tai konkordanssipalvelu Korpin kautta. Linkit eri versioihin löytyvät yllä olevasta luettelosta.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031102

Achemenetin babylonialaiset tekstit

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Achemenet-hanke (http://www.achemenet.com/) julkaisee translitteraatioita ja käännöksiä teksteistä, jotka on kirjoitettu Persian akhaimenidien valtakunnassa (550-330 eaa.). Kielipankin Korpissa oleva versio Achemenetista sisältää babylonialaiset nuolenpäätekstit, jotka olivat saatavilla Achemenetissa joulukuussa 2020. Tekstit on julkaistu Korpissa Achemenet-hankkeen luvalla. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.

Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä kiittää Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.
  • Tästä aineistosta on julkaistu (tai saatetaan tulevaisuudessa julkaista) eri versioita/osakorpuksia Kielipankissa. Versiot ovat saatavilla Kielipankin latauspalvelun ja/tai konkordanssipalvelu Korpin kautta. Linkit eri versioihin löytyvät yllä olevasta luettelosta.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031301

BALT: Babylonian Administrative and Legal Texts

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The corpus contains Babylonian cuneiform texts from the Neo-Babylonian, Persian, and Hellenistic periods (c. 626-93 BCE). More than half of the transliterated texts are legacy data of the late János Everling, who was one of the pioneers in making transliterated cuneiform texts available online. The other texts have been transliterated and translated by Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl, and Caroline Waerzeggers, who gave permission to publish their texts on Korp. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.

The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. They have created and gathered some basic metadata for all the texts in this corpus. Some metadata was created using data from the NaBuCCo project (https://nabucco.acdh.oeaw.ac.at/). The research group thanks Kathleen Abraham, Michael Jursa, and Shai Gordin for giving access to the NaBuCCo metadata. They also thank Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others might require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.
  • Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031101

Achemenet Babylonian texts

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Achemenet project provides transliterations and translations of documents written in the Achaemenid Persian Empire (550-330 BCE). The Korp version of Achemenet contains the Babylonian cuneiform texts available on Achemenet in December 2020. The texts have been published in Korp with the permission of the Achemenet project. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.

The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group thanks Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others might require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.
  • Of this language corpus different versions/subcorpora are (or might be in the future) published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023062103

The Giellagas Corpus of Spoken Saami Languages (giellagas)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Giellagas Corpus of Spoken Saami Languages includes three subcorpora of Sámi languages spoken in Finland: Samples of Northern Saami (currently available, see above), and Aanaar (Inari) Saami and Skolt Saami, both of which will be made available at a later stage.

Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

License and access

  • To access the versions of this resource, the user is required to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025021321

finnish-nertag

Finnish-nertag is a named entity recogniser for Finnish. This tool implements a pipeline in which FiNER is the ner-tagging stage. Users can install the tools on their systems or run them in the local directory without installing.

FiNER is a rule-based named-entity recognition tool for Finnish, developed at the University of Helsinki for the FIN-CLARIN consortium. It uses tools based on the CRF-based tagger FinnPos, the Finnish morphology package OmorFi, and the FinnTreeBank corpus for tokenization and morphological analysis, and a set of pattern-matching (pmatch) rules for recognizing and categorizing proper names and other expressions in plaintext input.

The pattern-matching rules are built and compiled using the Helsinki Finite-State Technology toolkit.

More information and a technical documentation can be found here.

Finnish-nertag is offered in CSC’s computing environment. It is also available for download as part of the software package finnish-tagtools, whose current version number is 1.6.


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2025021801

Suomalaisen viittomakielen korpus

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Tarkemmat tämän korpuksen toisen osan videoiden kokoamisesta ja koosta löytyvät täältä.

Tärkeitä huomautuksia

  • Lisenssin muutos (6.12.2024): Syksyllä 2024 päivitetyn tallennussopimuksen mukaisesti tämän aineiston lisensseihin on lisätty aineistokohtaiset tietosuojaehdot.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Tämän aineiston versioihin sisältyy henkilötietoja (lisenssissä on merkintä +PRIV). Henkilötietojen käsittelyssä on noudatettava aineistokohtaisia tietosuojaehtoja. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2021092401

Corpus of Finnish Sign Language

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Further information

Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

Details on the compilation of the videos and sizes of the second part of this corpus can be found here.

Important notes

  • License change (6.12.2024): According to the deposition agreement updated in autumn 2024, the resource-specific data protection terms and conditions were added to the licenses of the different versions of this resource.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others require you to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • All versions of this resource may contain personal data (license condition +PRIV). The license includes additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024060525

Finland Swedish Online

Finland Swedish Online is a platform offering online courses for learners of Finland Swedish. The service is provided by the University of Helsinki. The service is based on Icelandic Online provided by the University of Iceland. The courses are offered at different levels. They are learner centered with interactive visual and listening exercises organized around themes relevant to life in Finland. The courses are supported by glossaries, grammars and dictionaries.

Access Finland Swedish Online

Try out the related service for Icelandic, Iclandic Online


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024112801

STT:n uutisarkisto (1992-)

In English

Tärkeää: STT:n uutisarkiston kokotekstiaineistojen käyttöoikeus on päättynyt 21.2.2025


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Poistetut versiot

Nämä aineistoversiot eivät enää ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiViiteAineistoryhmä ja ohjeJulkaisuvuosi
LyhenneNimi ja kuvailutiedotLisenssiViiteAineistoryhmä ja ohjeJulkaisuvuosi

Tietoa aineistosta

Suomen Tietotoimiston (STT) uutisarkisto sisältää uutisjakelun suomenkieliset artikkelit, jotka STT on lähettänyt media-asiakkaidensa käytettäväksi vuodesta 1992 lähtien. Valtaosa artikkeleista on uutisjuttuja, joiden pituus vaihtelee hyvin lyhyistä ”viivauutisista” uutissähkeisiin ja pidempiin uutisjuttuihin. Artikkelit on luokiteltu osastoittain (kotimaa, ulkomaat, talous, politiikka, kulttuuri, viihde ja urheilu) ja niihin liittyvän metadatan mukaan (IPTC-asiasanat tai avainsanat sekä tietyiltä osin paikkaluokitukset). Arkisto sisältää myös muuta STT:n luomaa tai välittämää materiaalia kuten asiakkaille lähetettäviä uutislupauksia, urheilutuloksia, vieraskynäartikkeleita ja tiedotteita.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista. Kuvailutiedoista löytyvät myös tiedot aineiston käyttöoikeuksista ja lisensseistä.

Tärkeitä huomautuksia

Lisenssin muutos 2024-11-21: STT:n uutisarkiston kokotekstiaineistoja koskeva lisenssi on päättynyt 21.2.2025. Mikäli olet saanut Kielipankin kautta käyttöoikeuden STT:n uutisarkiston kokotekstiaineistoihin, sinun on lisenssiehtojen mukaisesti lopetettava kyseisten aineistojen käyttö ja poistettava ne laitteiltasi (ks. lisenssin linkki edellä). Aiemmin luvan saaneille käyttäjille on ilmoitettu asiasta myös sähköpostitse.

Huomaathan, että käyttöoikeus päättyy vain STT:n uutisarkiston kokotekstiversioiden osalta! Niitä STT:n uutisarkiston versioita, joissa on saatavilla vain rajallisia konteksteja kerrallaan (esim. Kielipankissa olevat STT:n uutisarkiston Korp-versiot) tai joissa tekstisisällön virkejärjestys on sekoitettu, on edelleen sallittua käyttää. Kielipankki pyrkii lähitulevaisuudessa toimittamaan korvaavia aineistoversioita saataville latauspalvelun kautta.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2018121001

Finnish News Agency Archive (1992-)

Suomeksi

Important: The license of the full-text versions of the Finnish News Agency Archive has been terminated on 21.2.2025


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Removed versions of this resource

These resource versions are no longer available in the Language Bank of Finland.

ShortnameNimi ja kuvailutiedotLisenssiViiteAineistoryhmä ja ohjePublication year
ShortnameNimi ja kuvailutiedotLisenssiViiteAineistoryhmä ja ohjePublication year

 

Further information

The Finnish News Agency Archive corpus comprises newswire articles in Finnish sent to media outlets by the Finnish News Agency (STT) since 1992.

Most of the material is news articles that vary from short “news flashes” to telegrams and longer articles. News articles are categorized by department (domestic, foreign, economy, politics, culture, entertainment and sports) as well as by metadata (IPTC subject categories or keywords and location data). The archive also includes other material STT has created or forwarded such as news planning lists, sports results, analysis articles and press releases.

Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

Important notes

License change 2024-11-21: The end-user license of the full-text versions of the Finnish News Agency Archive has been terminated on 21st February 2025. In case you were granted the right to use the full text versions via the Language Bank of Finland, you must stop using the resources in question and you must remove them from your devices (see the license link above). The users who have access rights to the full-text versions have also been notified by email. 

Please note that the termination of the license only affects the full-text versions of the resource! You may continue using those versions of the Finnish News Agency Archive that only show restricted contexts (e.g., the Korp versions of the archive in the Language Bank) or where the order of the sentences has been scrambled. The Language Bank is already working on new downloadable versions that can be made available under the public license.

 


Persistent identifier of this page: http://urn.fi/urn:nbn:fi:lb-2023072121

Suomenruotsalaisen viittomakielen korpus

In English
På svenska

Suomenruotsalaisen viittomakielen korpus (CFSTS) on alun perin Suomen viittomakielten korpusprojektissa (CFINSL) systemaattisesti kerätty ja käsitelty aineistokokoelma. Korpus koostuu videotiedostoista, videoita koskevista annotaatioista ELAN-ohjelman tiedostoformaatissa sekä viittojia koskevista metatiedoista. Aineisto on jaettu kahteen osakorpukseen, joista yhdessä on kerronta-aineistoa (cfsts-elicit) ja toisessa viitottua keskustelua (cfsts-conv) kahdeltatoista viittojalta. Kerronta-aineisto on julkisesti saatavilla, kun taas keskustelut ovat luvanvaraisesti saatavilla rajoitetulla lisenssillä. Tarkempia tietoja löytyy kummankin aineiston kuvailutietueesta, ks. alla olevat linkit.

Vinkki: Katso myös Signbank: suomenruotsalainen viittomakieli.

Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024090328

Finlandssvensk teckenspråkskorpus

Suomeksi
In English

Den finlandssvenska teckenspråkskorpusen (CFSTS) är en systematisk samling av material på finlandssvenskt teckenspråk som ursprungligen samlades in i korpusprojektet för Finlands teckenspråk (CFINSL). Resursen innehåller videofiler, inspelade från upp till sex olika kameravinklar, annoteringar av videorna i ELAN-format och metadata om 12 teckenspråksanvändare. Korpusen är uppdelad i två delkorpusar: den ena innehåller eliciterade berättelser (cfsts-elicit) och den andra innehåller diskussioner (cfsts-conv) från teckenspråksanvändarna. Berättelserna är allmänt tillgängliga, medan diskussionerna är tillgängliga under en begränsad licens.

Mer information finns i metadataposten för varje delkorpus, se nedan.

Tips: Se även Signbank: finlandssvenskt teckenspråk.

Tillgängliga versioner av denna resurs

FörkortningNamn och metadataLisensTillgångCiteraResursgrupp och hjälpAnsökUtgivningsårServicenivå
FörkortningNamn och metadataLisensTillgångCiteraResursgrupp och hjälpAnsökUtgivningsårServicenivå

Kommande versioner av denna resurs

Följande resursversioner är ännu inte tillgängliga i Språkbanken i Finland.

FörkortningNamn och metadataLisensFormatServicenivåKontaktTillgångResursgrupp och hjälpDiverse / länkar
FörkortningNamn och metadataLisensFormatServicenivåKontaktTillgångResursgrupp och hjälpDiverse / länkar


Den här sidan har en beständig identifierare: http://urn.fi/urn:nbn:fi:lb-2024090329

Last modified on 2025-01-30

Search the Language Bank Portal:
Pekka Posio
Researcher of the Month: Pekka Posio

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information