ANEE Idiolect Network Portal

This resource contains a portal with over 105,621 pages linked together. The pages contain lists of most similar neighbours, ranked by Double Mutual Rank (DOMUR) similarity measure, for 105,621 cuneiform texts exported from Oracc.

Latest versions/subcorpora:  
ANEE Idiolect Network Portal
icon-info-circle Metadata and license
Open the website

Slangipaikannimet

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This resource contains the result of the competition of gathering place names in colloquial language. The competition was hold 18.8.–3.11.2003 in schools of Espoo, Helsinki, Kauniainen and Vanta. It was organized by Stadin slangi ry, the Institute for the Languages of Finland and Helsingin Sanomat.

The whole collection of the competition – about 14 500 names – is organized after the names as well as per school. Additionally to the names other information given by the pupils were published: the official name of the place, the location of the place, example sentences and other additional information like the origin of the name and its use.

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110309

Suomen kansan vanhat runot (skvr)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

A 34-volume collection of Finnic oral poetry, lyric, short rhymes, incantations etc., collected and recorded from the 16th century to the 1930s and published mostly between 1908 and 1948, with a supplement volume published in 1997. The corpus is multilingual, with texts in Finnish, Karelian, Olonets, Ludian, Votic, Izhorian, Latin and Swedish.

More information on the corpus: https://skvr.fi/skvr-teos

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110308

Aleksis Kivi -korpus (sks_kivi)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This corpus contains all the known letters, manuscripts and published works by the Finnish author Aleksis Kivi (1834–1872), collected by the Finnish Literature Society (Suomalaisen Kirjallisuuden Seura). Most of the texts were written in Finnish while some of the letters and manuscripts are in Swedish.

More information: https://www.finlit.fi/tutkimus/suomalaisen-kirjallisuuden-kriittiset-editiot-edith/aleksis-kivi-korpus/

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110307

Paul Sinebrychoffin kirjekorpus, Kielipankki-versio (sinebrychoff)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Paul and Fanny Sinebrychoff created an art collection unique for Finland. This corpus contains Paul Sinebrychoff’s and various experts’ and collectors’ correspondence from 1895 to 1909 related to the acquisitions of the collection.

The letters were translated into Finnish and the original hand-written letters in Swedish were transcribed with support from Sinebrychoff Oy Ab. The translations were done by students from the Department of Scandinavian Languages and Literature (Nordica) of the University of Helsinki.

More information: http://kirjearkisto.siff.fi/default.aspx

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110306

SFNET-keskusteluryhmäkorpus (sfnet)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Korpus sisältää suomenkielisten SFNET-verkkokeskusteluryhmien viestiketjuja vuosilta 2002-2003.
Sisältö on jaoteltu pakattuihin tiedostoihin, joissa on keskusteluryhmien viestiketjut metatietoineen sekä raakateksteinä että morfosyntaktisesti koodattuina.

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versioihin täytyy kirjautua akateemisena käyttäjänä (ACA).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joidenkin tämän aineiston versioiden kopio voi olla saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake). icon-question-circle

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110305

Helsingissä koostettu skotinkielinen kirjekorpus (1540–1750) (scotscorr)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The corpus comprises circa 0.4 million words (0.5 million tokens) of early Scottish correspondence by male and female writers dating from the period 1540–1750. The corpus consists of transcripts of original letter manuscripts, which reproduce the text disallowing any modernisation, normalisation or emendation. Language-external variables such as date, region, gender, addressee, hand and script type have been coded into the database. The writers originate from fifteen different regions of Scotland; these can be grouped to represent the areas of North, North-East, Central, South-East, and South-West. In addition, there are two categories of informants that have not been defined by geographical origin: representatives of the court and professional people such as members of the clergy. The proportion of female informants in the corpus is 21 per cent.

Lisenssi ja pääsy aineistoon

ScotsCorr is available in the Korp concordance service of Kielipankki (the Language Bank of Finland); direct link: http://urn.fi/urn:nbn:fi:lb-2016121607. Note that you will need to log in to Korp and have access rights to ScotsCorr. For more information, please see the section Accessing ScotsCorr of the ScotsCorr Korp Guide.

ScotsCorr data in VRT format is available in the download service of Kielipankki, the Language Bank of Finland, at www.kielipankki.fi/download. Note that you will need to have access rights to ScotsCorr.

 

Lisädokumentaatio

The following documentation has been written by Anneli Meurman-Solin:

In addition, you may find it helpful to consult the on-line Dictionary of the Scots Language.

Jäsennetty versio

For The Parsed Corpus of Scottish Correspondence the original resource, produced by Anneli Meurman-Solin in 2017, has been syntactically parsed and annotated in the Penn Parsed Corpora of Historical English (PPCHE) format by Lisa Gotthard in 2024.

More information on the format, as well as the annotation manual, can be found here: https://www.ling.upenn.edu/hist-corpora/annotation/index.html

The same information, as well as information on known issues, can be found here: https://www.lisagotthard.com/the-pcsc

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110304

Sananparsikokoelma

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The collection includes dialectal proverbs collected from various areas in the 1930s. This is a resource of Kotimaisten kielten keskus, the Institute for the Languages of Finland. For more information please see https://kaino.kotus.fi/korpus/sp/meta/sp_coll_rdf.xml.

This resource contains only a part of the 1.4 million proverbs collected in different regions of Finland. The National Archives of Finland have digitized quite a few of the handwritten cards containing proverbs. The digitized cards are available in jpg format at http://digi.narc.fi/digi/dosearch.ka?sartun=385077.KA

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110303

Relative frequencies of part-of-speech n-grams in native and translated Finnish literary prose (rel-freq-fi-lit)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The corpus contains data from Matias Tamminen’s MA thesis study ”Then shall I know fully: Relative frequencies of part-of-speech n-grams in native and translated Finnish literary prose” by Matias Tamminen (2018), University of Helsinki.

The source data are the corpus Classics of English and American Literature translated by Kersti Juva, English-Finnish parallel corpus and the corpus of Translated Finnish.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110302

Rapolan 1800-luvun sanasto (rapola)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Martti Rapola (1891–1972), a distinguished researcher of Old Literary Finnish and Finnish Dialects, compiled extensive material on 19th-century Literary Finnish, which he organized according to its significance. From these pickings made in the 1930s and 1950s, Rapola’s 19th-century vocabulary was created, comprising a total of 44,000 headwords. Rapola made use of this material in many articles published in the 1940s and 1950s and in a selection published in 1960, named ’Sanojemme ensiesiintymiä Agricolasta Yrjö-Koskiseen’, which, as the name implies, contains a vocabulary established in Literary Finnish.

The material published online is based on the original headwords, which have been selectively submitted as a database. It contains information about a total of 5600 words, divided into 1070 concepts. This is about a quarter of the original data.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025110301

Psykolingvistiset tunnusluvut (psychlingdesc)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This material comprises a dataset and a query tool for acquiring commonly used psycholinguistic descriptives for Finnish words. The dataset is based on six large corpora from sources such as magazines, newspapers, movie and tv-series subtitles, encyclopedia topics and Internet discussions.
The material includes word surface form frequencies, lemma frequencies, syllable frequencies and letter n-gram frequencies. In addition the query tool can be used to acquire descriptives such as orthographic neighbors for lists of words.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102428

Suomen kielen Parole-korpus (parole)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This electronic language resource was compiled out of several languages spoken in Europe during the international project Le Parole.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versioihin täytyy hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joidenkin tämän aineiston versioiden kopio voi olla saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake). icon-question-circle

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102427

Suomi-venäjä / venäjä-suomi kaunokirjallisten tekstien rinnakkaiskorpus (ParFin 2016, ParRus 2016)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The corpus contains the sub-corpora ParFin 2016, Finnish-Russian Parallel Corpus of Literary Texts and ParRus 2016, Russian-Finnish Parallel Corpus of Literary Texts.

The sub-corpus ParRus2016 contains Russian literary texts (classical literature & 20th century) and their translations into Finnish aligned at paragraph level.

The sub-corpus ParFin2016 contains Finnish literary texts from 1990-2010 and their translations into Russian aligned at sentence level.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • tämän aineiston versioihin täytyy hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102426

Kokoelma Oxford Text Archiven julkistekstejä (ota)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This is a snapshot of the Oxford Text Archive, for testing purposes. For more up-to-date versions of the archive see http://ota.ox.ac.uk/
The snapshot is available in Kielipankki – the Language Bank of Finland (puhti.csc.fi, /appl/data/kielipankki/ota), see Access rights.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joidenkin tämän aineiston versioiden kopio voi olla saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake). icon-question-circle

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102425

Opusparcus: Open Subtitles Paraphrase Corpus for Six Languages (opusparcus)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Opusparcus is a paraphrase corpus for six European languages: German, English, Finnish, French, Russian, and Swedish. The paraphrases are extracted from the OpenSubtitles2016 corpus, which contains subtitles from movies and TV shows.

The data in Opusparcus has been extracted from OpenSubtitles2016, which is in turn based on data from http://www.opensubtitles.org.

For each target language, the Opusparcus data have been partitioned into three types of data sets: training, development and test sets. The training sets are large, consisting of millions of sentence pairs, and have been compiled automatically, with the help of probabilistic ranking functions. The development and test sets consist of sentence pairs that have been annotated manually; each set contains approximately 1000 sentence pairs that have been verified to be acceptable paraphrases by two annotators.

Opusparcus is available for download at the Language Bank of Finland. The README file in the download folder contains detailed descriptions of the data sets.

Please cite the following paper in any work that utilizes any part of the Opusparcus corpus:
Mathias Creutz (2018). Open Subtitles Paraphrase Corpus for Six Languages. In Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC 2018), 7-12 May, Miyazaki, Japan.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102424

Opus, Helsinki-Korp-versio (opus)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Opus, Helsinki-Korp-versio (https://opus.nlpl.eu), on saatavilla Kielipankissa sekoitetuilla lauseilla.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Lisädokumentaatio

Opus, Helsinki Korp Version -alikorpukset ovat:

OPUS Finnish–Czech
OPUS Finnish–Danish
OPUS Finnish–Dutch
OPUS Finnish–English
OPUS Finnish–Estonian
OPUS Finnish–French
OPUS Finnish–German
OPUS Finnish–Greek
OPUS Finnish–Hungarian
OPUS Finnish–Italian
OPUS Finnish–Polish
OPUS Finnish–Portuguese
OPUS Finnish–Russian
OPUS Finnish–Swedish
OPUS Finnish–Spanish
OPUS Finnish–Turkish

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102423

Suomenkielinen OpenSubtitles 2017 (opensub-fi-2017)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The corpus contains Finnish subtitles for movies and TV-series from http://www.opensubtitles.org

The corpus is a derivative of the OPUS OpenSubtitles2018 multilingual corpus. Information on the material processing up to sentence splitting can be found in the original publication Lison & Tiedemann (2016). The corpus has been tokenized and annotated with morpho-syntactic analysis produced with the Turku Dependency Parser.

P. Lison and J. Tiedemann, 2016, OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016)

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Kaikki tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102422

Kansalliskirjaston klassikkokirjasto – Kielipankki-versio (nlfcl)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This corpus comprises works written in Finnish and Swedish, which are part of the Classics Library of the National Library of Finland and have been published under the license Public Domain.
The data set in Finnish includes 686 works and the data set in Swedish includes 282 works out of the whole data set of 968 works in Finnish and Swedish, gathered from Doria and processed by Niklas Alén in April 2017.

The data set in Doria is an accumulating resource and it comprises works of established Finnish authors published from 1549 onwards. The time coverage for the Kielipankki version is 1549-1944 with the exception of Maria Jotuni’s ’Huojuva talo’ published in 1963 in the Finnish sub-corpus.
The corpus includes classical literature, e.g. prose, plays and poetry.

A list of all works in Finnish in the Kielipankki version sorted by the author
A list of all works in Swedish in the Kielipankki version sorted by the author

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Kaikki tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joidenkin tämän aineiston versioiden kopio voi olla saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake). icon-question-circle

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102421

Namnledslexikon (namnledslexikon)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

This resource is offered by Kotus, Kotimaisten kielten keskus, the Institute for the Languages of Finland. All name components with some frequency in the Swedish place name bank in Finland are presented in the lexicon. There is an emphasis on material from the most common name elements, out of which the majority of the place names are built. In addition to this suffixes and certain word endings are considered, as well as the most common types of loan names.

Visit the resource’s website

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102409

Monikielinen lakitekstien rinnakkaiskorpus (MULCOLD)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The corpus contains international conventions and treaties arranged as a parallel corpus aligned on paragraph level. The languages covered are English, Finnish, German, Russian and Swedish.

The old name of the corpus is MultiJur: Multilingual Parallel Corpus of Legal Texts.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Kaikki tämän aineiston versiot ovat saatavilla julkisesti (PUB).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025102408

Last modified on 2025-10-27

Search the Language Bank Portal:
Dejan Porjazovski
Researcher of the Month: Dejan Porjazovski

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information