Suomalainen radio- ja tv-korpus

Viimeisimmät versiot: 
Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio
(LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Suomalaisen radio- ja tv-korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

ProGram-aineisto, lumiukko- ja sammakkotarinat

Viimeisimmät versiot: 
ProGram-aineisto, lumiukko- ja sammakkotarinat
(LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
ProGram-aineisto, lumiukko- ja sammakkotarinat, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Viittausohje tulossa
(Ladattava versio tulossa)
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Reitti A-siipeen -demokorpus

Viimeisimmät versiot: 
Reitti A-siipeen -korpuksen Helsinki-LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Reitti A-siipeen -korpuksen Helsinki-Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto Korp-palvelussa icon-question-circle
Reitti A-siipeen -korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Viittausohje tulossa
(Ladattava versio tulossa)
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN– ja Praat-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21, ellei niistä ole ennestään ollut saatavilla vastaavia ladattavia versioita. Mikäli tarvitset tietyn aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Koltansaamen dokumentaatiokorpus (2016)

Viimeisimmät versiot: 
Koltansaamen dokumentaatiokorpus (2016) (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Kipo-korpus – Suomen viittomakielten kielipoliittinen ohjelma 2010

Viimeisimmät versiot: 
Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010) (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010), ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Viittausohje tulossa
(Ladattava versio tulossa)
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21, ellei niistä ole ennestään ollut saatavilla vastaavia ladattavia versioita. Mikäli tarvitset tietyn aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Pohjoissaamen näytekorpus

Viimeisimmät versiot: 
Pohjoissaamen näytekorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Pohjoissaamen näytekorpus, ladattava versio (tulossa)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-rig Viittausohje tulossa
(Ladattava versio tulossa)
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Murteenseuruukorpus

Viimeisimmät versiot: 
Murteenseuruukorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

ELFA – English as a Lingua Franca in Academic Settings

Current versions of this resource: 
The Helsinki Korp Version of the ELFA Corpus
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
The Transcriptions of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Download the resource
The Audio Files of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Download the resource
The Helsinki LAT Version of the ELFA Corpus
(NB: THIS VERSION WILL BE REMOVED IN NOV 2020)
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Select the corpus in LAT icon-question-circle
Search for other versions of this resource

The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).

The data consists of both recordings and their transcripts, which are available in several versions:

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

Information about the removal of the LAT version of this corpus in November 2020

Due to technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020. After this, the LAT version of the ELFA corpus will no longer be available. This should not affect the users of the ELFA corpus, since there are more accessible versions of the same content are available in Korp and in the download service.

Suomeksi

Corpus Title

Current versions of this resource: 
Corpus Title, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Corpus Title, download version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Download the resource
Look for other versions of this resource

Information about the removal of the LAT version of this corpus in November 2020

Due to technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020. After this, the LAT version of this corpus will no longer be available. However, the content will be made available for download. In case you urgently need the downloadable data, please contact us.

Corpus contents

The corpus consists of…

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

Example queries from the Korp version of this corpus

Suomalaisen viittomakielen korpus

Viimeisimmät versiot: 
Suomalaisen viittomakielen korpus: kerronta-aineisto (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Suomalaisen viittomakielen korpus: kerronta-aineisto, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Suomalaisen viittomakielen korpus: keskusteluaineisto (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussaicon-question-circle
Suomalaisen viittomakielen korpus: keskusteluaineisto, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-versioiden poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21, ellei niistä ole ennestään ollut saatavilla vastaavia ladattavia versioita. Mikäli tarvitset tietyn aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Puheen ja EGG:n samanaikaiset tallenteet

Viimeisimmät versiot: 
Puheen ja EGG:n samanaikaiset tallenteet
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto LAT-palvelussa icon-question-circle
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Muoto-opin arkiston kaikki aineisto skannattuina pdf-tiedostoina

Aineistot:  
 Muoto-opin arkiston kaikki sanaliput skannattuina 
Kuvailutiedot ja lisenssi
Viittausohje tähän versioon
 Hae käyttöoikeutta

Tämä aineisto on näköiskopio paperisesta Muoto-opin arkistosta. Se sisältää kaiken aineiston, jota Muoto-opin arkistossa oli keväällä 2020 paperimuodossa. Kaikki on skannattu pdf-tiedostoiksi. Aineistoa on 212 pitäjästä.

Muoto-opin Arkisto sisältää systemaattisesti järjestettyä suomen murteiden kieliopillista aineistoa 212 pitäjänmurteesta. Murre-esimerkit on järjestetty 897 signumia käsittävän morfologisen koodiston eli signumien mukaan.

Signumien sisältö käy ilmi täältä:

http://www.kielipankki.fi/wp-content/uploads/ma_keruuopas.pdf

Aineisto on alun perin kirjoitettu A6-kokoisille arkistolipuille. Arkiston aineiston ovat keränneet on koulutetut kerääjät murrepuheesta.

Tämän alkuperäisaineiston pohjalta on jo aiemmin toteutettu toinen aineisto: DMA eli Digitaalinen Muoto-opin Arkisto (dma-Korp). Se sisältää tietokantamuodossa osan tämän paperiaineiston sisällöstä sekä hiukan muutakin pelkästään tietokantaa varten tallennettua aineistoa. Se osa aineistosta on käytettävissä Korp-käyttöliittymän avulla.

Tietoa Korp-käyttöliittymässä käytettävissä olevasta DMA-aineistosta täällä: https://www.kielipankki.fi/aineistot/dma/

On vielä olemassa aiempi ”Digitaalisen Muoto-opin Arkiston sanaliput” (dma-wn) -aineisto. Se sisältää vain ne sanaliput, joista varsinaisesessa Digitaalisessa Muoto-opin Arkistossa (dma-Korp) on aineistoa. Siihen aineistoon pääsee vain dma-Korpin osumien kautta, jos on hankkinut niiden sanalippujen käyttöluvan.

Käyttöluvan hakeneet voivat lisäksi saada nähdäkseen myös kerääjien kirjoittamat keruukertomukset (pdf-muotoon skannatut) murreaineiston keruun sujumisesta ja aineiston lippumuotoon muokkaamisen vaiheista.

Tällä sivulla luetellaan pitäjät, joista aineistoa on. (Klikkaa sanaa ”Pitäjäluettelo”.)

Suomeksi

DMA, The Digital Morphology Archives

Resources:  
Digital Morphology Archives
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Instructions in Finnish for using the Digital Morphology Archive in Korp
Select the corpus in Korp icon-question-circle
The Word Notes of the Digital Morphology Archives
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
 

The Digital Morphology Archives (DMA) contains 403 963 morphologically coded dialectal clauses from 160 parishes in different parts of Finland. In addition, the archive contains pictures in pdf format of the word notes on which the example clauses are based. These examples describe the morphological phenomena in context. They are extracts from the spontaneous speech of the informants.

The DMA data are based on the Morphology Archives originally available in paper format. The example clauses are available in the Language Bank of Finland’s concordance service Korp, without registration and for unrestricted use licensed under Creative Commons Attribution 4.0 International. The scanned word notes are available by a separate application via the Language Bank Rights (https://lbr.csc.fi).

Search for references to the language resource in Google Scholar

In English

DMA, Digitaalinen muoto-opin arkisto

Aineistot:
Digitaalinen muoto-opin arkisto
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Ohjeita Digitaalisen muoto-opin arkiston (DMA) käyttämiseksi Korpissa
Avaa aineisto Korp-palvelussa icon-question-circle
Digitaalisen muoto-opin arkiston sanaliput
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Hae käyttöoikeutta

Digitaalinen muoto-opin arkisto (DMA) sisältää 403 963 morfologisesti koodattua murrelause-esimerkkiä 160 paikkakunnalta eri puolilta Suomea. Sen lisäksi arkisto sisältää on pdf-kuvat niistä arkiston paperilipuista, joista esimerkkilauseet ovat peräisin. Lause-esimerkit kuvaavat morfologisia ilmiöitä esiintymiskontekstissaan. Ne ovat poimintoja informanttien spontaanista puheesta.

DMA-aineisto pohjautuu alun perin paperimuotoiseen Muoto-opin arkistoon.

Lause-esimerkit ovat Kielipankin kautta avoimesti saatavilla konkordanssipalvelu Korpissa ilman kirjautumista. Sanaliput ovat saatavissa luvan hakeneille käyttäjille.

Etsi viittauksia aineistoon Google Scholar -palvelusta.

In English

Raja-Karjalan korpus (FINKA)

Viimeisimmät versiot: 
Raja-Karjalan korpus, Kielipankin LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto LAT-palvelussa icon-question-circle
Raja-Karjalan korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Raja-Karjalan korpus sisältää yhteensä noin 120 tuntia wav-muotoisia äänitiedostoja sekä niiden suomalais-ugrilaisella tarkekirjoituksella tuotetut transkriptiot sekä raakatekstimuodossa että ääneen kohdistettuina TextGrid-tiedostoina, joista on ”riisuttu” tarkemerkit. TextGrid-muotoisissa annotaatiotiedostoissa eri puhujien puheenvuorot on merkitty eri kerroksiin.

Litterointimerkkien kuvaus (pdf)

Äänitteet edustavat 1800-luvun lopulla ja 1900-luvun alussa syntyneiden rajakarjalaisten haastattelupuhetta, jota on tallennettu Kotimaisten kielten keskuksen Suomen kielen nauhoitearkiston kokoelmiin pääosin 1960- ja 1970-luvuilla. Näytteet edustavat Ilomantsin, Korpiselän, Suojärven, Suistamon, Impilahden ja Salmin pitäjien murretta.

Aineistosta on tarjolla toistaiseksi kaksi versiota. Aineistoa voi kuunnella ja litteraateista voi tehdä hakuja Kielipankin LAT-palvelussa. LAT-palvelusta voi myös ladata yksittäisten haastattelujen (”sessioiden”) tiedostoja niputettuina omalle koneelle. Aineistosta on myös saatavilla kokonaan omalle koneelle ladattava versio.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Suomeksi

Plenary Sessions of the Parliament of Finland

The latest versions:  
Plenary Sessions of the Parliament of Finland, Kielipankki Korp-versio 1.5
icon-info-circle Metadata and license
icon-quote-right Citation instructions for this version
Open the corpus in Korp icon-question-circle
Plenary Sessions of the Parliament of Finland, Downloadable Version 1
icon-info-circle Metadata and license
icon-quote-right Citation instructions for this version
Download the corpus
Locate other versions of the same resource  

Plenary Sessions of the Parliament of Finland contains audio and video recordings of the parliamentary sessions and the transcripts that have been aligned with the audio. Both the media files and the original transcripts have been obtained directly from the online public services of the Parliament. The content is openly available via the Language Bank of Finland without logging in.

Via the Korp service in the Language Bank of Finland, it is possible to perform various kinds of content searches on the corpus and to calculate statistics from the results. The turns of different speakers have been separated in the text. In the Extended search tab in Korp, it is possible to delimit searches on the basis of the speaker’s name, the parliamentary group or the role of the speaker.

In the search results of this corpus version in Korp, there are also links to the corresponding utterances in the original video. If you wish, you may download the ELAN/EAF annotation files and the audio files in the downloadable version of the corpus for further processing. Moreover, the original videos and transcripts can also be located in the online services of the Parliament of Finland.

The text in the original transcripts has been aligned with the audio recordings by automatic methods. The technological expertise in the alignment process was provided by Aalto University. In those audio portions where a matching text was not found in the transcript, an automatic speech recognizer was used in order to provide a tentative transcript. Thus, it is important to remember that the text in the Korp version of the corpus is not error-free and it may not always fully correspond to the original transcript.

Further information about the contents of the different corpus versions can be found in their metadata records.

suomeksi

Semfinlex Kielipankki version

The Semfinlex corpora published in the Language Bank of Finland is based on the open data resources made available in the Semantic Finlex project. The project is hosted by the Semantic Computing Research Group (SeCo) at the Aalto University. More information and links to scientific publications can be found on the website of the project.

NB! 2019-09-13 Discrepancies in dependency parses of the Finnish data: The dependency parses and relations differ significantly from the parses in other corpora parsed earlier with the same parser. We are investigating the issue.

Latest versions:  
Finnish Parliament original statutes from 1734-2018 in Finnish, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Parliament original statutes from 1920-2018 in Swedish, Korp version; Ursprungliga författningar av Riksdagen på svenska från 1920-2018, Korp-versionen
icon-info-circleMetadata and license
icon-quote-right Attribution instructions
Select the corpus in Korpicon-question-circle
Finnish Parliament original statutes from 1920-2018, Korp version (Finnish-Swedish parallel corpus)
icon-info-circleMetadata and license
icon-quote-right Attribution instructions
Select the corpus in Korpicon-question-circle
Finnish Parliament original statutes from 1734-2018, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, Korp version; Avgöranden av Högsta domstolen och Högsta förvaltningsdomstolen på svenska 1980-2018, Korp-versionen
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Search for these versions in META-SHARE  

The resource has been annotated and the parallel corpus aligned by Erik Axelson in the FIN-CLARIN initiative for the Language Bank of Finland and it is publicly available and no registration or log in is required for access.

The concordancing tool Korp offers various options for searches and for compiling statistics. In the extended search, the user can restrict the search based on the type of the statute or a choose particular a time interval for the search. See the Korp User Guide for more information.

Mode detailed information about the corpora is available in the metadata articles.

Oulun yliopiston Päätalo-kokoelma

Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon (11.11.1919-20.11.2000) teoksia. Iijoki-sarja on 26 teoksesta koostuva Päätalon omaelämäkerrallinen pääteos, jossa kirjailija kuvaa elämäänsä 1910-luvulta aina 1990-luvulle asti.

Viimeisimmät versiot:  
Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp -versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto Korp-palvelussa icon-question-circle
Etsi saatavilla olevat versiot  

Aineiston julkaisemisen Kielipankissa ovat tehneet mahdolliseksi Oulun yliopiston yliopistonlehtori Maija Saviniemen aloitteesta Kalle Päätalon omaiset Riitta Päätalo, Aliisa Oksanen ja Emmi Oksanen sekä Gummerus Kustannus. Aineisto on Kielipankin kautta saatavilla tutkimuskäyttöön.

Iijoki-aineiston ensimmäisen Korp-version on FIN-CLARIN-hankkeessa jäsentänyt Erik Axelson Turku NLP -ryhmän Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Aineisto on myös jäsennetty Kielipankissa TDPP-jäsentimellä, joka on Turku BioNLP -ryhmän kehittämän TDT-jäsentimen pohjalta Kielipankissa edelleen kehitetty jäsennin. TDPP-jäsennyksen pohjalta on luotu lista aineiston sisältämistä saneista, joita jäsennin ei ole kyennyt luotettavasti perusmuotoistamaan. Sen sijaan annotaatiossa on merkintä OTHER_UNK. Suuri osa näistä saneista on murresanoja eri muodoissaan joten murresanoja tutkivan kannattaa etsiä niitä aineistosta pintamuotojen avulla.

Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murreanaa (pdf; 31 kt)

Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi valitsemalla hakukriteeriksi teoksen nimen tai ajankohdan ja kirjoittamalla valintakenttään vastaavasti teoksen nimen tai julkaisuvuoden.

In English

Aineiston nimi

Luo uusi aineistotietosivu tämän mallin mukaan.

Viimeisimmät versiot: 
Aineisto, Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Esimerkkihakuja
Avaa aineisto Korp-palvelussa icon-question-circle
Aineisto, versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Aineiston sisältö

Aineisto sisältää… (kuvaus yhdellä virkkeellä).

Aineisto on saatavilla Kielipankin kautta avoimesti|tutkimus- ja opetuskäyttöön|luvanvaraisena. Huomaa, että joihinkin aineiston versioihin sisältyy henkilötietoja, joiden käsittelyssä on noudatettava Kielipankin ohjeita.

Tarkempaa tietoa eri aineistoversioiden käyttöoikeuksista ja sisällöstä löytyy niiden kuvailutiedoista.

Esimerkkihakuja aineiston Korp-versiosta

Suomeksi

FinnWordNet – The Finnish WordNet CC BY 3.0

PLEASE NOTE: FinnWordNet information moved to this location on 2019-09-16. The URLs of FinnWordNet demos and file downloads have changed, and the current URLs are not necessarily final. The demos and file downloads were not available between March and June 2018. Some demos still do not work, and the feedback form is unavailable. We apologize for the situation. (Updated 2019-09-16.)

General information

FinnWordNet – the Finnish WordNet is a lexical database for Finnish. It is a part of the FIN-CLARIN infrastructure project.

FinnWordNet is licensed under the Creative Commons Attribution (CC-BY) 3.0 licence. As a derivative of the Princeton WordNet, FinnWordNet is also subject to the Princeton WordNet licence.

FinnWordNet contains words (nouns, verbs, adjectives and adverbs) grouped by meaning into synonym groups representing concepts. These synonym groups are linked to each other with relations such as hyponymy and antonymy, creating a semantic network.

FinnWordNet can be used in language technology research and applications. It can also be used interactively as an electronic thesaurus.

The first version of FinnWordNet has been created by having the words of the original English (Princeton) WordNet (version 3.0) translated into Finnish by professional translators.

The most recent version of FinnWordNet is 2.0, released in October 2012. The persistent identifier of this version is urn:nbn:fi:lb-2014052714.

Even though FinnWordNet is not currently being actively developed, you can send feedback on it to fin-clarin (at) helsinki.fi.

Please note that the name of the resource is FinnWordNet (with a double n), not FinWordNet.

Search interfaces and demos

FinnWordNet data can be searched or viewed in a couple of different search interfaces or demos:

  • Dictionaries as HFST transducers: The FinnWordNet content has been encoded in various HFST finite-state transducers working as thesauri and translation dictionaries:

    Please note that the transducers used in these demos are still based on FinnWordNet version 1.1.2, not the most recent 2.0.

  • WordTies browser:
    WordTies is a multilingual wordnet browser or visualization interface developed in the EU project META-NORD, based on the Andre Ord browser for the Danish DanNet. It visualizes concept hierarchies and relations between concepts (synonym sets) (but not lexical relations such as antonymy). WordTies also links 1000 common concepts in FinnWordNet to concepts in the Danish, Estonian and Swedish wordnets.
  • The Open Multilingual Wordnet search interface (choose Finnish as one of the languages)

Download data

FinnWordNet data package

The FinnWordNet data can be downloaded from the download service of the Language Bank of Finland as a ZIP package that contains the data in a couple of different formats:

  • relations in a tab-separated-values (TSV) format: synonym sets, word senses, semantic and lexical relations, and translations;
  • Princeton WordNet database format;
  • Princeton WordNet lexicographer file format (source format for the data files); and
  • various additional lists (synsets, translations, relations) in a tab-separated-values format, complementing the relational data.

For more information, please see the README file.

In addition, the package contains the WordNet 3.0 Grind program modified to support FinnWordNet data. Since the downloadable package contains the compiled database, you probably do not need the modified Grind unless you modify the FinnWordNet data (lexicographer files). Compiling the program requires a Unix, Linux or similar environment and a C compiler; please see the associated README file for more information.

Please also note that searching the FinnWordNet data files with the wn search program requires a version patched by Debian.

HFST thesaurus and translation dictionary transducers based on FinnWordNet

Please note that the transducers are currently not available for download. We apologize for the situation. (2019-09-13)

The FinnWordNet (and Princeton WordNet) data is also used in the HFST finite-state transducers that work as Finnish or English thesauri or Finnish–English or English–Finnish translation dictionaries. The transducers recognize inflected forms of words, and the thesauri have variants generating synonyms in the same inflected form as the input word. More information about the transducers is available in the README file.

  • English thesauri
  • Finnish thesauri
  • Finnish–English and English–Finnish translation dictionaries

To use the transducers, you need either the full HFST library and tools (version 3.2.0 or later), the stand-alone HFST optimized lookup (version 1.3 or later) or the Java implementation of the optimized lookup (2011-05-23 or later).

FinnWordNet in WN-LMF and Lemon

The FinnWordNet data is also downloadable in the WN-LMF (WordNet Lexical Markup Framework) and Lemon (The Lexicon Model for Ontologies) XML formats from the Open Multilingual Wordnet site: download data ZIP package.

Technical corrections to FinnWordNet by Frankie Robertson

Frankie Robertson has made some technical corrections and changes to FinnWordNet data to make it work with the NLTK and extJWNL libraries. The corrected version is available in GitHub. The corrections are yet to be integrated to the official FinnWordNet data.

Publications

General description

Bilinguality and technical aspects

Extending FinnWordNet

Applications

Other research that uses FinnWordNet

  • Krasimir Angelov and Gleb Lobanov. 2016. Predicting Translation Equivalents in Linked WordNets. In Proceedings of the Sixth Workshop on Hybrid Approaches to Translation. 26–32.
  • Jörg Tiedemann, Filip Ginter and Jenna Kanerva. 2015. Morphological Segmentation and OPUS for Finnish–English Machine Translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation. ACL. 177–183.
  • Klaus Förger, Timo Honkela and Tapio Takala. 2013. Impact of Varying Vocabularies on Controlling Motion of a Virtual Actor. In Intelligent Virtual Agents: 13th International Conference, IVA 2013, Edinburgh, UK, August 29-31, 2013. Proceedings. 230–248. doi:10.1007/978-3-642-40415-3_21

Project information

The FinnWordNet development project ran in 2010–2012. The development of FinnWordNet was funded by the FIN-CLARIN and META-NORD projects. The META-NORD project received funding from the European Union’s ICT Policy Support Programme as part of the Competitiveness and Innovation Framework Programme under grant agreement no. 270899.

The following people participated in the FinnWordNet project:

Advisors:
Krister Lindén (project leader) (2010–), Lauri Carlson (2010–2012), Ulla Vanhatalo (2010–2012)
Other members:
Hissu Hyvärinen (2010–2012), Juha Kuokkala (2012), Kristiina Muhonen (2010), Jyrki Niemi (2010–2012), Pinja Pennala (2012), Paula Pääkkö (2010–2011)

News

New locations for the FinnWordNet information page and download (2019-09-19)

The FinnWordNet information page has been moved to the Portal of the Language Bank of Finland, and the download location to the Download service of the Language Bank of Finland. The information page has also been updated. Updating the demos and transducers is still partly in progress.

Version 2.0 of FinnWordNet released (2012-10-05)

Version 2.0 of FinnWordNet data has been released with thousands of new word senses added and hundreds of existing ones corrected. The data is downloadable and in use in the Web search interface. The search interface no longer asks you to rate the synonymy of random words.

As of version 2.0, FinnWordNet has been extended beyond being a translation of Princeton WordNet by adding new synsets as hyponyms of existing synsets (without glosses and English translations). The new synsets correspond to senses of common Finnish compound words.

The primary data format is now a relational format. See the corresponding README file in the downloadable package for more information.

FinnWordNet 2.0 contains 120,449 synsets (2,790 more than version 1.1.2), 208,645 word senses (16,845 more), 140,515 unique words (9,251 more) and 244,742 translation relations (14,695 more). Some of the additions and corrections are based on the suggestions received from users of FinnWordNet. All feedback is welcome: fin-clarin (at) helsinki.fi.

For more information, please see the NEWS file in the downloadable package.

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317