Viimeisimmät versiot: | |
Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Avaa aineisto LAT-palvelussa |
Suomalaisen radio- ja tv-korpuksen ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Viimeisimmät versiot: | |
ProGram-aineisto, lumiukko- ja sammakkotarinat, ladattava versio Kuvailutiedot ja lisenssi Viittausohje tulossa | Lataa aineisto |
ProGram-aineisto, lumiukko- ja sammakkotarinat (LAT-palvelussa; tämä versio on poistunut käytöstä joulukuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | (ei enää saatavilla; katso latausversio yllä) |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta on poistunut käytöstä vuoden 2020 lopussa. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla omalle koneelle ladattavana versiona. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Viimeisimmät versiot: | |
Reitti A-siipeen -korpuksen Helsinki-LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto LAT-palvelussa |
Reitti A-siipeen -korpuksen Helsinki-Korp-versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto Korp-palvelussa |
Reitti A-siipeen -korpuksen ladattava versio Kuvailutiedot ja lisenssi Viittausohje tulossa | (Ladattava versio tulossa) |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN– ja Praat-ohjelmilla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21, ellei niistä ole ennestään ollut saatavilla vastaavia ladattavia versioita. Mikäli tarvitset tietyn aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Viimeisimmät versiot: | |
Koltansaamen dokumentaatiokorpus (2016) (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Avaa aineisto LAT-palvelussa |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Viimeisimmät versiot: | |
Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010) (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto LAT-palvelussa |
Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010), ladattava versio Kuvailutiedot ja lisenssi Viittausohje tulossa | (Ladattava versio tulossa) |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21, ellei niistä ole ennestään ollut saatavilla vastaavia ladattavia versioita. Mikäli tarvitset tietyn aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Viimeisimmät versiot: | |
Pohjoissaamen näytekorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Avaa aineisto LAT-palvelussa |
Pohjoissaamen näytekorpus, ladattava versio (tulossa) Kuvailutiedot ja lisenssi Viittausohje tulossa | Hae käyttöoikeutta (Ladattava versio tulossa) |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Viimeisimmät versiot: | |
Murteenseuruukorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto LAT-palvelussa |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Current versions of this resource: | |
The Helsinki Korp Version of the ELFA Corpus Metadata and license Attribution instructions | Select the corpus in Korp |
The Transcriptions of the ELFA Corpus, Downloadable Version Metadata and license Attribution instructions | Download the resource |
The Audio Files of the ELFA Corpus, Downloadable Version Metadata and license Attribution instructions | Apply for rights to access the resource Download the resource |
The Helsinki LAT Version of the ELFA Corpus (NB: THIS VERSION WILL BE REMOVED IN NOV 2020) Metadata and license Attribution instructions | Select the corpus in LAT |
Search for other versions of this resource |
The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).
The data consists of both recordings and their transcripts, which are available in several versions:
Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.
Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.
Due to technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020. After this, the LAT version of the ELFA corpus will no longer be available. This should not affect the users of the ELFA corpus, since there are more accessible versions of the same content are available in Korp and in the download service.
Current versions of this resource: | |
Corpus Title, Korp version Metadata and license Attribution instructions | Select the corpus in Korp |
Corpus Title, download version Metadata and license Attribution instructions | Apply for rights to access the resource Download the resource |
Look for other versions of this resource |
Due to technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020. After this, the LAT version of this corpus will no longer be available. However, the content will be made available for download. In case you urgently need the downloadable data, please contact us.
The corpus consists of…
Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.
Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.
Viimeisimmät versiot: | |
Suomalaisen viittomakielen korpus: kerronta-aineisto (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto LAT-palvelussa |
Suomalaisen viittomakielen korpus: kerronta-aineisto, ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Lataa aineisto |
Suomalaisen viittomakielen korpus: keskusteluaineisto (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto LAT-palvelussa |
Suomalaisen viittomakielen korpus: keskusteluaineisto, ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21, ellei niistä ole ennestään ollut saatavilla vastaavia ladattavia versioita. Mikäli tarvitset tietyn aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Viimeisimmät versiot: | |
Puheen ja EGG:n samanaikaiset tallenteet Kuvailutiedot ja lisenssi Tämän version viittausohje | Avaa aineisto LAT-palvelussa |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Muoto-opin arkiston kaikki aineisto skannattuina pdf-tiedostoina
Aineistot: | |
Muoto-opin arkiston kaikki sanaliput skannattuina | |
Kuvailutiedot ja lisenssi Viittausohje tähän versioon | Hae käyttöoikeutta |
Tämä aineisto on näköiskopio paperisesta Muoto-opin arkistosta. Se sisältää kaiken aineiston, jota Muoto-opin arkistossa oli keväällä 2020 paperimuodossa. Kaikki on skannattu pdf-tiedostoiksi. Aineistoa on 212 pitäjästä.
Muoto-opin Arkisto sisältää systemaattisesti järjestettyä suomen murteiden kieliopillista aineistoa 212 pitäjänmurteesta. Murre-esimerkit on järjestetty 897 signumia käsittävän morfologisen koodiston eli signumien mukaan.
Signumien sisältö käy ilmi täältä:
http://www.kielipankki.fi/wp-content/uploads/ma_keruuopas.pdf
Aineisto on alun perin kirjoitettu A6-kokoisille arkistolipuille. Arkiston aineiston ovat keränneet on koulutetut kerääjät murrepuheesta.
Tämän alkuperäisaineiston pohjalta on jo aiemmin toteutettu toinen aineisto: DMA eli Digitaalinen Muoto-opin Arkisto (dma-Korp). Se sisältää tietokantamuodossa osan tämän paperiaineiston sisällöstä sekä hiukan muutakin pelkästään tietokantaa varten tallennettua aineistoa. Se osa aineistosta on käytettävissä Korp-käyttöliittymän avulla.
Tietoa Korp-käyttöliittymässä käytettävissä olevasta DMA-aineistosta täällä: https://www.kielipankki.fi/aineistot/dma/
On vielä olemassa aiempi ”Digitaalisen Muoto-opin Arkiston sanaliput” (dma-wn) -aineisto. Se sisältää vain ne sanaliput, joista varsinaisesessa Digitaalisessa Muoto-opin Arkistossa (dma-Korp) on aineistoa. Siihen aineistoon pääsee vain dma-Korpin osumien kautta, jos on hankkinut niiden sanalippujen käyttöluvan.
Käyttöluvan hakeneet voivat lisäksi saada nähdäkseen myös kerääjien kirjoittamat keruukertomukset (pdf-muotoon skannatut) murreaineiston keruun sujumisesta ja aineiston lippumuotoon muokkaamisen vaiheista.
Tällä sivulla luetellaan pitäjät, joista aineistoa on. (Klikkaa sanaa ”Pitäjäluettelo”.)
Resources: | |
Digital Morphology Archives Metadata and license Attribution instructions Instructions in Finnish for using the Digital Morphology Archive in Korp |
Select the corpus in Korp |
The Word Notes of the Digital Morphology Archives Metadata and license Attribution instructions |
Apply for rights to access the resource |
The Digital Morphology Archives (DMA) contains 403 963 morphologically coded dialectal clauses from 160 parishes in different parts of Finland. In addition, the archive contains pictures in pdf format of the word notes on which the example clauses are based. These examples describe the morphological phenomena in context. They are extracts from the spontaneous speech of the informants.
The DMA data are based on the Morphology Archives originally available in paper format. The example clauses are available in the Language Bank of Finland’s concordance service Korp, without registration and for unrestricted use licensed under Creative Commons Attribution 4.0 International. The scanned word notes are available by a separate application via the Language Bank Rights (https://lbr.csc.fi).
Search for references to the language resource in Google Scholar
Aineistot: | |
Digitaalinen muoto-opin arkisto Kuvailutiedot ja lisenssi Viittausohje tähän versioon Ohjeita Digitaalisen muoto-opin arkiston (DMA) käyttämiseksi Korpissa |
Avaa aineisto Korp-palvelussa |
Digitaalisen muoto-opin arkiston sanaliput Kuvailutiedot ja lisenssi Viittausohje tähän versioon |
Hae käyttöoikeutta |
Digitaalinen muoto-opin arkisto (DMA) sisältää 403 963 morfologisesti koodattua murrelause-esimerkkiä 160 paikkakunnalta eri puolilta Suomea. Sen lisäksi arkisto sisältää on pdf-kuvat niistä arkiston paperilipuista, joista esimerkkilauseet ovat peräisin. Lause-esimerkit kuvaavat morfologisia ilmiöitä esiintymiskontekstissaan. Ne ovat poimintoja informanttien spontaanista puheesta.
DMA-aineisto pohjautuu alun perin paperimuotoiseen Muoto-opin arkistoon.
Lause-esimerkit ovat Kielipankin kautta avoimesti saatavilla konkordanssipalvelu Korpissa ilman kirjautumista. Sanaliput ovat saatavissa luvan hakeneille käyttäjille.
Etsi viittauksia aineistoon Google Scholar -palvelusta.
Viimeisimmät versiot: | |
Raja-Karjalan korpus, Kielipankin LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Viittausohje tähän versioon | Avaa aineisto LAT-palvelussa |
Raja-Karjalan korpuksen ladattava versio Kuvailutiedot ja lisenssi Viittausohje tähän versioon | Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Raja-Karjalan korpus sisältää yhteensä noin 120 tuntia wav-muotoisia äänitiedostoja sekä niiden suomalais-ugrilaisella tarkekirjoituksella tuotetut transkriptiot sekä raakatekstimuodossa että ääneen kohdistettuina TextGrid-tiedostoina, joista on ”riisuttu” tarkemerkit. TextGrid-muotoisissa annotaatiotiedostoissa eri puhujien puheenvuorot on merkitty eri kerroksiin.
Litterointimerkkien kuvaus (pdf)
Äänitteet edustavat 1800-luvun lopulla ja 1900-luvun alussa syntyneiden rajakarjalaisten haastattelupuhetta, jota on tallennettu Kotimaisten kielten keskuksen Suomen kielen nauhoitearkiston kokoelmiin pääosin 1960- ja 1970-luvuilla. Näytteet edustavat Ilomantsin, Korpiselän, Suojärven, Suistamon, Impilahden ja Salmin pitäjien murretta.
Aineistosta on tarjolla toistaiseksi kaksi versiota. Aineistoa voi kuunnella ja litteraateista voi tehdä hakuja Kielipankin LAT-palvelussa. LAT-palvelusta voi myös ladata yksittäisten haastattelujen (”sessioiden”) tiedostoja niputettuina omalle koneelle. Aineistosta on myös saatavilla kokonaan omalle koneelle ladattava versio.
Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
The latest versions: | |
Plenary Sessions of the Parliament of Finland, Kielipankki Korp-versio 1.5 Metadata and license Citation instructions for this version |
Open the corpus in Korp |
Plenary Sessions of the Parliament of Finland, Downloadable Version 1 Metadata and license Citation instructions for this version |
Download the corpus |
Locate other versions of the same resource |
Plenary Sessions of the Parliament of Finland contains audio and video recordings of the parliamentary sessions and the transcripts that have been aligned with the audio. Both the media files and the original transcripts have been obtained directly from the online public services of the Parliament. The content is openly available via the Language Bank of Finland without logging in.
Via the Korp service in the Language Bank of Finland, it is possible to perform various kinds of content searches on the corpus and to calculate statistics from the results. The turns of different speakers have been separated in the text. In the Extended search tab in Korp, it is possible to delimit searches on the basis of the speaker’s name, the parliamentary group or the role of the speaker.
In the search results of this corpus version in Korp, there are also links to the corresponding utterances in the original video. If you wish, you may download the ELAN/EAF annotation files and the audio files in the downloadable version of the corpus for further processing. Moreover, the original videos and transcripts can also be located in the online services of the Parliament of Finland.
The text in the original transcripts has been aligned with the audio recordings by automatic methods. The technological expertise in the alignment process was provided by Aalto University. In those audio portions where a matching text was not found in the transcript, an automatic speech recognizer was used in order to provide a tentative transcript. Thus, it is important to remember that the text in the Korp version of the corpus is not error-free and it may not always fully correspond to the original transcript.
Further information about the contents of the different corpus versions can be found in their metadata records.
The Semfinlex corpora published in the Language Bank of Finland is based on the open data resources made available in the Semantic Finlex project. The project is hosted by the Semantic Computing Research Group (SeCo) at the Aalto University. More information and links to scientific publications can be found on the website of the project.
NB! 2019-09-13 Discrepancies in dependency parses of the Finnish data: The dependency parses and relations differ significantly from the parses in other corpora parsed earlier with the same parser. We are investigating the issue.
Latest versions: | |
Finnish Parliament original statutes from 1734-2018 in Finnish, Korp version Metadata and license Attribution instructions |
Select the corpus in Korp |
Finnish Parliament original statutes from 1920-2018 in Swedish, Korp version; Ursprungliga författningar av Riksdagen på svenska från 1920-2018, Korp-versionen Metadata and license Attribution instructions |
Select the corpus in Korp |
Finnish Parliament original statutes from 1920-2018, Korp version (Finnish-Swedish parallel corpus) Metadata and license Attribution instructions |
Select the corpus in Korp |
Finnish Parliament original statutes from 1734-2018, downloadable version Metadata and license Attribution instructions |
Download the corpus |
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, Korp version Metadata and license Attribution instructions |
Select the corpus in Korp |
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, downloadable version Metadata and license Attribution instructions |
Download the corpus |
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, Korp version; Avgöranden av Högsta domstolen och Högsta förvaltningsdomstolen på svenska 1980-2018, Korp-versionen Metadata and license Attribution instructions |
Select the corpus in Korp |
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, downloadable version Metadata and license Attribution instructions |
Download the corpus |
Search for these versions in META-SHARE |
The resource has been annotated and the parallel corpus aligned by Erik Axelson in the FIN-CLARIN initiative for the Language Bank of Finland and it is publicly available and no registration or log in is required for access.
The concordancing tool Korp offers various options for searches and for compiling statistics. In the extended search, the user can restrict the search based on the type of the statute or a choose particular a time interval for the search. See the Korp User Guide for more information.
Mode detailed information about the corpora is available in the metadata articles.
Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon (11.11.1919-20.11.2000) teoksia. Iijoki-sarja on 26 teoksesta koostuva Päätalon omaelämäkerrallinen pääteos, jossa kirjailija kuvaa elämäänsä 1910-luvulta aina 1990-luvulle asti.
Viimeisimmät versiot: | |
Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp -versio Kuvailutiedot ja lisenssi Viittausohje tähän versioon |
Avaa aineisto Korp-palvelussa |
Etsi saatavilla olevat versiot |
Aineiston julkaisemisen Kielipankissa ovat tehneet mahdolliseksi Oulun yliopiston yliopistonlehtori Maija Saviniemen aloitteesta Kalle Päätalon omaiset Riitta Päätalo, Aliisa Oksanen ja Emmi Oksanen sekä Gummerus Kustannus. Aineisto on Kielipankin kautta saatavilla tutkimuskäyttöön.
Iijoki-aineiston ensimmäisen Korp-version on FIN-CLARIN-hankkeessa jäsentänyt Erik Axelson Turku NLP -ryhmän Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Aineisto on myös jäsennetty Kielipankissa TDPP-jäsentimellä, joka on Turku BioNLP -ryhmän kehittämän TDT-jäsentimen pohjalta Kielipankissa edelleen kehitetty jäsennin. TDPP-jäsennyksen pohjalta on luotu lista aineiston sisältämistä saneista, joita jäsennin ei ole kyennyt luotettavasti perusmuotoistamaan. Sen sijaan annotaatiossa on merkintä OTHER_UNK. Suuri osa näistä saneista on murresanoja eri muodoissaan joten murresanoja tutkivan kannattaa etsiä niitä aineistosta pintamuotojen avulla.
Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murreanaa (pdf; 31 kt)
Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi valitsemalla hakukriteeriksi teoksen nimen tai ajankohdan ja kirjoittamalla valintakenttään vastaavasti teoksen nimen tai julkaisuvuoden.
Luo uusi aineistotietosivu tämän mallin mukaan.
Viimeisimmät versiot: | |
Aineisto, Korp-versio Kuvailutiedot ja lisenssi Tämän version viittausohje Esimerkkihakuja | Avaa aineisto Korp-palvelussa |
Aineisto, versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!
Aineisto sisältää… (kuvaus yhdellä virkkeellä).
Aineisto on saatavilla Kielipankin kautta avoimesti|tutkimus- ja opetuskäyttöön|luvanvaraisena. Huomaa, että joihinkin aineiston versioihin sisältyy henkilötietoja, joiden käsittelyssä on noudatettava Kielipankin ohjeita.
Tarkempaa tietoa eri aineistoversioiden käyttöoikeuksista ja sisällöstä löytyy niiden kuvailutiedoista.
PLEASE NOTE: FinnWordNet information moved to this location on 2019-09-16. The URLs of FinnWordNet demos and file downloads have changed, and the current URLs are not necessarily final. The demos and file downloads were not available between March and June 2018. Some demos still do not work, and the feedback form is unavailable. We apologize for the situation. (Updated 2019-09-16.)
FinnWordNet – the Finnish WordNet is a lexical database for Finnish. It is a part of the FIN-CLARIN infrastructure project.
FinnWordNet is licensed under the Creative Commons Attribution (CC-BY) 3.0 licence. As a derivative of the Princeton WordNet, FinnWordNet is also subject to the Princeton WordNet licence.
FinnWordNet contains words (nouns, verbs, adjectives and adverbs) grouped by meaning into synonym groups representing concepts. These synonym groups are linked to each other with relations such as hyponymy and antonymy, creating a semantic network.
FinnWordNet can be used in language technology research and applications. It can also be used interactively as an electronic thesaurus.
The first version of FinnWordNet has been created by having the words of the original English (Princeton) WordNet (version 3.0) translated into Finnish by professional translators.
The most recent version of FinnWordNet is 2.0, released in October 2012. The persistent identifier of this version is urn:nbn:fi:lb-2014052714.
Even though FinnWordNet is not currently being actively developed, you can send feedback on it to fin-clarin (at) helsinki.fi.
Please note that the name of the resource is FinnWordNet (with a double n), not FinWordNet.
FinnWordNet data can be searched or viewed in a couple of different search interfaces or demos:
wn
programPlease note that the transducers used in these demos are still based on FinnWordNet version 1.1.2, not the most recent 2.0.
The FinnWordNet data can be downloaded from the download service of the Language Bank of Finland as a ZIP package that contains the data in a couple of different formats:
For more information, please see the README file.
In addition, the package contains the WordNet 3.0 Grind program modified to support FinnWordNet data. Since the downloadable package contains the compiled database, you probably do not need the modified Grind unless you modify the FinnWordNet data (lexicographer files). Compiling the program requires a Unix, Linux or similar environment and a C compiler; please see the associated README file for more information.
Please also note that searching the FinnWordNet data files with the wn
search program requires a version patched by Debian.
Please note that the transducers are currently not available for download. We apologize for the situation. (2019-09-13)
The FinnWordNet (and Princeton WordNet) data is also used in the HFST finite-state transducers that work as Finnish or English thesauri or Finnish–English or English–Finnish translation dictionaries. The transducers recognize inflected forms of words, and the thesauri have variants generating synonyms in the same inflected form as the input word. More information about the transducers is available in the README file.
To use the transducers, you need either the full HFST library and tools (version 3.2.0 or later), the stand-alone HFST optimized lookup (version 1.3 or later) or the Java implementation of the optimized lookup (2011-05-23 or later).
The FinnWordNet data is also downloadable in the WN-LMF (WordNet Lexical Markup Framework) and Lemon (The Lexicon Model for Ontologies) XML formats from the Open Multilingual Wordnet site: download data ZIP package.
Frankie Robertson has made some technical corrections and changes to FinnWordNet data to make it work with the NLTK and extJWNL libraries. The corrected version is available in GitHub. The corrections are yet to be integrated to the official FinnWordNet data.
The FinnWordNet development project ran in 2010–2012. The development of FinnWordNet was funded by the FIN-CLARIN and META-NORD projects. The META-NORD project received funding from the European Union’s ICT Policy Support Programme as part of the Competitiveness and Innovation Framework Programme under grant agreement no. 270899.
The following people participated in the FinnWordNet project:
The FinnWordNet information page has been moved to the Portal of the Language Bank of Finland, and the download location to the Download service of the Language Bank of Finland. The information page has also been updated. Updating the demos and transducers is still partly in progress.
Version 2.0 of FinnWordNet data has been released with thousands of new word senses added and hundreds of existing ones corrected. The data is downloadable and in use in the Web search interface. The search interface no longer asks you to rate the synonymy of random words.
As of version 2.0, FinnWordNet has been extended beyond being a translation of Princeton WordNet by adding new synsets as hyponyms of existing synsets (without glosses and English translations). The new synsets correspond to senses of common Finnish compound words.
The primary data format is now a relational format. See the corresponding README file in the downloadable package for more information.
FinnWordNet 2.0 contains 120,449 synsets (2,790 more than version 1.1.2), 208,645 word senses (16,845 more), 140,515 unique words (9,251 more) and 244,742 translation relations (14,695 more). Some of the additions and corrections are based on the suggestions received from users of FinnWordNet. All feedback is welcome: fin-clarin (at) helsinki.fi.
For more information, please see the NEWS file in the downloadable package.