ELFA – English as a Lingua Franca in Academic Settings

Current versions of this resource: 
The Helsinki Korp Version of the ELFA Corpus
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
The Transcriptions of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Download the resource
The Audio Files of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Download the resource
Search for other versions of this resource

The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).

The data consists of both recordings and their transcripts, which are available in several versions:

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

The old LAT version of this corpus was removed in 2020

The experimental corpus version The Helsinki LAT Version of the ELFA Corpus is no longer available since the LAT service (lat.csc.fi) was discontinued in the Language Bank of Finland in December 2020. However, more accessible versions of the same content are maintained in Korp and in the download service.

Suomeksi

Corpus Title

Current versions of this resource: 
Corpus Title, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Corpus Title, download version
icon-info-circle Metadata and license
icon-exclamation-triangle PRIV: See privacy guidelines
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Download the resource
Look for other versions of this resource

Information about the removal of the LAT version of this corpus in November 2020

Due to technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020. After this, the LAT version of this corpus will no longer be available. However, the content will be made available for download. In case you urgently need the downloadable data, please contact us.

Corpus contents

The corpus consists of…

Other details about the content and the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

Example queries from the Korp version of this corpus


Privacy guidelines

Corpus XYZ contains personal data. When using the corpus, follow the personal data guidelines provided by the Language Bank of Finland. Below, you can find a description of the types of personal data that are included in the corpus as well as details on additional specific restrictions that you need to comply with when processing the personal data in question.

[This part should contain the description and corpus-specific restrictions regarding the processing of the personal data in the corpus, as stated by the data controller in the deposition license agreement.]

Guidelines for processing corpora stored in the Language Bank of Finland that contain personal data

Suomeksi

URN for this page: http://urn.fi/urn:nbn:fi:lb-2020081522

Always comply with these guidelines when processing corpora obtained from the Language Bank of Finland that contain personal data.

Does the corpus contain personal data?

Corpora stored in the Language Bank of Finland that contain personal data have the following label in their licence:

PRIV: There are personal data in the resource.

The licence details of individual corpora can be found in the corpora listing of the Language Bank of Finland next to the corpus in question as well as in its metadata, which can be accessed using the persistent identifier assigned to the corpus (i.e., the URN address included in the citation instructions).

Description of the personal data included in the corpus

The metadata of corpora labelled PRIV can contain a separate description of the personal data included in the corpus. Descriptions of personal data include the following details:

  • Controller of the original data
  • Types of personal data and data subject groups included in the corpus 
  • Original legal grounds for the processing of personal data
  • Description of the grounds for which purposes the corpus can be further distributed by the Language Bank of Finland
  • Detailed processing instructions pertaining to the specific corpus, if any

If no separate description of personal data for a specific corpus is available, and if you cannot find corresponding information in its general description, please request clarification from the FIN-CLARIN service address: fin-clarin(at)helsinki.fi.

How to process corpora that contain personal data?

By using the corpora stored in the Language Bank of Finland, you undertake to comply with the general terms of use of the Language Bank of Finland as well as corpus-specific special terms. 

When using a PRIV-labelled corpus, you undertake to process the personal data included in it confidentially, carefully and solely for the purpose for which you were granted access to the corpus.

  • If you are granted access to a corpus on the basis of a personal application and you have presented a research plan or a similar description of the purpose in connection with the application, you can use the corpus only for the purpose stated. Additional restrictions may apply to individual corpora, which are stated in connection with the application process.
  • If you gain access to a corpus without a separate application, but access requires logging in as a researcher or student, the corpus can be processed only for research and teaching purposes.

When processing corpora that contain personal data, please apply sufficient protective measures in accordance with the instructions provided by your own organisation. Special care is needed when processing corpora that contain sensitive personal data (also known as special categories of data).

Carry out your duties as the data controller

When starting to process a corpus obtained through the Language Bank of Finland that contains personal data for the purposes of new research or another purpose, you and/or your home organisation assume the role of data controller for the corpus. Among other responsibilities, the controller is obliged to demonstrate the lawfulness of the processing of personal data, when necessary.

The instructions provided by your own organisation must be observed in the first instance when processing personal data. If instructions provided by your home organisation are unavailable, you can familiarise yourself, for example, with the Data Management Guidelines published by the Finnish Social Science Data Archive when planning the processing.

Remember to draw up a privacy notice

As the controller, you must usually draw up a privacy notice on the processing of personal data. Comply with the instructions provided by your own organisation in this instance as well. When drawing up a privacy notice, you can utilise the privacy notice associated with the original corpus, or the description of the personal data included in it.

When starting to use a corpus stored in the Language Bank of Finland that contains personal data, first publish the privacy notice pertaining to your purpose of processing, for example, on a website provided by your organisation. You can share a short title of your project that is understandable to the general public as well as a link to the openly available privacy notice by using this formWe publish this information on the Language Bank of Finland website to make it available to anyone interested in the purposes for which the corpus is used.

Apply proportionate protective measures

Comply with the guidelines of your own organisation. When necessary, you can view examples of protective measures employed by the Language Bank of Finland and other potential measures which you may need when processing personal data. 

Personal data in scientific presentations and publications

Personal data must also be processed responsibly and in compliance with good ethics when creating scientific publications and presentations based on corpora.

When reporting on the results of scientific research, personal data must be, as a rule, removed or redacted, for example, by pseudonymisation and by classifying data subjects’ age, domicile and other details into more extensive categories so that study participants cannot be identified on the basis of such details or by combining them with other data.

In certain cases, presenting scientific research results requires the presentation of data that contain personal data. For example, it may be necessary to link short individual samples from the corpus to a scientific article, or a specific section must be presented in connection with a conference presentation. However, carefully consider the potential impact on and risk to the study subjects, their family members or others close to them associated with publishing or presenting samples that contain personal data. The scope of the samples intended for publication must not exceed the scientific purposes, and all unnecessary personal data must be removed or pseudonymised from the samples using appropriate means.

Please also note that if the study subjects have been, for some reason, clearly informed that no personal data associated with them will be published, and the sample to be published cannot be fully anonymised, a separate consent for publishing the sample must be requested from the subjects.

Several purposes? 

If a PRIV-labelled corpus, which requires access rights, is to be processed for more than one purpose – for example, if at a later date there is a wish to carry out a new study not directly connected to the previous topic – access rights must be applied for from the Language Bank of Finland separately for each purpose. Naturally, all grounds for the processing must be stated in the privacy notice(s).

Errors and misconduct

If you come across personal data which you believe should not be included in a corpus based on its description, please report the matter immediately to the Language Bank of Finland and/or directly to the controller of the data. This also applies to instances where you suspect that personal data have, for some reason, fallen into the wrong hands.

Privacy practices of the Language Bank of Finland

Donate Speech (Lahjoita puhetta)

Suomeksi

The Language Bank of Finland (Kielipankki) is working together with the Finnish Broadcasting Company (Yle) and the Finnish State Development Company (Vake Oy) in the Donate Speech campaign (Lahjoita puhetta). Experts from Aalto University and the University of Turku have also participated in the project.

The goal is to gather 10000 hours of ordinary, casual Finnish speech that can be used for studying language as well as for developing technology and services that can be readily used in Finnish. In this project, particular attention has been paid in order to allow for both academic and commercial use of the material under given terms.

Speech is donated via the web browser or mobile app that offers a selection of tasks under fun themes that can inspire and encourage you to talk. The app was developed by Solita.

Who can donate?

All variants of spoken Finnish are welcome, including the speech of second-language Finnish learners. As long as you speak some Finnish and can understand the Finnish information and instructions in the app, you can donate!

What happens to the donated speech?

The speech material donated during the campaign will be stored in the Language Bank of Finland (Kielipankki), coordinated by the University of Helsinki.

The speech material can be redistributed to individual researchers, universities and research organizations or private companies that need it for studying language or artificial intelligence, for developing AI solutions or for higher education purposes related to the aforementioned areas.

Read more about processing personal data in the Donate Speech campaign (in Finnish) and the privacy practices of the Language Bank of Finland.

How much does it cost to use the speech material?

The Language Bank of Finland will begin redistributing the speech data when a sufficient amount of material has been donated and when the appropriate application process is in place. For academic researchers, the use of the data will be free of charge, similarly to the rest of the services of the Language Bank of Finland. For commercial use, a fee will probably be charged in order to cover handling costs. Details about the pricing will be provided at a later stage.

What kind of research is performed on data that are available via the Language Bank of Finland?

You can find some examples of research topics in the Researcher of the Month archive of the Language Bank of Finland.

Feedback about the Donate Speech campaign especially?

Please contact the email address palaute (ATT) lahjoitapuhettatuki.fi.

The Donate Speech (Lahjoita puhetta) campaign kicks off 16.6.2020

The Language Bank of Finland is working together with the Finnish Broadcasting Company (Yle) and the Finnish State Development Company (Vake Oy) in the Donate Speech campaign (Lahjoita puhetta) launching on 16th June 2020. The aim of this project is to collect all kinds of Finnish speech from all kinds of people, from all over Finland and abroad.

By donating your speech, you can help researchers and companies to study language and to develop technology and services that can be used in Finnish more fluently in the future. All variants of spoken Finnish are welcome – including the speech of second-language Finnish learners. As long as you speak some Finnish and can understand the Finnish instructions in the app, you can donate!

Read more about the contribution of the Language Bank of Finland (in Finnish)

Go and donate your speech!

See also:

Interview of Mietta Lennes in the morning radio program Puheen Aamu on Yle Puhe 16.6.2020 (the program is available in Finnish for one week after time of broadcast)

In English

Suojatoimet

Julkisesti saatavilla olevien aineistojen lisäksi Kielipankissa voidaan säilyttää ja välittää myös sellaisia aineistoja, joiden käsittely edellyttää suojatoimia esimerkiksi aineiston sisältämien henkilötietojen vuoksi.

Henkilötietoja on yleensä mukana mm. ääntä tai videota sisältävissä puheaineistoissa. Näissä tapauksissa aineisto ei yleensä voi olla täysin avoimesti saatavilla, mutta tietyillä ehdoilla sekin on mahdollista tallettaa Kielipankkiin. Tällä sivulla kuvataan muutamia suojatoimia, joiden avulla henkilötietoja sisältävän aineiston välittäminen voidaan tapauskohtaisesti järjestää.

Henkilötietojen käsittelyyn ja tarvittaviin suojatoimiin liittyvät päätökset ovat viime kädessä kyseisen aineiston rekisterinpitäjän vastuulla. Tarvittavista palveluista voi neuvotella Kielipankin kanssa.

Miksi tutkimusaineisto pitäisi säilyttää?

Tutkimusaineiston kerääminen ja järjestäminen tutkimuksen edellyttämään muotoon on aikaavievää, työlästä ja kallista. Mikäli aineistolle on odotettavissa uutta käyttöä, sen säilyttäminen voi olla perusteltua, vaikka aineisto sisältäisikin henkilötietoja ja vaikka osa tiedoista olisi arkaluonteisia. Perusteet henkilötietojen säilyttämiseen on kuitenkin aina huolellisesti dokumentoitava ja niistä on informoitava tutkittavia. Lisäksi henkilötietojen käsittelyssä on käytettävä tarkoituksenmukaisia suojatoimia.

Mahdollisuus tutkimuksen verifiointiin ja toistamiseen

Tieteellisessä tutkimuksessa on tärkeää, että joku toinen tutkija pystyy tarvittaessa toistamaan aiemmin julkaistun tutkimuksen täsmälleen samalla aineistolla varmistaakseen, onko alkuperäinen tutkimus toteutettu oikein. Esimerkiksi tieteellisen tutkimuksen vertaisarviointi saattaa edellyttää arvioijan pääsyä tutkimuksessa käytettyyn aineistoon.

Mahdollisuus jatkotutkimukseen ja uusiin näkökulmiin

Alkuperäisen tutkimushankkeen päättymisen jälkeen halutaan usein tehdä jatkotutkimus joko samasta tai saman tyyppisestä aiheesta, jolloin aineistoa tarvitaan uudelleen. Tutkimushypoteesi pitää kenties muotoilla toisella tavalla tai halutaan kokeilla uutta analyysimenetelmää. Joskus samasta aihepiiristä kaivataan laajempaa tutkimusta, jota varten on välttämätöntä analysoida joukko aiemmin kerättyjä aineistoja. Uuden, massiivisen aineiston kerääminen alusta asti olisi usein liian kallista tai muuten hankalaa. Silloin aiemmin kerätty, huolellisesti dokumentoitu ja turvallisesti säilytetty aineisto voi osoittautua aarteeksi.

Tieteellisen tutkimuksen ohella myös historiallinen tai tilastollinen tutkimus voivat olla henkilötietojen käsittelyn perusteita. Kieliaineistojen kohdalla esimerkiksi puhetallenteiden säilyttämistä voinee joissakin tapauksissa perustella niiden historiallisella ja kulttuurisella arvolla.

Kuinka kauan aineistoa voi säilyttää Kielipankissa?

Tietyn tyyppiset tutkimukset edellyttävät eettistä ennakkoarviointia. Silloin tutkija hakee tutkimuseettiseltä toimikunnalta lausuntoa ennen aineiston keräämisen aloittamista. Esimerkiksi lääketieteellisessä tutkimuksessa tutkimuseettinen toimikunta saattaa lähtökohtaisesti edellyttää aineiston tuhoamista tutkimuksen päätyttyä. Lausuntopyynnössä kannattaakin esittää selkeästi perustelut aineiston säilyttämiselle sekä mahdollisimman tarkka suunnitelma aineistoon sovellettavista suojatoimista.

Tutkimuksen yhteydessä tutkittavia on selkeästi informoitava myös henkilötietojen käsittelyssä sovellettavista suojatoimista. Kannattaa huomata myös, että jos tutkittaville on jo alkuperäisen informoinnin yhteydessä kerrottu, että heidän aineistonsa tuhotaan määräajan päätyttyä, tätä lupausta ei yleensä voi jälkikäteen perua (jollei tutkittaviin ole mahdollista ottaa uudelleen yhteyttä, informoida heitä jatkotutkimuksista ja pyytää osallistumaan myös niihin).

Voit lukea tietosuojasta ja tutkittavien informoinnista lisää esim. Tietoarkiston julkaisemasta Aineistonhallinnan käsikirjasta.

Millaisia suojatoimia aineiston koostaja voi käyttää?

Henkilötietojen käsittelyssä käytettävien laitteiden ja järjestelmien tietoturvan on oltava riittävä ja ajan tasalla. Aineiston suojaamisesta on muistettava huolehtia saumattomasti alusta loppuun myös tiedonsiirron aikana.

Aineiston koostaja tai aineistoa Kielipankkiin tallettava taho voi tarvittaessa suojata henkilötietoja sisältävää aineistoa esimerkiksi pseudonymisoimalla sen käsittelytarkoituksen kannalta sopivalla tavalla ja luokittelemalla henkilötietoja siten, että niistä tulee vähemmän yksilöiviä.

Tarvittaessa tunnisteellista aineistoa voidaan säilyttää salaamalla tiedot riittävän vahvalla salausavaimella.

Pseudonymisointi on tutkijan vastuulla

Jos aineisto on pseudonymisoitu ja tutkittaviin henkilöihin liittyvää koodiavainta on tarpeen säilyttää, koodiavain on pidettävä sekä teknisesti että hallinnollisesti erillään varsinaisesta aineistosta. Huomaa, että Kielipankki ei huolehdi aineiston pseudonymisoinnista eikä tutkittaviin liittyviä koodiavaimia oteta Kielipankkiin säilytettäväksi. Aineiston sisällön, tiedostonimien jne. koodaaminen on siis tutkijan omalla vastuulla.

Täydellinen anonymisointi poistaa suojatoimien tarpeen

Mikäli aineisto on mahdollista kokonaan anonymisoida ts. voidaan todeta, ettei elossa olevia henkilöitä voida anonymisoidun aineiston perusteella mitenkään tunnistaa (edes yhdistämällä aineiston tietoja jostakin muualta löytyviin tietoihin), aineisto ei enää sisällä henkilötietoja. Täysin anonyymia aineistoa ei tarvitse tietosuojasäädösten perusteella erikseen suojata. Toisin sanoen kokonaan anonyymi aineisto, johon ei liity esimerkiksi tekijänoikeudellisia rajoituksia, voidaan julkaista avoimesti.

Usein aineiston täydellinen anonymisointi on käytännössä mahdotonta joko työmäärän vuoksi tai teknisistä syistä, tai täydellinen anonymisointi tekisi aineiston tutkimuksen kannalta käyttökelvottomaksi. Jos tällainen aineisto on kuitenkin tarpeen säilyttää, siitä tulee mahdollisuuksien mukaan korvata selvästi tarpeettomat tunnisteet. Kielipankissa aineistoon voidaan soveltaa muita suojatoimia, esimerkiksi rajoittamalla pääsy aineistoon vain tietyille käyttäjille (ks. alla).

Voit lukea aineistojen anonymisoinnista ja pseudonymisoinnista lisää esim. Tietoarkiston julkaisemasta Aineistonhallinnan käsikirjasta.

Kuinka Kielipankissa olevia aineistoja suojataan?

Kun aineisto talletetaan Kielipankkiin, sitä ylläpidetään keskitetysti ja välitetään eteenpäin kyseisen aineiston oikeudenhaltijan kanssa sovituilla ehdoilla. Yhtenäiset, selkeät ja tarkoituksenmukaiset käytännöt helpottavat aineistoja tarvitsevien tutkijoiden työtä. Samalla ne auttavat pienentämään väärinkäytösten riskiä.

Kielipankin palveluiden käyttäjähallinnosta ja muista teknisistä ratkaisuista vastaa CSC – Tieteen tietotekniikan keskus. Sekä suomalaisten että kansainvälisiin luottamusverkostoihin kuuluvien korkeakoulujen opiskelijat ja tutkijat voivat esimerkiksi kirjautua Kielipankkiin turvallisesti oman organisaationsa myöntämällä käyttäjätunnuksella.

Kielipankissa oleviin aineistoihin voidaan tällä hetkellä soveltaa mm. seuraavia aineistokohtaisia suojatoimia:

Aineistoon annetaan pääsy ainoastaan kirjautuneille käyttäjille, joiden työtehtävään sisältyy tutkimusta.

Aineistoon annetaan pääsy ainoastaan niille kirjautuneille käyttäjille, jotka ovat tapauskohtaisen harkinnan perusteella saaneet henkilökohtaisen luvan kyseisen aineiston käyttöön. Ennen pääsyn myöntämistä käyttäjän tulee esittää asianmukainen tutkimussuunnitelma tai vastaava selvitys aineiston käyttötarkoituksesta.

Aineistokohtaista käyttöoikeutta haetaan Kielipankin sähköisen hakemusjärjestelmän kautta (ks. Kielipankin oikeudet). Henkilötietoja sisältävien aineistojen hakemukset käsittelee kyseisen aineiston rekisterinpitäjän edustaja taikka rekisterinpitäjän toimeksiannosta Kielipankin edustaja.

Jos käyttäjä saa luvanvaraisen pääsyn tiettyyn aineistoon, pääsyoikeus on voimassa yhtä kauan kuin hänen kotiorganisaationsa myöntämä käyttäjätunnus on voimassa. Jos käyttäjä siis siirtyy kokonaan toisen yliopiston tai esimerkiksi yrityksen palvelukseen, hän ei enää pääse käyttämään Kielipankin luvanvaraisia aineistoja. Tarvittaessa käyttäjä voi hakea käyttöoikeutta uudelleen eri organisaation edustajana.

Aineisto (tai sen suojausta edellyttävä osa) voidaan myös säilyttää ja välittää salattuna. Kannattaa kuitenkin huomata, että esimerkiksi suurten videoaineistojen salaaminen ja salauksen purkaminen on toistaiseksi hidasta ja vaivalloista, eikä tämä ratkaisu sovi usein toistuvaan käyttöön.

Kielipankin kanssa voi tarvittaessa neuvotella myös muista yksittäisen aineiston edellyttämistä suojatoimista.

Ohjeet Kielipankissa olevan henkilötietoja sisältävän aineiston käsittelyyn

Kielipankin tietosuojakäytänteet

Lahjoita puhetta

In English

Kielipankki on mukana Ylen, Helsingin yliopiston ja Valtion kehitysyhtiö Vaken toteuttamassa Lahjoita puhetta -kampanjassa, jossa kerätään puhetta kaikkialta Suomesta, erilaisilta ihmisiltä. Hankkeen suunnittelussa on ollut mukana asiantuntijoita myös Aalto-yliopistosta ja Turun yliopistosta.

Hankkeen tavoitteena on saada kasaan 10000 tuntia ihan tavallista, arkista puhetta. Aineiston avulla autetaan sekä tutkijoita että tekoälyä kehittäviä yrityksiä ymmärtämään paremmin puhutun suomen ominaisuuksia ja kehittämään puheella ohjattavia tulevaisuuden sovelluksia ja palveluita, jotka toimivat sujuvasti suomeksi. Kampanjassa on kiinnitetty erityistä huomiota siihen, että aineistoa on mahdollista tietyin ehdoin käyttää sekä tieteelliseen tutkimukseen että kaupallisiin tarkoituksiin.

Omaa puhetta voi lahjoittaa joko verkkoselaimella tai mobiilisovelluksella, jossa on tarjolla hauskoja, puhumaan innostavia tehtäviä. Sovelluksen on kehittänyt Solita.

Kuka voi lahjoittaa?

Kaikkien puhe on tähän kampanjaan tervetullutta. Voit lahjoittaa, vaikka puhuisit suomea esimerkiksi toisena tai vieraana kielenä. Pääasia on, että ymmärrät sovelluksessa kerrotut tiedot ja ohjeet ja osaat omasta mielestäsi puhua suomea riittävästi.

Mitä lahjoitetulle puheelle jatkossa tapahtuu?

Lahjoita puhetta -kampanjassa kerättävä aineisto tallennetaan Kielipankkiin. Kielipankista aineistoa voidaan luovuttaa yrityksille sekä tutkijoille, korkeakouluille ja tutkimuslaitoksille, jotka tarvitsevat aineistoa tekoälyn tutkimusta ja kehitystä, kielen tutkimusta tai näihin liittyvää korkeakouluopetusta varten. Kielipankin toiminnasta vastaa Helsingin yliopisto.

Lue lisää Lahjoita puhetta -kampanjan tietosuojasta ja tutustu Kielipankin tietosuojakäytänteisiin.

Mitä aineiston käyttäminen maksaa?

Kielipankki alkaa välittää aineistoa, kun sitä on kertynyt riittävästi ja kun asianmukainen hakemusprosessi on toiminnassa. Tutkijoille aineiston käyttö on maksutonta muiden Kielipankin tarjoamien palveluiden tapaan. Yrityskäytöstä tullaan todennäköisesti perimään maksu, jolla katetaan tähän liittyviä käsittelykustannuksia. Tarkempi hinnoittelu selviää myöhemmin. Tavoitteena kuitenkin on, että myös pienemmillä toimijoilla on mahdollisuus hyödyntää aineistoa.

Millaista tutkimusta Kielipankin kautta välitettävillä aineistoilla tehdään?

Kielipankin Kuukauden tutkija -arkistosta löydät esimerkkejä siitä, millaisia aiheita on tähän mennessä tutkittu muiden Kielipankissa olevien aineistojen avulla.

Jos haluat lähettää Lahjoita puhetta -kampanjaan liittyvää palautetta

ota yhteyttä sähköpostitse osoitteeseen palaute (ät) lahjoitapuhettatuki.fi.

Näin viittaat Kielipankissa olevaan aineistoon

Tiesitkö, että Kielipankki tarjoaa jokaiselle aineistolle ja sen eri versioille valmiin viittausohjeen, joihin sisältyy aineiston pysyvä tunniste? Tiedot kannattaa lisätä lähdeluetteloon kaikissa julkaisuissa, joissa kyseistä aineistoa on hyödynnetty.

Yhtenäinen viittaustapa helpottaa tutkimuksen toistamista. Samalla aineistojen koostajat saavat tunnustuksen työstään.

Lue lisää

 

Viittausmuodon löytäminen aineistolistalta

In English

Raja-Karjalan korpus (FINKA)

Viimeisimmät versiot: 
Raja-Karjalan korpus, Kielipankin LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto LAT-palvelussa icon-question-circle
Raja-Karjalan korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Raja-Karjalan korpus sisältää yhteensä noin 120 tuntia wav-muotoisia äänitiedostoja sekä niiden suomalais-ugrilaisella tarkekirjoituksella tuotetut transkriptiot sekä raakatekstimuodossa että ääneen kohdistettuina TextGrid-tiedostoina, joista on ”riisuttu” tarkemerkit. TextGrid-muotoisissa annotaatiotiedostoissa eri puhujien puheenvuorot on merkitty eri kerroksiin.

Litterointimerkkien kuvaus (pdf)

Äänitteet edustavat 1800-luvun lopulla ja 1900-luvun alussa syntyneiden rajakarjalaisten haastattelupuhetta, jota on tallennettu Kotimaisten kielten keskuksen Suomen kielen nauhoitearkiston kokoelmiin pääosin 1960- ja 1970-luvuilla. Näytteet edustavat Ilomantsin, Korpiselän, Suojärven, Suistamon, Impilahden ja Salmin pitäjien murretta.

Aineistosta on tarjolla toistaiseksi kaksi versiota. Aineistoa voi kuunnella ja litteraateista voi tehdä hakuja Kielipankin LAT-palvelussa. LAT-palvelusta voi myös ladata yksittäisten haastattelujen (”sessioiden”) tiedostoja niputettuina omalle koneelle. Aineistosta on myös saatavilla kokonaan omalle koneelle ladattava versio.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Eduskunnan täysistuntojen ladattava versio on päivitetty tehokäyttäjiä varten

Kielipankin Eduskunnan täysistunnot -korpuksesta on nyt saatavilla päivitetty ladattava versio, johon on lisätty saman aineiston Korp-palvelussa näkyvän version 1.5 mukaiset VRT-muotoiset tekstitiedostot. VRT-muotoinen latauspaketti sisältää äänitteisiin kohdistetun, osittain puheentunnistimella tunnistetun tekstisisällön saneistettuna, perusmuotoistettuna ja jäsennettynä. VRT-tiedostossa on mukana alkuperäisissä pöytäkirjoissa mainittuja tietoja kulloisestakin puhujasta, puheenvuorojen alku- ja loppuaikaleimat kyseisen video- tai äänitallenteen sisällä sekä viittaukset vastaaviin alkuperäisiin videoihin ja pöytäkirjoihin.

Eduskunnan täysistuntojen ladattava versio 1.5 sisältää kaikki täysistunnot ajalta 10.9.2008 – 1.7.2016, samoin kuin sitä edeltävä latausversio 1.

Huomaa, että ladattava korpusversio on tarkoitettu niille käyttäjille, joiden tarkoituksiin Korp-palvelun kautta tarjotut monipuoliset haku- ja tilastointimahdollisuudet eivät sovellu. Aineistoon kannattaa kuitenkin tutustua ensin Korp-palvelun kautta. Hakuesimerkkejä löytyy mm. Eduskunnan täysistunnot -aineistojen yhteiseltä ohjesivulta.

Lisätietoja

Ohjeet henkilötietoja sisältävien Kielipankin aineistojen käsittelyyn

In English

Tämän sivun URN: http://urn.fi/urn:nbn:fi:lb-2020081521

Noudata näitä ohjeita, kun käsittelet Kielipankin kautta saatua henkilötietoja sisältävää aineistoa.

Sisältääkö aineisto henkilötietoja?

Jos Kielipankissa oleva aineisto sisältää henkilötietoja, sen lisenssissä on merkintä:

PRIV: Aineisto sisältää henkilötietoja.

Yksittäisen aineiston lisenssin tiedot löytyvät Kielipankin aineistoluettelosta kyseisen aineiston kohdalta sekä aineiston kuvailutiedoista, joihin pääsee aineiston pysyvällä tunnisteella (URN-osoite, joka näkyy aineiston viittausohjeessa).

Aineiston sisältämien henkilötietojen kuvaus

PRIV-merkityn aineiston kuvailutietoihin voi sisältyä erillinen kuvaus aineiston sisältämistä henkilötiedoista. Henkilötietojen kuvaukseen kuuluvat mm. seuraavat tiedot:

  • alkuperäisen aineiston rekisterinpitäjä
  • aineistoon sisältyvät henkilötietojen tyypit ja rekisteröityjen ryhmät
  • henkilötietojen alkuperäinen lainmukainen käsittelyperuste
  • kuvaus niistä perusteista, joiden mukaisiin käyttötarkoituksiin aineistoa voidaan luovuttaa Kielipankista edelleen
  • mahdolliset tarkemmat kyseistä aineistoa koskevat käsittelyohjeet.

Mikäli erillistä henkilötietojen kuvausta ei tietyn aineiston osalta ole etkä löydä vastaavia tietoja aineiston yleiskuvauksesta, pyydä tarkennusta FIN-CLARINin palveluosoitteesta: fin-clarin (ATT) helsinki.fi.

Millä tavalla henkilötietoja sisältäviä aineistoja pitää käsitellä?

Kielipankin aineistoja käyttämällä sitoudut noudattamaan Kielipankin yleisiä käyttöehtoja sekä aineistokohtaisia erityisehtoja.

PRIV-merkittyä aineistoa käyttäessäsi sitoudut käsittelemään aineiston sisältämiä henkilötietoja luottamuksellisesti, huolellisesti ja vain siihen käyttötarkoitukseen, jota varten olet saanut aineistoon pääsyn.

  • Jos saat aineiston käyttöoikeuden henkilökohtaisen hakemuksen perusteella ja olet hakemuksen yhteydessä esittänyt tutkimussuunnitelman tai vastaavan selvityksen käyttötarkoituksesta, voit käyttää aineistoa vain siinä mainittuun tarkoitukseen. Yksittäisen aineiston käsittelyyn saattaa liittyä myös lisärajoituksia, jotka ilmoitetaan hakemuksen yhteydessä.
  • Jos saat aineiston käyttöösi ilman erillistä hakemusta, mutta siihen pääsy edellyttää kirjautumista tutkijana tai opiskelijana, aineistoa on luvallista käsitellä ainoastaan tutkimus- ja opetustarkoitukseen.

Noudata henkilötietoja sisältävää aineistoa käsitellessäsi riittäviä suojatoimia oman organisaatiosi antamien ohjeiden mukaisesti. Erityisen huolellisesti tulee käsitellä aineistoa, joka sisältää arkaluonteisia (ns. erityisiin tietoryhmiin kuuluvia) henkilötietoja.

Huolehdi velvollisuuksistasi rekisterinpitäjänä

Kun ryhdyt käsittelemään Kielipankin kautta saatua, henkilötietoja sisältävää aineistoa uutta tutkimusta tai jotakin muuta tarkoitusta varten, sinusta ja/tai kotiorganisaatiostasi tulee aineiston rekisterinpitäjä. Rekisterinpitäjällä on mm. velvollisuus tarvittaessa osoittaa, että henkilötietojen käsittely on ollut lainmukaista.

Henkilötietojen käsittelyssä tulee noudattaa ensisijaisesti oman organisaation antamia ohjeita. Jos kotiorganisaation ohjeistusta ei ole käytettävissä, tutustu esimerkiksi Tietoarkiston julkaisemaan Aineistonhallinnan käsikirjaan käsittelytoimia suunnitellessasi.

Muista tehdä tietosuojailmoitus

Rekisterinpitäjänä sinun pitää yleensä tehdä henkilötietojen käsittelystä tietosuojailmoitus tai -seloste. Noudata tässäkin oman organisaatiosi antamia ohjeita. Tietosuojailmoituksen tekemisessä voit käyttää apuna alkuperäisen aineiston yhteydessä julkaistua tietosuojailmoitusta tai kuvausta sen sisältämistä henkilötiedoista.

Kun ryhdyt käyttämään Kielipankissa olevaa henkilötietoja sisältävää aineistoa, julkaise ensin omaa käsittelytarkoitustasi koskeva tietosuojailmoitus tai -seloste esimerkiksi oman organisaatiosi tarjoamilla verkkosivuilla. Ilmoita hankkeesi lyhyt ja yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Julkaisemme nämä tiedot Kielipankin verkkosivuilla, jotta ne ovat kaikkien aineiston käytöstä kiinnostuneiden tahojen nähtävillä.

Valitse oikeasuhtaiset suojatoimet

Noudata oman organisaatiosi ohjeita. Tarvittaessa voit katsoa esimerkkejä Kielipankissa sovellettavista ja muista mahdollisista suojatoimista, joita henkilötietoja käsitellessäsi saatat tarvita.

Henkilötiedot tieteellisissä esityksissä ja julkaisuissa

Henkilötietoja tulee käsitellä vastuullisesti ja hyviä eettisiä käytänteitä noudattaen myös silloin, kun teet aineistoon perustuvia tieteellisiä julkaisuja ja esitelmiä.

Kun raportoidaan tieteellisen tutkimuksen tuloksia, henkilötiedot tulee lähtökohtaisesti pyrkiä joko poistamaan tai häivyttämään esimerkiksi pseudonymisoimalla ja luokittelemalla tutkittavien iät, paikkakunnat jne. laajempiin ryhmiin siten, ettei tutkimukseen osallistuneita henkilöitä voi tunnistaa mainittujen tietojen perusteella tai muihin tietoihin yhdistelemällä.

Joskus tieteellisestä tutkimuksesta kertominen kuitenkin edellyttää henkilötietoja sisältävän aineksen esittämistä. Esimerkiksi tieteelliseen artikkeliin voi olla tarpeen liittää yksittäisiä lyhyitä näytteitä aineistosta tai tietty katkelma täytyy esittää tieteellisen konferenssiesitelmän yhteydessä. Punnitse kuitenkin tutkittaville aiheutuvat vaikutukset ja riskit, joita henkilötietoja sisältävien näytteiden julkaiseminen tai esittäminen voisi heille tai heidän läheisilleen aiheuttaa. Julkaistavat näytteet tulee poimia vain tieteellisten tavoitteiden kannalta välttämättömässä laajuudessa, ja näytteistä tulee sopivilla menetelmillä poistaa tai pseudonymisoida kaikki tarpeettomat henkilötiedot.

Huomaa myös, että mikäli tutkittaville on jostakin syystä informoinnin yhteydessä yksiselitteisesti ilmoitettu, ettei mitään heidän henkilötietojaan julkaista, eikä julkaistavaa näytettä ole mahdollista täysin anonymisoida, täytyy näytteen julkaisemiseen pyytää tutkittavalta erikseen lupa.

Useita käyttötarkoituksia?

Mikäli tiettyä luvanvaraista +PRIV-merkittyä aineistoa halutaan käsitellä useampaan eri tarkoitukseen – esimerkiksi myöhemmin huomataan, että halutaan tehdä uusi tutkimus, joka ei suoraan liity aiempaan aiheeseen – on tarvittaessa haettava käyttöoikeutta erikseen kuhunkin erilliseen tarkoitukseen Kielipankissa. Kaikki käsittelyperusteet on luonnollisesti myös mainittava tietosuojailmoituksessa/-ilmoituksissa.

Virheet ja väärinkäytökset

Jos aineistoa käyttäessäsi huomaat sen sisältävän sellaisia henkilötietoja, joita aineistossa ei mielestäsi kuvauksen perusteella pitäisi olla, ilmoita asiasta viipymättä joko Kielipankille ja/tai suoraan aineiston rekisterinpitäjälle. Samoin tulee toimia, mikäli epäilet, että henkilötietoja on jostakin syystä joutunut vääriin käsiin.

Kielipankin tietosuojakäytänteet

Plenary Sessions of the Parliament of Finland updated in Korp with links to all videos

Esimerkki eduskunnan täysistunnot -aineistoon liittyvästä videonäkymästä

A new version of the Plenary Sessions of the Parliament of Finland corpus is now available via Korp. Since the update, nearly all search results contain a link to the corresponding turn in the original video of the plenary session.

In Korp, it is possible to search the plenary sessions on the basis of the transcript text and various types of metadata, e.g., the speaker’s name or parliamentary group. You can access the video viewer by selecting one of the result lines in the concordance tab in Korp and by clicking on the ’Show video’ link on the bottom right corner of the page. Note, however, that the video will work best on Firefox, i.e., other browsers may not be supported.

The videos are streamed from the online service of the Parliament of Finland. The video page also displays metadata and background information about the search result that was selected in Korp.

The transcripts of the parliamentary sessions shown in Korp are based on the official transcripts provided by the Parliament of Finland. The start and end times of speech turns are based on the automatic alignment produced by an automatic speech recognition tool. For those parts of the text where a good match was not found in the audio track, the speech signal was recognized automatically, and these inserted portions may sometimes contain strange or erroneous content. Links to the original and authoritative transcripts by the Parliament are provided in the search results in Korp.

Please note also that the automatically aligned and recognized transcript text has has been parsed automatically using a Finnish language model. This is why the part-of-speech of word tokens in the Swedish portions within the transcripts has usually been marked as ’foreign word’.

Plenary Sessions of the Parliament of Finland, Kielipankki Korp Version 1.5 contains all the plenary sessions from 10.9.2008 to 1.7.2016.

Further information

Suomeksi

Plenary Sessions of the Parliament of Finland

The latest versions:  
Plenary Sessions of the Parliament of Finland, Kielipankki Korp-versio 1.5
icon-info-circle Metadata and license
icon-quote-right Citation instructions for this version
Open the corpus in Korp icon-question-circle
Plenary Sessions of the Parliament of Finland, Downloadable Version 1
icon-info-circle Metadata and license
icon-quote-right Citation instructions for this version
Download the corpus
Locate other versions of the same resource  

Plenary Sessions of the Parliament of Finland contains audio and video recordings of the parliamentary sessions and the transcripts that have been aligned with the audio. Both the media files and the original transcripts have been obtained directly from the online public services of the Parliament. The content is openly available via the Language Bank of Finland without logging in.

Via the Korp service in the Language Bank of Finland, it is possible to perform various kinds of content searches on the corpus and to calculate statistics from the results. The turns of different speakers have been separated in the text. In the Extended search tab in Korp, it is possible to delimit searches on the basis of the speaker’s name, the parliamentary group or the role of the speaker.

In the search results of this corpus version in Korp, there are also links to the corresponding utterances in the original video. If you wish, you may download the ELAN/EAF annotation files and the audio files in the downloadable version of the corpus for further processing. Moreover, the original videos and transcripts can also be located in the online services of the Parliament of Finland.

The text in the original transcripts has been aligned with the audio recordings by automatic methods. The technological expertise in the alignment process was provided by Aalto University. In those audio portions where a matching text was not found in the transcript, an automatic speech recognizer was used in order to provide a tentative transcript. Thus, it is important to remember that the text in the Korp version of the corpus is not error-free and it may not always fully correspond to the original transcript.

Further information about the contents of the different corpus versions can be found in their metadata records.

Eduskunnan täysistuntojen päivitys Korpissa – mukana lähes kaikki videot

Esimerkki eduskunnan täysistunnot -aineistoon liittyvästä videonäkymästä

Kielipankin Korp-palvelussa olevasta Eduskunnan täysistunnot -korpuksesta on nyt saatavilla päivitetty versio, jonka myötä lähes kaikista hakutuloksista pääsee katsomaan ja kuuntelemaan vastaavia puheenvuoroja täysistuntojen alkuperäisissä videotallenteissa.

Hakuja voi tehdä Korpissa puheenvuorojen tekstin ja erilaisten taustatietojen, mm. puhujan nimen tai eduskuntaryhmän, perusteella. Videonäkymään pääsee valitsemalla Korpin konkordanssivälilehdeltä jonkin hakuosuman ja klikkaamalla sivun oikeassa alareunassa olevaa Näytä video -linkkiä. Huomaa, että video toimii varmimmin Firefox-selaimella.

Puheenvuorojen alku- ja loppuajat perustuvat automaattisella puheentunnistimella tehtyyn tekstin ja äänitteen kohdistukseen. Videot suoratoistetaan eduskunnan verkkopalvelusta. Videosivulla näkyvät lisäksi kyseiseen hakuosumaan liittyvät taustatiedot.

Korp-palvelussa näkyvä eduskunnan täysistuntokeskusteluiden tekstiaineisto pohjautuu täysistuntojen virallisiin pöytäkirjoihin, joita on pyritty täydentämään automaattisella puheentunnistuksella sellaisissa kohdissa, joissa pöytäkirjatekstistä ei ole löytynyt äänitettä vastaavaa sisältöä. Aineiston käyttäjän kannattaakin huomata, että Korpin kautta näkyvässä tekstissä voi olla puheentunnistuksesta johtuvia virheellisiä kohtia. Korp-hakutuloksista on kuitenkin linkit myös eduskunnan verkkopalvelun alkuperäisiin pöytäkirjoihin.

Hakuja tehdessä on hyvä lisäksi muistaa, että teksti on jäsennetty automaattisesti suomen kielen jäsentimellä ja tekstissä olevat ruotsinkieliset osuudet on yleensä merkitty vierassanoiksi.

Eduskunnan täysistunnot, Kielipankin Korp-versio 1.5 sisältää kaikki täysistunnot ajalta 10.9.2008 – 1.7.2016.

Lisätietoja

Plenary Sessions of the Parliament of Finland, Kielipankki Korp version 1.1

This page is to inform you that on 2.12.2019, minor changes have been made to the original corpus data, referenced by the PID urn.fi/urn:nbn:fi:lb-2017020201.

 icon-arrow-circle-right Click here to proceed to the new version of the dataset. The dataset includes the changes described below.

Added functionality

The search results displayed in the concordance tab in Korp now contain links to a media player page that displays the video of the corresponding plenary session, forwarded to the start time of the selected transcript line. The video is streamed directly from the online service of the Parliament of Finland, whereas the transcript and other details of the speaker’s utterance are shown statically according to the content and attributes available in Korp. However, the new video feature does not affect the search facility in Korp.

Added annotations

The start and end times of utterances (relative to the beginning of the video) as well as utterance durations are now shown in the form hh:mm:ss.xxx, in addition to the corresponding values in milliseconds.

The previously hidden links to the original session transcripts and video recordings are now shown as text attributes in Korp.

The text content itself is unchanged.

Attribute changes

The following text attributes have been renamed:

  • ‘video’ was changed to ‘original_video’ (this attribute was previously hidden in Korp)
  • ’transcript’ was changed into  ’original_transcript’ (this attribute was previously hidden in Korp)
  • ’date’ was changed into ’publication_date’ (this attribute refers to the date when the transcript was published and it often differs from the date of the actual session event)
  • ’time’ was changed into ’publication_time’ (for a similar reason as above)

Moreover, a hidden attribute was added in order to be able to suppress the display of erroneous start and end times of utterances (in some cases, the timestamps were found to contain values exceeding the total duration of the video in question).

The textual content itself has not been changed.

Other corrections

Some erroneous links pointing to annotation documents and videos on the LAT service were removed. Some working LAT links are still available, but since the LAT system will stop working within a year or two, the links may be replaced in future corpus versions.

Missing characters in some URL addresses to the original videos were also fixed.

suomeksi

Semfinlex Kielipankki version

The Semfinlex corpora published in the Language Bank of Finland is based on the open data resources made available in the Semantic Finlex project. The project is hosted by the Semantic Computing Research Group (SeCo) at the Aalto University. More information and links to scientific publications can be found on the website of the project.

NB! 2019-09-13 Discrepancies in dependency parses of the Finnish data: The dependency parses and relations differ significantly from the parses in other corpora parsed earlier with the same parser. We are investigating the issue.

Latest versions:  
Finnish Parliament original statutes from 1734-2018 in Finnish, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Parliament original statutes from 1920-2018 in Swedish, Korp version; Ursprungliga författningar av Riksdagen på svenska från 1920-2018, Korp-versionen
icon-info-circleMetadata and license
icon-quote-right Attribution instructions
Select the corpus in Korpicon-question-circle
Finnish Parliament original statutes from 1920-2018, Korp version (Finnish-Swedish parallel corpus)
icon-info-circleMetadata and license
icon-quote-right Attribution instructions
Select the corpus in Korpicon-question-circle
Finnish Parliament original statutes from 1734-2018, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, Korp version; Avgöranden av Högsta domstolen och Högsta förvaltningsdomstolen på svenska 1980-2018, Korp-versionen
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Search for these versions in META-SHARE  

The resource has been annotated and the parallel corpus aligned by Erik Axelson in the FIN-CLARIN initiative for the Language Bank of Finland and it is publicly available and no registration or log in is required for access.

The concordancing tool Korp offers various options for searches and for compiling statistics. In the extended search, the user can restrict the search based on the type of the statute or a choose particular a time interval for the search. See the Korp User Guide for more information.

Mode detailed information about the corpora is available in the metadata articles.

Oulun yliopiston Päätalo-kokoelma

Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon (11.11.1919-20.11.2000) teoksia. Iijoki-sarja on 26 teoksesta koostuva Päätalon omaelämäkerrallinen pääteos, jossa kirjailija kuvaa elämäänsä 1910-luvulta aina 1990-luvulle asti.

Viimeisimmät versiot:  
Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp -versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto Korp-palvelussa icon-question-circle
Etsi saatavilla olevat versiot  

Aineiston julkaisemisen Kielipankissa ovat tehneet mahdolliseksi Oulun yliopiston yliopistonlehtori Maija Saviniemen aloitteesta Kalle Päätalon omaiset Riitta Päätalo, Aliisa Oksanen ja Emmi Oksanen sekä Gummerus Kustannus. Aineisto on Kielipankin kautta saatavilla tutkimuskäyttöön.

Iijoki-aineiston ensimmäisen Korp-version on FIN-CLARIN-hankkeessa jäsentänyt Erik Axelson Turku NLP -ryhmän Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Aineisto on myös jäsennetty Kielipankissa TDPP-jäsentimellä, joka on Turku BioNLP -ryhmän kehittämän TDT-jäsentimen pohjalta Kielipankissa edelleen kehitetty jäsennin. TDPP-jäsennyksen pohjalta on luotu lista aineiston sisältämistä saneista, joita jäsennin ei ole kyennyt luotettavasti perusmuotoistamaan. Sen sijaan annotaatiossa on merkintä OTHER_UNK. Suuri osa näistä saneista on murresanoja eri muodoissaan joten murresanoja tutkivan kannattaa etsiä niitä aineistosta pintamuotojen avulla.

Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murreanaa (pdf; 31 kt)

Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi valitsemalla hakukriteeriksi teoksen nimen tai ajankohdan ja kirjoittamalla valintakenttään vastaavasti teoksen nimen tai julkaisuvuoden.

In English

Aineiston nimi

Luo uusi aineistotietosivu tämän mallin mukaan.

Viimeisimmät versiot: 
Aineisto, Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-exclamation-triangle PRIV: Tutustu henkilötietojen käsittelyohjeisiin
icon-quote-right Tämän version viittausohje
Esimerkkihakuja
Hae käyttöoikeutta
Avaa aineisto Korp-palvelussa icon-question-circle
Aineisto, versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Aineiston sisältö

Aineisto sisältää… (kuvaus yhdellä virkkeellä).

Aineisto on saatavilla Kielipankin kautta avoimesti|tutkimus- ja opetuskäyttöön|luvanvaraisena. Tarkemmat aineistokohtaiset käyttöehdot löytyvät kunkin aineistoversion kuvailutiedoista.

Esimerkkihakuja aineiston Korp-versiosta


Aineiston tietosuoja

Aineisto XYZ sisältää henkilötietoja. Niiden osalta sinun on noudatettava Kielipankin ohjeita henkilötietoja sisältävien aineistojen käsittelyyn. Alla kuvataan tämän aineiston sisältämät henkilötietojen ryhmät ja kerrotaan tarkemmin henkilötietojen käsittelyyn liittyvistä rajoituksista.

Tutustu tarvittaessa lisäksi alkuperäisen aineiston tietosuojaselosteeseen.

Aineiston sisältämät henkilötietojen ryhmät

Aineisto sisältää…

[Tähän lisätään muut tallennussopimuksen mukaiset, aineistokohtaiset tietosuojaehdot.]

Aineiston käsittely Suomen rajojen ulkopuolella

Tähän aineistoon sisältyviä henkilötietoja saa käsitellä [esim. ”Euroopan talousalueen ulkopuolella ainoastaan yleisen tietosuoja-asetuksen V luvun vaatimuksia noudattaen”].

Suomeksi

FinnWordNet – The Finnish WordNet CC BY 3.0

PLEASE NOTE: FinnWordNet information moved to this location on 2019-09-16. The URLs of FinnWordNet demos and file downloads have changed, and the current URLs are not necessarily final. The demos and file downloads were not available between March and June 2018. Some demos still do not work, and the feedback form is unavailable. We apologize for the situation. (Updated 2019-09-16.)

General information

FinnWordNet – the Finnish WordNet is a lexical database for Finnish. It is a part of the FIN-CLARIN infrastructure project.

FinnWordNet is licensed under the Creative Commons Attribution (CC-BY) 3.0 licence. As a derivative of the Princeton WordNet, FinnWordNet is also subject to the Princeton WordNet licence.

FinnWordNet contains words (nouns, verbs, adjectives and adverbs) grouped by meaning into synonym groups representing concepts. These synonym groups are linked to each other with relations such as hyponymy and antonymy, creating a semantic network.

FinnWordNet can be used in language technology research and applications. It can also be used interactively as an electronic thesaurus.

The first version of FinnWordNet has been created by having the words of the original English (Princeton) WordNet (version 3.0) translated into Finnish by professional translators.

The most recent version of FinnWordNet is 2.0, released in October 2012. The persistent identifier of this version is urn:nbn:fi:lb-2014052714.

Even though FinnWordNet is not currently being actively developed, you can send feedback on it to fin-clarin (at) helsinki.fi.

Please note that the name of the resource is FinnWordNet (with a double n), not FinWordNet.

Search interfaces and demos

FinnWordNet data can be searched or viewed in a couple of different search interfaces or demos:

  • Dictionaries as HFST transducers: The FinnWordNet content has been encoded in various HFST finite-state transducers working as thesauri and translation dictionaries:

    Please note that the transducers used in these demos are still based on FinnWordNet version 1.1.2, not the most recent 2.0.

  • WordTies browser:
    WordTies is a multilingual wordnet browser or visualization interface developed in the EU project META-NORD, based on the Andre Ord browser for the Danish DanNet. It visualizes concept hierarchies and relations between concepts (synonym sets) (but not lexical relations such as antonymy). WordTies also links 1000 common concepts in FinnWordNet to concepts in the Danish, Estonian and Swedish wordnets.
  • The Open Multilingual Wordnet search interface (choose Finnish as one of the languages)

Download data

FinnWordNet data package

The FinnWordNet data can be downloaded from the download service of the Language Bank of Finland as a ZIP package that contains the data in a couple of different formats:

  • relations in a tab-separated-values (TSV) format: synonym sets, word senses, semantic and lexical relations, and translations;
  • Princeton WordNet database format;
  • Princeton WordNet lexicographer file format (source format for the data files); and
  • various additional lists (synsets, translations, relations) in a tab-separated-values format, complementing the relational data.

For more information, please see the README file.

In addition, the package contains the WordNet 3.0 Grind program modified to support FinnWordNet data. Since the downloadable package contains the compiled database, you probably do not need the modified Grind unless you modify the FinnWordNet data (lexicographer files). Compiling the program requires a Unix, Linux or similar environment and a C compiler; please see the associated README file for more information.

Please also note that searching the FinnWordNet data files with the wn search program requires a version patched by Debian.

HFST thesaurus and translation dictionary transducers based on FinnWordNet

Please note that the transducers are currently not available for download. We apologize for the situation. (2019-09-13)

The FinnWordNet (and Princeton WordNet) data is also used in the HFST finite-state transducers that work as Finnish or English thesauri or Finnish–English or English–Finnish translation dictionaries. The transducers recognize inflected forms of words, and the thesauri have variants generating synonyms in the same inflected form as the input word. More information about the transducers is available in the README file.

  • English thesauri
  • Finnish thesauri
  • Finnish–English and English–Finnish translation dictionaries

To use the transducers, you need either the full HFST library and tools (version 3.2.0 or later), the stand-alone HFST optimized lookup (version 1.3 or later) or the Java implementation of the optimized lookup (2011-05-23 or later).

FinnWordNet in WN-LMF and Lemon

The FinnWordNet data is also downloadable in the WN-LMF (WordNet Lexical Markup Framework) and Lemon (The Lexicon Model for Ontologies) XML formats from the Open Multilingual Wordnet site: download data ZIP package.

Technical corrections to FinnWordNet by Frankie Robertson

Frankie Robertson has made some technical corrections and changes to FinnWordNet data to make it work with the NLTK and extJWNL libraries. The corrected version is available in GitHub. The corrections are yet to be integrated to the official FinnWordNet data.

Publications

General description

Bilinguality and technical aspects

Extending FinnWordNet

Applications

Other research that uses FinnWordNet

  • Krasimir Angelov and Gleb Lobanov. 2016. Predicting Translation Equivalents in Linked WordNets. In Proceedings of the Sixth Workshop on Hybrid Approaches to Translation. 26–32.
  • Jörg Tiedemann, Filip Ginter and Jenna Kanerva. 2015. Morphological Segmentation and OPUS for Finnish–English Machine Translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation. ACL. 177–183.
  • Klaus Förger, Timo Honkela and Tapio Takala. 2013. Impact of Varying Vocabularies on Controlling Motion of a Virtual Actor. In Intelligent Virtual Agents: 13th International Conference, IVA 2013, Edinburgh, UK, August 29-31, 2013. Proceedings. 230–248. doi:10.1007/978-3-642-40415-3_21

Project information

The FinnWordNet development project ran in 2010–2012. The development of FinnWordNet was funded by the FIN-CLARIN and META-NORD projects. The META-NORD project received funding from the European Union’s ICT Policy Support Programme as part of the Competitiveness and Innovation Framework Programme under grant agreement no. 270899.

The following people participated in the FinnWordNet project:

Advisors:
Krister Lindén (project leader) (2010–), Lauri Carlson (2010–2012), Ulla Vanhatalo (2010–2012)
Other members:
Hissu Hyvärinen (2010–2012), Juha Kuokkala (2012), Kristiina Muhonen (2010), Jyrki Niemi (2010–2012), Pinja Pennala (2012), Paula Pääkkö (2010–2011)

News

New locations for the FinnWordNet information page and download (2019-09-19)

The FinnWordNet information page has been moved to the Portal of the Language Bank of Finland, and the download location to the Download service of the Language Bank of Finland. The information page has also been updated. Updating the demos and transducers is still partly in progress.

Version 2.0 of FinnWordNet released (2012-10-05)

Version 2.0 of FinnWordNet data has been released with thousands of new word senses added and hundreds of existing ones corrected. The data is downloadable and in use in the Web search interface. The search interface no longer asks you to rate the synonymy of random words.

As of version 2.0, FinnWordNet has been extended beyond being a translation of Princeton WordNet by adding new synsets as hyponyms of existing synsets (without glosses and English translations). The new synsets correspond to senses of common Finnish compound words.

The primary data format is now a relational format. See the corresponding README file in the downloadable package for more information.

FinnWordNet 2.0 contains 120,449 synsets (2,790 more than version 1.1.2), 208,645 word senses (16,845 more), 140,515 unique words (9,251 more) and 244,742 translation relations (14,695 more). Some of the additions and corrections are based on the suggestions received from users of FinnWordNet. All feedback is welcome: fin-clarin (at) helsinki.fi.

For more information, please see the NEWS file in the downloadable package.

Hae Kielipankki-portaalista:
Mila OivaKuukauden tutkija: Mila Oiva

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317