ELFA – English as a Lingua Franca in Academic Settings

Current versions of this resource: 
The Helsinki Korp Version of the ELFA Corpus
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
The Transcriptions of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Download the resource
The Audio Files of the ELFA Corpus, Downloadable Version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Download the resource
The Helsinki LAT Version of the ELFA Corpus
(NB: THIS VERSION WILL BE REMOVED IN NOV 2020)
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Select the corpus in LAT icon-question-circle
Search for other versions of this resource

The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).

The data consists of both recordings and their transcripts, which are available in several versions:

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

Information about the removal of the LAT version of this corpus in November 2020

Due to technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020. After this, the LAT version of the ELFA corpus will no longer be available. This should not affect the users of the ELFA corpus, since there are more accessible versions of the same content are available in Korp and in the download service.

Suomeksi

Corpus Title

Current versions of this resource: 
Corpus Title, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Corpus Title, download version
icon-info-circle Metadata and license
icon-quote-rightAttribution instructions
Apply for rights to access the resource
Download the resource
Look for other versions of this resource

Information about the removal of the LAT version of this corpus in November 2020

Due to technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020. After this, the LAT version of this corpus will no longer be available. However, the content will be made available for download. In case you urgently need the downloadable data, please contact us.

Corpus contents

The corpus consists of…

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Further details on the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

Example queries from the Korp version of this corpus

Guidelines for processing corpora containing personal data in the Language Bank of Finland

Suomeksi

URN for this page: http://urn.fi/urn:nbn:fi:lb-2020081522

You are required to follow these guidelines when processing corpora from the Language Bank of Finland that contain personal data.

NB: This page contains a preliminary English translation of the corresponding Finnish guidelines. In case you find the content unclear, please contact FIN-CLARIN. However, if you have more specific questions related to local procedures at your university or to the content of your Privacy Notice, we advise you to consult the Data Protection Officer of your home organization.

How do I know if the corpus contains personal data?

If a corpus available via the Language Bank of Finland contains personal data, the license conditions will include the following tag:

PRIV: There are personal data in the resource.

The license information for an individual corpus can be found on the list of corpora of the Language Bank of Finland as well as in the metadata record of the resource in question. The metadata can be accessed via the persistent identifier of the corpus (i.e., the URN address included in the citation instructions).

Description of the personal data included in a corpus

The metadata of a corpus tagged with the PRIV condition may include a separate description of the personal data included in the corpus. Among other details, the description of personal data should provide the following information:

  • the Data Controller of the original corpus or data set
  • the types of personal data and the groups of data subjects that are included in the resource
  • the original legal basis of processing of the personal data
  • a description of the purposes for which access to the data can be granted via the Language Bank of Finland
  • the potential more detailed instructions for processing the data in question.

In case you are unable locate a description of the personal data for a specific corpus and you cannot find the corresponding details in the general description of the resource, please contact the service address of FIN-CLARIN for more details: fin-clarin (ATT) helsinki.fi.

How should you process a corpus that includes personal data?

By using the corpora and other resources available in the Language Bank of Finland, you agree to the General Terms of Use of the Language Bank as well as to the corpus-specific license conditions.

When using a corpus with the license condition PRIV, you must commit to processing the personal data confidentially, carefully and only for the purpose for which you were granted permission to access the data.

  • In case you were granted access on the basis of a personal application and in case you presented a research plan or another description of the purpose of use, you may only use the material for the specified purpose. When applying for the use of a specific resource, you may also be notified about additional restrictions that apply to the processing of the resource.
  • In case you are granted access to the resource without a separate application but you are required to log in as a researcher or as a student, you are only allowed to process the data for research purposes or for your personal study purposes.

When processing personal data, apply sufficient safeguards according to the instructions provided by your home organization. Note that additional safeguards may be in order if processing sensitive personal data (that belong to so-called special data categories).

Remember your duties as a Data Controller

When you start processing a corpus that contains personal data which you obtained via the Language Bank of Finland for a new research project or for some other purpose, you and/or your home organization will become the Data Controller, with regard to your purpose of use. When requested, the Data Controller is, e.g., obliged to show that the processing of the personal data has been lawful.

When processing personal data, you should primarily follow the instructions and guidelines given by your home organization. In case no such instructions are available, please refer to, e.g., the Data Management Guidelines (published by the Finnish Social Science Data Archive) when planning your data processing activities.

Remember to make a Privacy Notice

As a Data Controller, you are usually required to provide a Privacy Notice concerning the personal data processing conducted by you. Again, please follow the instructions and guidelines given by your home organization.

When you start using a corpus in the Language Bank of Finland and the corpus includes personal data, you should publish the Privacy Notice regarding your purpose of use for the resource. The Privacy Notice can be published on the website of your home organization, for instance.

When compiling the Privacy Notice of your project, you may need to refer to details in the original Privacy Notice of the corpus, or to the description of the personal data included in the metadata of the corpus.

Submit the brief title of your project and the link to the publicly available Privacy Notice to the Language Bank of Finland by using this form. The link will then be published on the Language Bank website, so as to make the information accessible for all interested parties.

Apply protective measures

Follow the instructions of your home organization. If required, you may also check out a few examples of safeguards, including some that are usually applied by the Language Bank of Finland (examples in Finnish only).

Personal data in scientific presentations and publications

When creating scientific publications and giving scientific presentations, you must process personal data responsibly and according to good ethical practices.

When reporting the results of scientific research, personal data must primarily be either completely removed or pseudonymized, which can be achieved, e.g., by grouping the ages of the research subjects, place names, etc. into larger categories. The aim is to prevent the participants from being identified either according to the data that is included in the publication or presentation or by combining with other data.

However, in some cases it may be necessary to include personal data in scientific publications and presentations. For instance, brief samples of the data may need to be included in a research article, of a fragment needs to be played back for the audience in a scientific conference. You should carefully consider the potential risks and other effects this might have on the research subjects or to people close to them. It is important to include only the required content in the presented samples, and all unnecessary information and details should be removed or pseudonymized by using the appropriate methods.

Please note that in case the research subjects have been explicitly informed that none of their personal data will be published, and in case it is not possible to make the samples fully anonymous, you may not publish or present the personal data without contacting the research subjects again for their specific consent.

Several purposes of use?

In case a restricted +PRIV-tagged corpus needs to be processed for several different purposes – e.g., you notice later that you wish to conduct a new study that is not directly compatible with your original research – you need to apply for separate permission to use the corpus for each different purpose. Naturally, you will also need to mention all purposes in your Privacy Notice.

Errors and misconduct

In case you notice that a corpus or resource contains some personal data that you think it should not contain according to the resource description, you must notify, without delay, either the Language Bank of Finland or the Data Controller of the original resource. Similarly, in case you have reason to suspect that personal data may have fallen into the wrong hands, notify the Language Bank of Finland or the original Data Controller as soon as possible.

Privacy practices of the Language Bank of Finland

Donate Speech (Lahjoita puhetta)

Suomeksi

The Language Bank of Finland (Kielipankki) is working together with the Finnish Broadcasting Company (Yle) and the Finnish State Development Company (Vake Oy) in the Donate Speech campaign (Lahjoita puhetta). Experts from Aalto University and the University of Turku have also participated in the project.

The goal is to gather 10000 hours of ordinary, casual Finnish speech that can be used for studying language as well as for developing technology and services that can be readily used in Finnish. In this project, particular attention has been paid in order to allow for both academic and commercial use of the material under given terms.

Speech is donated via the web browser or mobile app that offers a selection of tasks under fun themes that can inspire and encourage you to talk. The app was developed by Solita.

Who can donate?

All variants of spoken Finnish are welcome, including the speech of second-language Finnish learners. As long as you speak some Finnish and can understand the Finnish information and instructions in the app, you can donate!

What happens to the donated speech?

The speech material donated during the campaign will be stored in the Language Bank of Finland (Kielipankki), coordinated by the University of Helsinki.

The speech material can be redistributed to individual researchers, universities and research organizations or private companies that need it for studying language or artificial intelligence, for developing AI solutions or for higher education purposes related to the aforementioned areas.

Read more about processing personal data in the Donate Speech campaign (in Finnish) and the privacy practices of the Language Bank of Finland.

How much does it cost to use the speech material?

The Language Bank of Finland will begin redistributing the speech data when a sufficient amount of material has been donated and when the appropriate application process is in place. For academic researchers, the use of the data will be free of charge, similarly to the rest of the services of the Language Bank of Finland. For commercial use, a fee will probably be charged in order to cover handling costs. Details about the pricing will be provided at a later stage.

What kind of research is performed on data that are available via the Language Bank of Finland?

You can find some examples of research topics in the Researcher of the Month archive of the Language Bank of Finland.

Feedback about the Donate Speech campaign especially?

Please contact the email address palaute (ATT) lahjoitapuhettatuki.fi.

The Donate Speech (Lahjoita puhetta) campaign kicks off 16.6.2020

The Language Bank of Finland is working together with the Finnish Broadcasting Company (Yle) and the Finnish State Development Company (Vake Oy) in the Donate Speech campaign (Lahjoita puhetta) launching on 16th June 2020. The aim of this project is to collect all kinds of Finnish speech from all kinds of people, from all over Finland and abroad.

By donating your speech, you can help researchers and companies to study language and to develop technology and services that can be used in Finnish more fluently in the future. All variants of spoken Finnish are welcome – including the speech of second-language Finnish learners. As long as you speak some Finnish and can understand the Finnish instructions in the app, you can donate!

Read more about the contribution of the Language Bank of Finland (in Finnish)

Go and donate your speech!

See also:

Interview of Mietta Lennes in the morning radio program Puheen Aamu on Yle Puhe 16.6.2020 (the program is available in Finnish for one week after time of broadcast)

Suojatoimet

Julkisesti saatavilla olevien aineistojen lisäksi Kielipankissa voidaan säilyttää ja välittää myös sellaisia aineistoja, joiden käsittely edellyttää erityisiä suojatoimia esimerkiksi aineiston sisältämien henkilötietojen vuoksi.

Henkilötietoja on yleensä mukana mm. ääntä tai videota sisältävissä puheaineistoissa. Tekijänoikeuksia ja niitä vastaavia lähioikeuksia voi liittyä kirjoitettuihin teksteihin, käännöksiin, kuviin ja valokuviin, elokuviin, esityksiin, taideteoksiin jne. Näissä tapauksissa aineisto ei yleensä voi olla täysin avoimesti saatavilla, mutta tietyillä ehdoilla sekin on mahdollista tallettaa Kielipankkiin. Tällä sivulla kuvataan muutamia suojatoimia, joiden avulla erityisesti henkilötietoja sisältävän aineiston välittäminen voidaan tapauskohtaisesti järjestää.

Henkilötietojen käsittelyyn ja tarvittaviin suojatoimiin liittyvät päätökset ovat viime kädessä kyseisen aineiston rekisterinpitäjän vastuulla. Tarvittavista palveluista voi neuvotella Kielipankin kanssa.

Miksi tutkimusaineisto pitäisi säilyttää?

Tutkimusaineiston kerääminen ja järjestäminen tutkimuksen edellyttämään muotoon on aikaavievää, työlästä ja kallista. Mikäli aineistolle on odotettavissa uutta käyttöä, sen säilyttäminen voi olla perusteltua, vaikka aineisto sisältäisikin henkilötietoja ja vaikka osa tiedoista olisi arkaluonteisia. Perusteet henkilötietojen säilyttämiseen on kuitenkin aina huolellisesti dokumentoitava ja niistä on informoitava tutkittavia. Lisäksi henkilötietojen käsittelyssä on käytettävä tarkoituksenmukaisia suojatoimia.

Mahdollisuus tutkimuksen verifiointiin ja toistamiseen

Tieteellisessä tutkimuksessa on tärkeää, että joku toinen tutkija pystyy tarvittaessa toistamaan aiemmin julkaistun tutkimuksen täsmälleen samalla aineistolla varmistaakseen, onko alkuperäinen tutkimus toteutettu oikein. Esimerkiksi tieteellisen tutkimuksen vertaisarviointi saattaa edellyttää arvioijan pääsyä tutkimuksessa käytettyyn aineistoon.

Mahdollisuus jatkotutkimukseen ja uusiin näkökulmiin

Alkuperäisen tutkimushankkeen päättymisen jälkeen halutaan usein tehdä jatkotutkimus joko samasta tai saman tyyppisestä aiheesta, jolloin aineistoa tarvitaan uudelleen. Tutkimushypoteesi pitää kenties muotoilla toisella tavalla tai halutaan kokeilla uutta analyysimenetelmää. Joskus samasta aihepiiristä kaivataan laajempaa tutkimusta, jota varten on välttämätöntä analysoida joukko aiemmin kerättyjä aineistoja. Uuden, massiivisen aineiston kerääminen alusta asti olisi usein liian kallista tai muuten hankalaa. Silloin aiemmin kerätty, huolellisesti dokumentoitu ja turvallisesti säilytetty aineisto voi osoittautua aarteeksi.

Tieteellisen tutkimuksen ohella myös historiallinen tai tilastollinen tutkimus voivat olla henkilötietojen käsittelyn perusteita. Kieliaineistojen kohdalla esimerkiksi puhetallenteiden säilyttämistä voinee joissakin tapauksissa perustella niiden historiallisella ja kulttuurisella arvolla.

Kuinka kauan aineistoa voi säilyttää Kielipankissa?

Tietyn tyyppiset tutkimukset edellyttävät eettistä ennakkoarviointia. Silloin tutkija hakee tutkimuseettiseltä toimikunnalta lausuntoa ennen aineiston keräämisen aloittamista. Esimerkiksi lääketieteellisessä tutkimuksessa tutkimuseettinen toimikunta saattaa lähtökohtaisesti edellyttää aineiston tuhoamista tutkimuksen päätyttyä. Lausuntopyynnössä kannattaakin esittää selkeästi perustelut aineiston säilyttämiselle sekä mahdollisimman tarkka suunnitelma aineistoon sovellettavista suojatoimista.

Tutkimuksen yhteydessä tutkittavia on selkeästi informoitava myös henkilötietojen käsittelyssä sovellettavista suojatoimista. Kannattaa huomata myös, että jos tutkittaville on jo alkuperäisen informoinnin yhteydessä kerrottu, että heidän aineistonsa tuhotaan määräajan päätyttyä, tätä lupausta ei yleensä voi jälkikäteen perua (jollei tutkittaviin ole mahdollista ottaa uudelleen yhteyttä, informoida heitä jatkotutkimuksista ja pyytää osallistumaan myös niihin).

Voit lukea tietosuojasta ja tutkittavien informoinnista lisää esim. Tietoarkiston julkaisemasta Aineistonhallinnan käsikirjasta.

Millaisia suojatoimia aineiston koostaja voi käyttää?

Henkilötietojen käsittelyssä käytettävien laitteiden ja järjestelmien tietoturvan on oltava riittävä ja ajan tasalla. Aineiston suojaamisesta on muistettava huolehtia saumattomasti alusta loppuun myös tiedonsiirron aikana.

Aineiston koostaja tai aineistoa Kielipankkiin tallettava taho voi tarvittaessa suojata henkilötietoja sisältävää aineistoa esimerkiksi pseudonymisoimalla sen käsittelytarkoituksen kannalta sopivalla tavalla ja luokittelemalla henkilötietoja siten, että niistä tulee vähemmän yksilöiviä.

Tarvittaessa tunnisteellista aineistoa voidaan säilyttää salaamalla tiedot riittävän vahvalla salausavaimella.

Pseudonymisointi on tutkijan vastuulla

Jos aineisto on pseudonymisoitu ja tutkittaviin henkilöihin liittyvää koodiavainta on tarpeen säilyttää, koodiavain on pidettävä sekä teknisesti että hallinnollisesti erillään varsinaisesta aineistosta. Huomaa, että Kielipankki ei huolehdi aineiston pseudonymisoinnista eikä tutkittaviin liittyviä koodiavaimia oteta Kielipankkiin säilytettäväksi. Aineiston sisällön, tiedostonimien jne. koodaaminen on siis tutkijan omalla vastuulla.

Täydellinen anonymisointi poistaa suojatoimien tarpeen

Mikäli aineisto on mahdollista kokonaan anonymisoida ts. voidaan todeta, ettei elossa olevia henkilöitä voida anonymisoidun aineiston perusteella mitenkään tunnistaa (edes yhdistämällä aineiston tietoja jostakin muualta löytyviin tietoihin), aineisto ei enää sisällä henkilötietoja. Täysin anonyymia aineistoa ei tarvitse tietosuojasäädösten perusteella erikseen suojata. Toisin sanoen kokonaan anonyymi aineisto, johon ei liity esimerkiksi tekijänoikeudellisia rajoituksia, voidaan julkaista avoimesti.

Usein aineiston täydellinen anonymisointi on käytännössä mahdotonta joko työmäärän vuoksi tai teknisistä syistä, tai täydellinen anonymisointi tekisi aineiston tutkimuksen kannalta käyttökelvottomaksi. Jos tällainen aineisto on kuitenkin tarpeen säilyttää, siitä tulee mahdollisuuksien mukaan korvata selvästi tarpeettomat tunnisteet. Kielipankissa aineistoon voidaan soveltaa muita suojatoimia, esimerkiksi rajoittamalla pääsy aineistoon vain tietyille käyttäjille (ks. alla).

Voit lukea aineistojen anonymisoinnista ja pseudonymisoinnista lisää esim. Tietoarkiston julkaisemasta Aineistonhallinnan käsikirjasta.

Kuinka Kielipankissa olevia aineistoja suojataan?

Kun aineisto talletetaan Kielipankkiin, sitä ylläpidetään keskitetysti ja välitetään eteenpäin kyseisen aineiston oikeudenhaltijan kanssa sovituilla ehdoilla. Yhtenäiset, selkeät ja tarkoituksenmukaiset käytännöt helpottavat aineistoja tarvitsevien tutkijoiden työtä. Samalla ne auttavat pienentämään väärinkäytösten riskiä.

Kielipankin palveluiden käyttäjähallinnosta ja muista teknisistä ratkaisuista vastaa CSC – Tieteen tietotekniikan keskus. Sekä suomalaisten että kansainvälisiin luottamusverkostoihin kuuluvien korkeakoulujen opiskelijat ja tutkijat voivat esimerkiksi kirjautua Kielipankkiin turvallisesti oman organisaationsa myöntämällä käyttäjätunnuksella.

Kielipankissa oleviin aineistoihin voidaan tällä hetkellä soveltaa mm. seuraavia aineistokohtaisia suojatoimia:

Aineistoon annetaan pääsy ainoastaan kirjautuneille käyttäjille, joiden työtehtävään sisältyy tutkimusta.

Aineistoon annetaan pääsy ainoastaan niille kirjautuneille käyttäjille, jotka ovat tapauskohtaisen harkinnan perusteella saaneet henkilökohtaisen luvan kyseisen aineiston käyttöön. Ennen pääsyn myöntämistä käyttäjän tulee esittää asianmukainen tutkimussuunnitelma tai vastaava selvitys aineiston käyttötarkoituksesta.

Aineistokohtaista käyttöoikeutta haetaan Kielipankin sähköisen hakemusjärjestelmän kautta (ks. Kielipankin oikeudet). Henkilötietoja sisältävien aineistojen hakemukset käsittelee kyseisen aineiston rekisterinpitäjän edustaja taikka rekisterinpitäjän toimeksiannosta Kielipankin edustaja.

Jos käyttäjä saa luvanvaraisen pääsyn tiettyyn aineistoon, pääsyoikeus on voimassa yhtä kauan kuin hänen kotiorganisaationsa myöntämä käyttäjätunnus on voimassa. Jos käyttäjä siis siirtyy kokonaan toisen yliopiston tai esimerkiksi yrityksen palvelukseen, hän ei enää pääse käyttämään Kielipankin luvanvaraisia aineistoja. Tarvittaessa käyttäjä voi hakea käyttöoikeutta uudelleen eri organisaation edustajana.

Aineisto (tai sen suojausta edellyttävä osa) voidaan myös säilyttää ja välittää salattuna. Kannattaa kuitenkin huomata, että esimerkiksi suurten videoaineistojen salaaminen ja salauksen purkaminen on toistaiseksi hidasta ja vaivalloista, eikä tämä ratkaisu sovi usein toistuvaan käyttöön.

Kielipankin kanssa voi tarvittaessa neuvotella myös muista yksittäisen aineiston edellyttämistä suojatoimista.

Ohjeet Kielipankissa olevan henkilötietoja sisältävän aineiston käsittelyyn

Kielipankin tietosuojakäytänteet

Lahjoita puhetta

In English

Kielipankki on mukana Ylen, Helsingin yliopiston ja Valtion kehitysyhtiö Vaken toteuttamassa Lahjoita puhetta -kampanjassa, jossa kerätään puhetta kaikkialta Suomesta, erilaisilta ihmisiltä. Hankkeen suunnittelussa on ollut mukana asiantuntijoita myös Aalto-yliopistosta ja Turun yliopistosta.

Hankkeen tavoitteena on saada kasaan 10000 tuntia ihan tavallista, arkista puhetta. Aineiston avulla autetaan sekä tutkijoita että tekoälyä kehittäviä yrityksiä ymmärtämään paremmin puhutun suomen ominaisuuksia ja kehittämään puheella ohjattavia tulevaisuuden sovelluksia ja palveluita, jotka toimivat sujuvasti suomeksi. Kampanjassa on kiinnitetty erityistä huomiota siihen, että aineistoa on mahdollista tietyin ehdoin käyttää sekä tieteelliseen tutkimukseen että kaupallisiin tarkoituksiin.

Omaa puhetta voi lahjoittaa joko verkkoselaimella tai mobiilisovelluksella, jossa on tarjolla hauskoja, puhumaan innostavia tehtäviä. Sovelluksen on kehittänyt Solita.

Kuka voi lahjoittaa?

Kaikkien puhe on tähän kampanjaan tervetullutta. Voit lahjoittaa, vaikka puhuisit suomea esimerkiksi toisena tai vieraana kielenä. Pääasia on, että ymmärrät sovelluksessa kerrotut tiedot ja ohjeet ja osaat omasta mielestäsi puhua suomea riittävästi.

Mitä lahjoitetulle puheelle jatkossa tapahtuu?

Lahjoita puhetta -kampanjassa kerättävä aineisto tallennetaan Kielipankkiin. Kielipankista aineistoa voidaan luovuttaa yrityksille sekä tutkijoille, korkeakouluille ja tutkimuslaitoksille, jotka tarvitsevat aineistoa tekoälyn tutkimusta ja kehitystä, kielen tutkimusta tai näihin liittyvää korkeakouluopetusta varten. Kielipankin toiminnasta vastaa Helsingin yliopisto.

Lue lisää Lahjoita puhetta -kampanjan tietosuojasta ja tutustu Kielipankin tietosuojakäytänteisiin.

Mitä aineiston käyttäminen maksaa?

Kielipankki alkaa välittää aineistoa, kun sitä on kertynyt riittävästi ja kun asianmukainen hakemusprosessi on toiminnassa. Tutkijoille aineiston käyttö on maksutonta muiden Kielipankin tarjoamien palveluiden tapaan. Yrityskäytöstä tullaan todennäköisesti perimään maksu, jolla katetaan tähän liittyviä käsittelykustannuksia. Tarkempi hinnoittelu selviää myöhemmin. Tavoitteena kuitenkin on, että myös pienemmillä toimijoilla on mahdollisuus hyödyntää aineistoa.

Millaista tutkimusta Kielipankin kautta välitettävillä aineistoilla tehdään?

Kielipankin Kuukauden tutkija -arkistosta löydät esimerkkejä siitä, millaisia aiheita on tähän mennessä tutkittu muiden Kielipankissa olevien aineistojen avulla.

Jos haluat lähettää Lahjoita puhetta -kampanjaan liittyvää palautetta

ota yhteyttä sähköpostitse osoitteeseen palaute (ät) lahjoitapuhettatuki.fi.

Näin viittaat Kielipankissa olevaan aineistoon

Tiesitkö, että Kielipankki tarjoaa jokaiselle aineistolle ja sen eri versioille valmiin viittausohjeen, joihin sisältyy aineiston pysyvä tunniste? Tiedot kannattaa lisätä lähdeluetteloon kaikissa julkaisuissa, joissa kyseistä aineistoa on hyödynnetty.

Yhtenäinen viittaustapa helpottaa tutkimuksen toistamista. Samalla aineistojen koostajat saavat tunnustuksen työstään.

Lue lisää

 

Viittausmuodon löytäminen aineistolistalta

In English

Raja-Karjalan korpus (FINKA)

Viimeisimmät versiot: 
Raja-Karjalan korpus, Kielipankin LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto LAT-palvelussa icon-question-circle
Raja-Karjalan korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Raja-Karjalan korpus sisältää yhteensä noin 120 tuntia wav-muotoisia äänitiedostoja sekä niiden suomalais-ugrilaisella tarkekirjoituksella tuotetut transkriptiot sekä raakatekstimuodossa että ääneen kohdistettuina TextGrid-tiedostoina, joista on ”riisuttu” tarkemerkit. TextGrid-muotoisissa annotaatiotiedostoissa eri puhujien puheenvuorot on merkitty eri kerroksiin.

Litterointimerkkien kuvaus (pdf)

Äänitteet edustavat 1800-luvun lopulla ja 1900-luvun alussa syntyneiden rajakarjalaisten haastattelupuhetta, jota on tallennettu Kotimaisten kielten keskuksen Suomen kielen nauhoitearkiston kokoelmiin pääosin 1960- ja 1970-luvuilla. Näytteet edustavat Ilomantsin, Korpiselän, Suojärven, Suistamon, Impilahden ja Salmin pitäjien murretta.

Aineistosta on tarjolla toistaiseksi kaksi versiota. Aineistoa voi kuunnella ja litteraateista voi tehdä hakuja Kielipankin LAT-palvelussa. LAT-palvelusta voi myös ladata yksittäisten haastattelujen (”sessioiden”) tiedostoja niputettuina omalle koneelle. Aineistosta on myös saatavilla kokonaan omalle koneelle ladattava versio.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Eduskunnan täysistuntojen ladattava versio on päivitetty tehokäyttäjiä varten

Kielipankin Eduskunnan täysistunnot -korpuksesta on nyt saatavilla päivitetty ladattava versio, johon on lisätty saman aineiston Korp-palvelussa näkyvän version 1.5 mukaiset VRT-muotoiset tekstitiedostot. VRT-muotoinen latauspaketti sisältää äänitteisiin kohdistetun, osittain puheentunnistimella tunnistetun tekstisisällön saneistettuna, perusmuotoistettuna ja jäsennettynä. VRT-tiedostossa on mukana alkuperäisissä pöytäkirjoissa mainittuja tietoja kulloisestakin puhujasta, puheenvuorojen alku- ja loppuaikaleimat kyseisen video- tai äänitallenteen sisällä sekä viittaukset vastaaviin alkuperäisiin videoihin ja pöytäkirjoihin.

Eduskunnan täysistuntojen ladattava versio 1.5 sisältää kaikki täysistunnot ajalta 10.9.2008 – 1.7.2016, samoin kuin sitä edeltävä latausversio 1.

Huomaa, että ladattava korpusversio on tarkoitettu niille käyttäjille, joiden tarkoituksiin Korp-palvelun kautta tarjotut monipuoliset haku- ja tilastointimahdollisuudet eivät sovellu. Aineistoon kannattaa kuitenkin tutustua ensin Korp-palvelun kautta. Hakuesimerkkejä löytyy mm. Eduskunnan täysistunnot -aineistojen yhteiseltä ohjesivulta.

Lisätietoja

Ohjeet henkilötietoja sisältävien Kielipankin aineistojen käsittelyyn

In English

Tämän sivun URN: http://urn.fi/urn:nbn:fi:lb-2020081521

Noudata näitä ohjeita, kun käsittelet Kielipankin kautta saatua henkilötietoja sisältävää aineistoa.

Sisältääkö aineisto henkilötietoja?

Jos Kielipankissa oleva aineisto sisältää henkilötietoja, sen lisenssissä on merkintä:

PRIV: Aineisto sisältää henkilötietoja.

Yksittäisen aineiston lisenssin tiedot löytyvät Kielipankin aineistoluettelosta kyseisen aineiston kohdalta sekä aineiston kuvailutiedoista, joihin pääsee aineiston pysyvällä tunnisteella (URN-osoite, joka näkyy aineiston viittausohjeessa).

Aineiston sisältämien henkilötietojen kuvaus

PRIV-merkityn aineiston kuvailutietoihin voi sisältyä erillinen kuvaus aineiston sisältämistä henkilötiedoista. Henkilötietojen kuvaukseen kuuluvat mm. seuraavat tiedot:

  • alkuperäisen aineiston rekisterinpitäjä
  • aineistoon sisältyvät henkilötietojen tyypit ja rekisteröityjen ryhmät
  • henkilötietojen alkuperäinen lainmukainen käsittelyperuste
  • kuvaus niistä perusteista, joiden mukaisiin käyttötarkoituksiin aineistoa voidaan luovuttaa Kielipankista edelleen
  • mahdolliset tarkemmat kyseistä aineistoa koskevat käsittelyohjeet.

Mikäli erillistä henkilötietojen kuvausta ei tietyn aineiston osalta ole etkä löydä vastaavia tietoja aineiston yleiskuvauksesta, pyydä tarkennusta FIN-CLARINin palveluosoitteesta: fin-clarin (ATT) helsinki.fi.

Millä tavalla henkilötietoja sisältäviä aineistoja pitää käsitellä?

Kielipankin aineistoja käyttämällä sitoudut noudattamaan Kielipankin yleisiä käyttöehtoja sekä aineistokohtaisia erityisehtoja.

PRIV-merkittyä aineistoa käyttäessäsi sitoudut käsittelemään aineiston sisältämiä henkilötietoja luottamuksellisesti, huolellisesti ja vain siihen käyttötarkoitukseen, jota varten olet saanut aineistoon pääsyn.

  • Jos saat aineiston käyttöoikeuden henkilökohtaisen hakemuksen perusteella ja olet hakemuksen yhteydessä esittänyt tutkimussuunnitelman tai vastaavan selvityksen käyttötarkoituksesta, voit käyttää aineistoa vain siinä mainittuun tarkoitukseen. Yksittäisen aineiston käsittelyyn saattaa liittyä myös lisärajoituksia, jotka ilmoitetaan hakemuksen yhteydessä.
  • Jos saat aineiston käyttöösi ilman erillistä hakemusta, mutta siihen pääsy edellyttää kirjautumista tutkijana tai opiskelijana, aineistoa on luvallista käsitellä ainoastaan tutkimus- ja opetustarkoitukseen.

Noudata henkilötietoja sisältävää aineistoa käsitellessäsi riittäviä suojatoimia oman organisaatiosi antamien ohjeiden mukaisesti. Erityisen huolellisesti tulee käsitellä aineistoa, joka sisältää arkaluonteisia (ns. erityisiin tietoryhmiin kuuluvia) henkilötietoja.

Huolehdi velvollisuuksistasi rekisterinpitäjänä

Kun ryhdyt käsittelemään Kielipankin kautta saatua, henkilötietoja sisältävää aineistoa uutta tutkimusta tai jotakin muuta tarkoitusta varten, sinusta ja/tai kotiorganisaatiostasi tulee aineiston rekisterinpitäjä. Rekisterinpitäjällä on mm. velvollisuus tarvittaessa osoittaa, että henkilötietojen käsittely on ollut lainmukaista.

Henkilötietojen käsittelyssä tulee noudattaa ensisijaisesti oman organisaation antamia ohjeita. Jos kotiorganisaation ohjeistusta ei ole käytettävissä, tutustu esimerkiksi Tietoarkiston julkaisemaan Aineistonhallinnan käsikirjaan käsittelytoimia suunnitellessasi.

Muista tehdä tietosuojailmoitus

Rekisterinpitäjänä sinun pitää yleensä tehdä henkilötietojen käsittelystä tietosuojailmoitus tai -seloste. Noudata tässäkin oman organisaatiosi antamia ohjeita. Tietosuojailmoituksen tekemisessä voit käyttää apuna alkuperäisen aineiston yhteydessä julkaistua tietosuojailmoitusta tai kuvausta sen sisältämistä henkilötiedoista.

Kun ryhdyt käyttämään Kielipankissa olevaa henkilötietoja sisältävää aineistoa, julkaise ensin omaa käsittelytarkoitustasi koskeva tietosuojailmoitus tai -seloste esimerkiksi oman organisaatiosi tarjoamilla verkkosivuilla. Ilmoita hankkeesi lyhyt ja yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Julkaisemme nämä tiedot Kielipankin verkkosivuilla, jotta ne ovat kaikkien aineiston käytöstä kiinnostuneiden tahojen nähtävillä.

Valitse oikeasuhtaiset suojatoimet

Noudata oman organisaatiosi ohjeita. Tarvittaessa voit katsoa esimerkkejä Kielipankissa sovellettavista ja muista mahdollisista suojatoimista, joita henkilötietoja käsitellessäsi saatat tarvita.

Henkilötiedot tieteellisissä esityksissä ja julkaisuissa

Henkilötietoja tulee käsitellä vastuullisesti ja hyviä eettisiä käytänteitä noudattaen myös silloin, kun teet aineistoon perustuvia tieteellisiä julkaisuja ja esitelmiä.

Kun raportoidaan tieteellisen tutkimuksen tuloksia, henkilötiedot tulee lähtökohtaisesti pyrkiä joko poistamaan tai häivyttämään esimerkiksi pseudonymisoimalla ja luokittelemalla tutkittavien iät, paikkakunnat jne. laajempiin ryhmiin siten, ettei tutkimukseen osallistuneita henkilöitä voi tunnistaa mainittujen tietojen perusteella tai muihin tietoihin yhdistelemällä.

Joskus tieteellisestä tutkimuksesta kertominen kuitenkin edellyttää henkilötietoja sisältävän aineksen esittämistä. Esimerkiksi tieteelliseen artikkeliin voi olla tarpeen liittää yksittäisiä lyhyitä näytteitä aineistosta tai tietty katkelma täytyy esittää tieteellisen konferenssiesitelmän yhteydessä. Punnitse kuitenkin tutkittaville aiheutuvat vaikutukset ja riskit, joita henkilötietoja sisältävien näytteiden julkaiseminen tai esittäminen voisi heille tai heidän läheisilleen aiheuttaa. Julkaistavat näytteet tulee poimia vain tieteellisten tavoitteiden kannalta välttämättömässä laajuudessa, ja näytteistä tulee sopivilla menetelmillä poistaa tai pseudonymisoida kaikki tarpeettomat henkilötiedot.

Huomaa myös, että mikäli tutkittaville on jostakin syystä informoinnin yhteydessä yksiselitteisesti ilmoitettu, ettei mitään heidän henkilötietojaan julkaista, eikä julkaistavaa näytettä ole mahdollista täysin anonymisoida, täytyy näytteen julkaisemiseen pyytää tutkittavalta erikseen lupa.

Useita käyttötarkoituksia?

Mikäli tiettyä luvanvaraista +PRIV-merkittyä aineistoa halutaan käsitellä useampaan eri tarkoitukseen – esimerkiksi myöhemmin huomataan, että halutaan tehdä uusi tutkimus, joka ei suoraan liity aiempaan aiheeseen – on tarvittaessa haettava käyttöoikeutta erikseen kuhunkin erilliseen tarkoitukseen Kielipankissa. Kaikki käsittelyperusteet on luonnollisesti myös mainittava tietosuojailmoituksessa/-ilmoituksissa.

Virheet ja väärinkäytökset

Jos aineistoa käyttäessäsi huomaat sen sisältävän sellaisia henkilötietoja, joita aineistossa ei mielestäsi kuvauksen perusteella pitäisi olla, ilmoita asiasta viipymättä joko Kielipankille ja/tai suoraan aineiston rekisterinpitäjälle. Samoin tulee toimia, mikäli epäilet, että henkilötietoja on jostakin syystä joutunut vääriin käsiin.

Kielipankin tietosuojakäytänteet

Plenary Sessions of the Parliament of Finland updated in Korp with links to all videos

Esimerkki eduskunnan täysistunnot -aineistoon liittyvästä videonäkymästä

A new version of the Plenary Sessions of the Parliament of Finland corpus is now available via Korp. Since the update, nearly all search results contain a link to the corresponding turn in the original video of the plenary session.

In Korp, it is possible to search the plenary sessions on the basis of the transcript text and various types of metadata, e.g., the speaker’s name or parliamentary group. You can access the video viewer by selecting one of the result lines in the concordance tab in Korp and by clicking on the ’Show video’ link on the bottom right corner of the page. Note, however, that the video will work best on Firefox, i.e., other browsers may not be supported.

The videos are streamed from the online service of the Parliament of Finland. The video page also displays metadata and background information about the search result that was selected in Korp.

The transcripts of the parliamentary sessions shown in Korp are based on the official transcripts provided by the Parliament of Finland. The start and end times of speech turns are based on the automatic alignment produced by an automatic speech recognition tool. For those parts of the text where a good match was not found in the audio track, the speech signal was recognized automatically, and these inserted portions may sometimes contain strange or erroneous content. Links to the original and authoritative transcripts by the Parliament are provided in the search results in Korp.

Please note also that the automatically aligned and recognized transcript text has has been parsed automatically using a Finnish language model. This is why the part-of-speech of word tokens in the Swedish portions within the transcripts has usually been marked as ’foreign word’.

Plenary Sessions of the Parliament of Finland, Kielipankki Korp Version 1.5 contains all the plenary sessions from 10.9.2008 to 1.7.2016.

Further information

Suomeksi

Plenary Sessions of the Parliament of Finland

The latest versions:  
Plenary Sessions of the Parliament of Finland, Kielipankki Korp-versio 1.5
icon-info-circle Metadata and license
icon-quote-right Citation instructions for this version
Open the corpus in Korp icon-question-circle
Plenary Sessions of the Parliament of Finland, Downloadable Version 1
icon-info-circle Metadata and license
icon-quote-right Citation instructions for this version
Download the corpus
Locate other versions of the same resource  

Plenary Sessions of the Parliament of Finland contains audio and video recordings of the parliamentary sessions and the transcripts that have been aligned with the audio. Both the media files and the original transcripts have been obtained directly from the online public services of the Parliament. The content is openly available via the Language Bank of Finland without logging in.

Via the Korp service in the Language Bank of Finland, it is possible to perform various kinds of content searches on the corpus and to calculate statistics from the results. The turns of different speakers have been separated in the text. In the Extended search tab in Korp, it is possible to delimit searches on the basis of the speaker’s name, the parliamentary group or the role of the speaker.

In the search results of this corpus version in Korp, there are also links to the corresponding utterances in the original video. If you wish, you may download the ELAN/EAF annotation files and the audio files in the downloadable version of the corpus for further processing. Moreover, the original videos and transcripts can also be located in the online services of the Parliament of Finland.

The text in the original transcripts has been aligned with the audio recordings by automatic methods. The technological expertise in the alignment process was provided by Aalto University. In those audio portions where a matching text was not found in the transcript, an automatic speech recognizer was used in order to provide a tentative transcript. Thus, it is important to remember that the text in the Korp version of the corpus is not error-free and it may not always fully correspond to the original transcript.

Further information about the contents of the different corpus versions can be found in their metadata records.

Eduskunnan täysistuntojen päivitys Korpissa – mukana lähes kaikki videot

Esimerkki eduskunnan täysistunnot -aineistoon liittyvästä videonäkymästä

Kielipankin Korp-palvelussa olevasta Eduskunnan täysistunnot -korpuksesta on nyt saatavilla päivitetty versio, jonka myötä lähes kaikista hakutuloksista pääsee katsomaan ja kuuntelemaan vastaavia puheenvuoroja täysistuntojen alkuperäisissä videotallenteissa.

Hakuja voi tehdä Korpissa puheenvuorojen tekstin ja erilaisten taustatietojen, mm. puhujan nimen tai eduskuntaryhmän, perusteella. Videonäkymään pääsee valitsemalla Korpin konkordanssivälilehdeltä jonkin hakuosuman ja klikkaamalla sivun oikeassa alareunassa olevaa Näytä video -linkkiä. Huomaa, että video toimii varmimmin Firefox-selaimella.

Puheenvuorojen alku- ja loppuajat perustuvat automaattisella puheentunnistimella tehtyyn tekstin ja äänitteen kohdistukseen. Videot suoratoistetaan eduskunnan verkkopalvelusta. Videosivulla näkyvät lisäksi kyseiseen hakuosumaan liittyvät taustatiedot.

Korp-palvelussa näkyvä eduskunnan täysistuntokeskusteluiden tekstiaineisto pohjautuu täysistuntojen virallisiin pöytäkirjoihin, joita on pyritty täydentämään automaattisella puheentunnistuksella sellaisissa kohdissa, joissa pöytäkirjatekstistä ei ole löytynyt äänitettä vastaavaa sisältöä. Aineiston käyttäjän kannattaakin huomata, että Korpin kautta näkyvässä tekstissä voi olla puheentunnistuksesta johtuvia virheellisiä kohtia. Korp-hakutuloksista on kuitenkin linkit myös eduskunnan verkkopalvelun alkuperäisiin pöytäkirjoihin.

Hakuja tehdessä on hyvä lisäksi muistaa, että teksti on jäsennetty automaattisesti suomen kielen jäsentimellä ja tekstissä olevat ruotsinkieliset osuudet on yleensä merkitty vierassanoiksi.

Eduskunnan täysistunnot, Kielipankin Korp-versio 1.5 sisältää kaikki täysistunnot ajalta 10.9.2008 – 1.7.2016.

Lisätietoja

Plenary Sessions of the Parliament of Finland, Kielipankki Korp version 1.1

This page is to inform you that on 2.12.2019, minor changes have been made to the original corpus data, referenced by the PID urn.fi/urn:nbn:fi:lb-2017020201.

 icon-arrow-circle-right Click here to proceed to the new version of the dataset. The dataset includes the changes described below.

Added functionality

The search results displayed in the concordance tab in Korp now contain links to a media player page that displays the video of the corresponding plenary session, forwarded to the start time of the selected transcript line. The video is streamed directly from the online service of the Parliament of Finland, whereas the transcript and other details of the speaker’s utterance are shown statically according to the content and attributes available in Korp. However, the new video feature does not affect the search facility in Korp.

Added annotations

The start and end times of utterances (relative to the beginning of the video) as well as utterance durations are now shown in the form hh:mm:ss.xxx, in addition to the corresponding values in milliseconds.

The previously hidden links to the original session transcripts and video recordings are now shown as text attributes in Korp.

The text content itself is unchanged.

Attribute changes

The following text attributes have been renamed:

  • ‘video’ was changed to ‘original_video’ (this attribute was previously hidden in Korp)
  • ’transcript’ was changed into  ’original_transcript’ (this attribute was previously hidden in Korp)
  • ’date’ was changed into ’publication_date’ (this attribute refers to the date when the transcript was published and it often differs from the date of the actual session event)
  • ’time’ was changed into ’publication_time’ (for a similar reason as above)

Moreover, a hidden attribute was added in order to be able to suppress the display of erroneous start and end times of utterances (in some cases, the timestamps were found to contain values exceeding the total duration of the video in question).

The textual content itself has not been changed.

Other corrections

Some erroneous links pointing to annotation documents and videos on the LAT service were removed. Some working LAT links are still available, but since the LAT system will stop working within a year or two, the links may be replaced in future corpus versions.

Missing characters in some URL addresses to the original videos were also fixed.

suomeksi

Semfinlex Kielipankki version

The Semfinlex corpora published in the Language Bank of Finland is based on the open data resources made available in the Semantic Finlex project. The project is hosted by the Semantic Computing Research Group (SeCo) at the Aalto University. More information and links to scientific publications can be found on the website of the project.

NB! 2019-09-13 Discrepancies in dependency parses of the Finnish data: The dependency parses and relations differ significantly from the parses in other corpora parsed earlier with the same parser. We are investigating the issue.

Latest versions:  
Finnish Parliament original statutes from 1734-2018 in Finnish, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Parliament original statutes from 1920-2018 in Swedish, Korp version; Ursprungliga författningar av Riksdagen på svenska från 1920-2018, Korp-versionen
icon-info-circleMetadata and license
icon-quote-right Attribution instructions
Select the corpus in Korpicon-question-circle
Finnish Parliament original statutes from 1920-2018, Korp version (Finnish-Swedish parallel corpus)
icon-info-circleMetadata and license
icon-quote-right Attribution instructions
Select the corpus in Korpicon-question-circle
Finnish Parliament original statutes from 1734-2018, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, Korp version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Finnish, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, Korp version; Avgöranden av Högsta domstolen och Högsta förvaltningsdomstolen på svenska 1980-2018, Korp-versionen
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Select the corpus in Korp icon-question-circle
Finnish Supreme and Supreme Administrative Court decisions from 1980-2018 in Swedish, downloadable version
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the corpus
Search for these versions in META-SHARE  

The resource has been annotated and the parallel corpus aligned by Erik Axelson in the FIN-CLARIN initiative for the Language Bank of Finland and it is publicly available and no registration or log in is required for access.

The concordancing tool Korp offers various options for searches and for compiling statistics. In the extended search, the user can restrict the search based on the type of the statute or a choose particular a time interval for the search. See the Korp User Guide for more information.

Mode detailed information about the corpora is available in the metadata articles.

Oulun yliopiston Päätalo-kokoelma

Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon (11.11.1919-20.11.2000) teoksia. Iijoki-sarja on 26 teoksesta koostuva Päätalon omaelämäkerrallinen pääteos, jossa kirjailija kuvaa elämäänsä 1910-luvulta aina 1990-luvulle asti.

Viimeisimmät versiot:  
Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp -versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto Korp-palvelussa icon-question-circle
Etsi saatavilla olevat versiot  

Aineiston julkaisemisen Kielipankissa ovat tehneet mahdolliseksi Oulun yliopiston yliopistonlehtori Maija Saviniemen aloitteesta Kalle Päätalon omaiset Riitta Päätalo, Aliisa Oksanen ja Emmi Oksanen sekä Gummerus Kustannus. Aineisto on Kielipankin kautta saatavilla tutkimuskäyttöön.

Iijoki-aineiston ensimmäisen Korp-version on FIN-CLARIN-hankkeessa jäsentänyt Erik Axelson Turku NLP -ryhmän Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Aineisto on myös jäsennetty Kielipankissa TDPP-jäsentimellä, joka on Turku BioNLP -ryhmän kehittämän TDT-jäsentimen pohjalta Kielipankissa edelleen kehitetty jäsennin. TDPP-jäsennyksen pohjalta on luotu lista aineiston sisältämistä saneista, joita jäsennin ei ole kyennyt luotettavasti perusmuotoistamaan. Sen sijaan annotaatiossa on merkintä OTHER_UNK. Suuri osa näistä saneista on murresanoja eri muodoissaan joten murresanoja tutkivan kannattaa etsiä niitä aineistosta pintamuotojen avulla.

Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murreanaa (pdf; 31 kt)

Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi valitsemalla hakukriteeriksi teoksen nimen tai ajankohdan ja kirjoittamalla valintakenttään vastaavasti teoksen nimen tai julkaisuvuoden.

In English

Aineiston nimi

Luo uusi aineistotietosivu tämän mallin mukaan.

Viimeisimmät versiot: 
Aineisto, Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Esimerkkihakuja
Avaa aineisto Korp-palvelussa icon-question-circle
Aineisto, versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus tuodaan mahdollisimman pian saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Siirtymävaiheessa joidenkin LATissa olleiden aineistojen saatavuuteen saattaa syntyä tilapäinen katkos vuodenvaihteessa 2020-21. Mikäli tarvitset aineiston nopeasti käyttöösi, ota yhteyttä Kielipankkiin. Pyynnöstä voimme järjestää väliaikaisen latausmahdollisuuden. Kiitos!

Aineiston sisältö

Aineisto sisältää… (kuvaus yhdellä virkkeellä).

Aineisto on saatavilla Kielipankin kautta avoimesti|tutkimus- ja opetuskäyttöön|luvanvaraisena. Huomaa, että joihinkin aineiston versioihin sisältyy henkilötietoja, joiden käsittelyssä on noudatettava Kielipankin ohjeita.

Tarkempaa tietoa eri aineistoversioiden käyttöoikeuksista ja sisällöstä löytyy niiden kuvailutiedoista.

Esimerkkihakuja aineiston Korp-versiosta

Suomeksi

FinnWordNet – The Finnish WordNet CC BY 3.0

PLEASE NOTE: FinnWordNet information moved to this location on 2019-09-16. The URLs of FinnWordNet demos and file downloads have changed, and the current URLs are not necessarily final. The demos and file downloads were not available between March and June 2018. Some demos still do not work, and the feedback form is unavailable. We apologize for the situation. (Updated 2019-09-16.)

General information

FinnWordNet – the Finnish WordNet is a lexical database for Finnish. It is a part of the FIN-CLARIN infrastructure project.

FinnWordNet is licensed under the Creative Commons Attribution (CC-BY) 3.0 licence. As a derivative of the Princeton WordNet, FinnWordNet is also subject to the Princeton WordNet licence.

FinnWordNet contains words (nouns, verbs, adjectives and adverbs) grouped by meaning into synonym groups representing concepts. These synonym groups are linked to each other with relations such as hyponymy and antonymy, creating a semantic network.

FinnWordNet can be used in language technology research and applications. It can also be used interactively as an electronic thesaurus.

The first version of FinnWordNet has been created by having the words of the original English (Princeton) WordNet (version 3.0) translated into Finnish by professional translators.

The most recent version of FinnWordNet is 2.0, released in October 2012. The persistent identifier of this version is urn:nbn:fi:lb-2014052714.

Even though FinnWordNet is not currently being actively developed, you can send feedback on it to fin-clarin (at) helsinki.fi.

Please note that the name of the resource is FinnWordNet (with a double n), not FinWordNet.

Search interfaces and demos

FinnWordNet data can be searched or viewed in a couple of different search interfaces or demos:

  • Dictionaries as HFST transducers: The FinnWordNet content has been encoded in various HFST finite-state transducers working as thesauri and translation dictionaries:

    Please note that the transducers used in these demos are still based on FinnWordNet version 1.1.2, not the most recent 2.0.

  • WordTies browser:
    WordTies is a multilingual wordnet browser or visualization interface developed in the EU project META-NORD, based on the Andre Ord browser for the Danish DanNet. It visualizes concept hierarchies and relations between concepts (synonym sets) (but not lexical relations such as antonymy). WordTies also links 1000 common concepts in FinnWordNet to concepts in the Danish, Estonian and Swedish wordnets.
  • The Open Multilingual Wordnet search interface (choose Finnish as one of the languages)

Download data

FinnWordNet data package

The FinnWordNet data can be downloaded from the download service of the Language Bank of Finland as a ZIP package that contains the data in a couple of different formats:

  • relations in a tab-separated-values (TSV) format: synonym sets, word senses, semantic and lexical relations, and translations;
  • Princeton WordNet database format;
  • Princeton WordNet lexicographer file format (source format for the data files); and
  • various additional lists (synsets, translations, relations) in a tab-separated-values format, complementing the relational data.

For more information, please see the README file.

In addition, the package contains the WordNet 3.0 Grind program modified to support FinnWordNet data. Since the downloadable package contains the compiled database, you probably do not need the modified Grind unless you modify the FinnWordNet data (lexicographer files). Compiling the program requires a Unix, Linux or similar environment and a C compiler; please see the associated README file for more information.

Please also note that searching the FinnWordNet data files with the wn search program requires a version patched by Debian.

HFST thesaurus and translation dictionary transducers based on FinnWordNet

Please note that the transducers are currently not available for download. We apologize for the situation. (2019-09-13)

The FinnWordNet (and Princeton WordNet) data is also used in the HFST finite-state transducers that work as Finnish or English thesauri or Finnish–English or English–Finnish translation dictionaries. The transducers recognize inflected forms of words, and the thesauri have variants generating synonyms in the same inflected form as the input word. More information about the transducers is available in the README file.

  • English thesauri
  • Finnish thesauri
  • Finnish–English and English–Finnish translation dictionaries

To use the transducers, you need either the full HFST library and tools (version 3.2.0 or later), the stand-alone HFST optimized lookup (version 1.3 or later) or the Java implementation of the optimized lookup (2011-05-23 or later).

FinnWordNet in WN-LMF and Lemon

The FinnWordNet data is also downloadable in the WN-LMF (WordNet Lexical Markup Framework) and Lemon (The Lexicon Model for Ontologies) XML formats from the Open Multilingual Wordnet site: download data ZIP package.

Technical corrections to FinnWordNet by Frankie Robertson

Frankie Robertson has made some technical corrections and changes to FinnWordNet data to make it work with the NLTK and extJWNL libraries. The corrected version is available in GitHub. The corrections are yet to be integrated to the official FinnWordNet data.

Publications

General description

Bilinguality and technical aspects

Extending FinnWordNet

Applications

Other research that uses FinnWordNet

  • Krasimir Angelov and Gleb Lobanov. 2016. Predicting Translation Equivalents in Linked WordNets. In Proceedings of the Sixth Workshop on Hybrid Approaches to Translation. 26–32.
  • Jörg Tiedemann, Filip Ginter and Jenna Kanerva. 2015. Morphological Segmentation and OPUS for Finnish–English Machine Translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation. ACL. 177–183.
  • Klaus Förger, Timo Honkela and Tapio Takala. 2013. Impact of Varying Vocabularies on Controlling Motion of a Virtual Actor. In Intelligent Virtual Agents: 13th International Conference, IVA 2013, Edinburgh, UK, August 29-31, 2013. Proceedings. 230–248. doi:10.1007/978-3-642-40415-3_21

Project information

The FinnWordNet development project ran in 2010–2012. The development of FinnWordNet was funded by the FIN-CLARIN and META-NORD projects. The META-NORD project received funding from the European Union’s ICT Policy Support Programme as part of the Competitiveness and Innovation Framework Programme under grant agreement no. 270899.

The following people participated in the FinnWordNet project:

Advisors:
Krister Lindén (project leader) (2010–), Lauri Carlson (2010–2012), Ulla Vanhatalo (2010–2012)
Other members:
Hissu Hyvärinen (2010–2012), Juha Kuokkala (2012), Kristiina Muhonen (2010), Jyrki Niemi (2010–2012), Pinja Pennala (2012), Paula Pääkkö (2010–2011)

News

New locations for the FinnWordNet information page and download (2019-09-19)

The FinnWordNet information page has been moved to the Portal of the Language Bank of Finland, and the download location to the Download service of the Language Bank of Finland. The information page has also been updated. Updating the demos and transducers is still partly in progress.

Version 2.0 of FinnWordNet released (2012-10-05)

Version 2.0 of FinnWordNet data has been released with thousands of new word senses added and hundreds of existing ones corrected. The data is downloadable and in use in the Web search interface. The search interface no longer asks you to rate the synonymy of random words.

As of version 2.0, FinnWordNet has been extended beyond being a translation of Princeton WordNet by adding new synsets as hyponyms of existing synsets (without glosses and English translations). The new synsets correspond to senses of common Finnish compound words.

The primary data format is now a relational format. See the corresponding README file in the downloadable package for more information.

FinnWordNet 2.0 contains 120,449 synsets (2,790 more than version 1.1.2), 208,645 word senses (16,845 more), 140,515 unique words (9,251 more) and 244,742 translation relations (14,695 more). Some of the additions and corrections are based on the suggestions received from users of FinnWordNet. All feedback is welcome: fin-clarin (at) helsinki.fi.

For more information, please see the NEWS file in the downloadable package.

In English

FinnWordNet – Finnish WordNet – suomen wordnet (CC BY 3.0)

HUOMAA: FinnWordNetin tiedot siirtyivät tähän paikkaan 2019-09-19. FinnWordNetin demojen ja ladattavien tiedostojen osoitteet ovat muuttuneet, eivätkä nykyiset osoitteet ole välttämättä lopulliset. Demot ja tiedostojen lataus olivat poissa käytöstä maaliskuusta kesäkuuhun 2018. Edelleenkään kaikki demot eivät toimi, ja palautelomake on poissa käytöstä. Pahoittelemme asiaa. (Päivitetty 2019-09-19.)

Perustietoja

FinnWordNet – Finnish WordNet – suomen wordnet on suomen kielen leksikaalinen tietokanta. Se on osa FIN-CLARIN-infrastruktuurihanketta.

FinnWordNet on lisensoitu Creative Commons Nimeä (CC-BY) 3.0 -lisenssillä. Koska FinnWordNet on Princeton WordNetin johdannainen, sitä koskee myös Princeton WordNetin lisenssi.

FinnWordNetissä sanat (substantiivit, verbit, adjektiivit ja adverbit) on ryhmitelty merkityksen mukaan käsitteitä edustaviksi synonyymijoukoiksi. Nämä synonyymijoukot on linkitetty toisiinsa erilaisilla suhteilla, kuten alakäsite- ja vastakohtasuhteilla, jolloin muodostuu semanttinen verkko.

FinnWordNetiä voi hyödyntää kieliteknologian tutkimuksessa ja sovelluksissa. Sitä voi käyttää myös interaktiivisesti elektronisena tesauruksena tai kaksikielisenä suomi–englanti–suomi-sanakirjana.

FinnWordNetin ensimmäinen versio on luotu käännättämällä ammattikääntäjillä alkuperäisen englannin (Princetonin) WordNetin (version 3.0) sanat suomeksi.

FinnWordNetin tuorein versio on 2.0, joka julkaistiin lokakuussa 2012. Tämän version pysyvä tunniste on urn:nbn:fi:lb-2014052714.

Vaikka FinnWordNetiä ei parhaillaan kehitetäkään aktiivisesti, voit lähettää palautetta siitä osoitteella fin-clarin (ät) helsinki.fi.

Huomaa, että hankkeen ja kielivaran nimi on FinnWordNet (kahdella n:llä), ei FinWordNet.

Hakuliittymiä ja demoja

FinnWordNetin sisältöä voi hakea tai katsella muutaman eri hakuliittymän tai demon kautta. Useimmat hakuliittymät ovat englanninkielisiä.

Lataa tiedostoja

FinnWordNetin datatiedostot

FinnWordNetin datatiedostot voi ladata Kielipankin latauspalvelusta ZIP-pakettina, joka sisältää datan muutamassa eri muodossa:

  • relaatiot sarkainmerkeillä erotetussa muodossa (TSV): synonyymijoukot, sananmerkitykset, synonyymijoukkojen ja sanojen väliset suhteet sekä käännössuhteet
  • Princeton WordNetin datatiedostomuoto
  • Princeton WordNetin lexicographer-tiedostot (datatiedostomuodon lähtömuoto)
  • relaatiomuotoista dataa täydentäviä muita listoja (synonyyymijoukot, käännökset, relaatiot) sarkainmerkeillä erotetussa muodossa.

Lisätietoja on README-tiedostossa (englanniksi, itse latauspaketin sisällä myös suomeksi).

Lisäksi paketti sisältää Princetonin WordNet 3.0 Grind -ohjelman version, jota on muokattu tukemaan FinnWordNetin dataa. Koska latauspaketti sisältää käännetyt WordNet-datatiedostot, muokattua Grind-ohjelmaa tarvitsee lähinnä vain silloin, jos muokkaa FinnWordNetin sisältöä (lexicographer-tiedostoja). Ohjelman kääntäminen edellyttää Unix-, Linux- tai vastaavaa ympäristöä sekä C-kääntäjää; lisätietoa on Grind-hakemiston sisällä olevassa README-tiedostossa.

Huomaa myös, että FinnWordNet-datatiedostojen käyttäminen wn-hakuohjelmalla edellyttää Debianin korjaamaa ohjelmaversiota.

FinnWordNetiin perustuvat synonyymi- ja käännöstransduktorit

Huomaa, että transduktorit eivät ole tällä hetkellä ladattavissa. Pahoittelemme tilannetta. (2019-09-19)

FinnWordNetin (ja Princeton WordNetin) sisältö on pohjana myös HFST-muotoisissa äärellisissä transduktoreissa, jotka toimivat suomen tai englannin synonyymisanakirjoina tai suomi–englanti- tai englanti–suomi-käännössanakirjoina. Transduktorit tunnistavat sanat myös taivutetuissa muodoissa, ja synonyymisanakirjoista on versiot, jotka tuottavat synonyymit syötesanan taivutusmuodossa. Lisätietoa transduktoreista on README-tiedostossa.

  • Englannin synonyymisanakirjat
  • Suomen synonyymisanakirjat
  • Suomi–englanti- ja englanti–suomi-käännössanakirjat

Transduktorien käyttämiseen tarvitsee joko täyden HFST-kirjaston ja -työkalut (version 3.2.0 tai uudemman), erillisen HFST optimized lookup -ohjelman (version 1.3 tai uudemman) tai optimized lookupin Java-toteutuksen (2011-05-23 tai uudemman).

FinnWordNet WN-LMF- ja Lemon-muodoissa

FinnWordNet-data on ladattavissa myös kahdessa eri XML-muodossa Open Multilingual Wordnet -sivulta: WN-LMF (WordNet Lexical Markup Framework) ja Lemon (The Lexicon Model for Ontologies): lataa ZIP-paketti.

Teknisiä korjauksia FinnWordNet-dataan (Frankie Robertson)

Frankie Robertson on tehnyt FinnWordNet-dataan muutamia teknisiä korjauksia ja muutoksia, jotta se toimisi NLTK– ja extJWNL-kirjastojen kanssa. Korjattu versio on saatavilla GitHubissa. Korjaukset eivät ole vielä osana virallista FinnWordNet-dataa.

Julkaisuja

Yleiskuvaus

FinnWordNetin kaksikielisyys ja teknisiä piirteitä

FinnWordNetin laajentaminen

Sovelluksia

FinnWordNetiä käyttävää muuta tutkimusta

  • Krasimir Angelov and Gleb Lobanov. 2016. Predicting Translation Equivalents in Linked WordNets. In Proceedings of the Sixth Workshop on Hybrid Approaches to Translation. 26–32.
  • Jörg Tiedemann, Filip Ginter and Jenna Kanerva. 2015. Morphological Segmentation and OPUS for Finnish–English Machine Translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation. ACL. 177–183.
  • Klaus Förger, Timo Honkela and Tapio Takala. 2013. Impact of Varying Vocabularies on Controlling Motion of a Virtual Actor. In Intelligent Virtual Agents: 13th International Conference, IVA 2013, Edinburgh, UK, August 29-31, 2013. Proceedings. 230–248. doi:10.1007/978-3-642-40415-3_21

Tietoa hankkeesta

FinnWordNetin kehityshanke oli käynnissä vuosina 2010–2012. FinnWordNetin kehitystä rahoittivat FIN-CLARIN- ja META-NORD-hankkeet. META-NORD-hanke sai rahoitusta Euroopan unionin tieto- ja viestintätekniikkapolitiikan tukiohjelmalta (ICT Policy Support Programme) osana kilpailukyky- ja innovaatiopuiteohjelmaa avustussuopimuksella 270899.

Seuraavat ihmiset osallistuivat FinnWordNet-hankkeeseen:

Neuvonantajat:
Krister Lindén (project leader) (2010–), Lauri Carlson (2010–2012), Ulla Vanhatalo (2010–2012)
Muut jäsenet:
Hissu Hyvärinen (2010–2012), Juha Kuokkala (2012), Kristiina Muhonen (2010), Jyrki Niemi (2010–2012), Pinja Pennala (2012), Paula Pääkkö (2010–2011)

Uutisia

FinnWordNetin kotisivulla ja latauspaikalla uudet sijainnit (2019-09-19)

FinnWordNetin kotisivu on siirretty Kielipankki-portaaliin, ja FinnWordNet-data on ladattavissa Kielipankin latauspalvelusta. Kotisivun tietoja on myös päivitetty. Demojen ja transduktorien osalta päivittäminen on vielä osittain kesken.

FinnWordNetin versio 2.0 julkaistu (2012-10-05)

FinnWordNetin datasta on julkaistu versio 2.0, johon on lisätty tuhansia sananmerkityksiä ja satoja olemassa olleita on korjattu. Uusi versio on ladattavissa ja käytössä WWW-hakuliittymässä. Hakuliittymä ei enää pyydä arvioimaan satunnaisesti valittujen sanojen synonymiaa.

Versiossa 2.0 FinnWordNetiä on laajennettu Princeton WordNetin käännöksestä lisäämällä uusia synonyymijoukkoja olemassa olevien synonyymijoukkojen alakäsitteiksi (ilman selitteitä ja englanninkielisiä käännöksiä). Uudet synonyymijoukot vastaavat yleisten suomenkielisten yhdyssanojen merkityksiä.

Datan ensisijainen muoto on nyt relaatiopohjainen; lisätietoja latauspaketin vastaavasta LUEMINUT-tiedostosta.

FinnWordNet 2.0 sisältää 120 449 synonyymijoukkoa (2 790 enemmän kuin versiossa 1.1.2), 208 645 sananmerkitystä (16 845 enemmän), 140 515 erilaista sanaa (9 251 enemmän) ja 244 742 käännössuhdetta (14 695 enemmän). Jotkin korjaukset ja lisäykset perustuvat FinnWordNetin käyttäjiltä hakuliittymän kautta saatuihin ehdotuksiin. Kaikki palaute on edelleen tervetullutta: fin-clarin (ät) helsinki.fi.

Lisätietoja uudesta versiosta on latauspaketin UUTISET-tiedostossa.

Vanhempia uutisia

Search the Language Bank Portal:
Tommi Kurki
Researcher of the Month: Tommi Kurki

 

Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4140599 / +358 29 4129317