Suomeksi

FinnWordNet – The Finnish WordNet CC BY 3.0

PLEASE NOTE: FinnWordNet information moved to this location on 2019-09-16. The URLs of FinnWordNet demos and file downloads have changed, and the current URLs are not necessarily final. The demos and file downloads were not available between March and June 2018. Some demos still do not work, and the feedback form is unavailable. We apologize for the situation. (Updated 2019-09-16.)

General information

FinnWordNet – the Finnish WordNet is a lexical database for Finnish. It is a part of the FIN-CLARIN infrastructure project.

FinnWordNet is licensed under the Creative Commons Attribution (CC-BY) 3.0 licence. As a derivative of the Princeton WordNet, FinnWordNet is also subject to the Princeton WordNet licence.

FinnWordNet contains words (nouns, verbs, adjectives and adverbs) grouped by meaning into synonym groups representing concepts. These synonym groups are linked to each other with relations such as hyponymy and antonymy, creating a semantic network.

FinnWordNet can be used in language technology research and applications. It can also be used interactively as an electronic thesaurus.

The first version of FinnWordNet has been created by having the words of the original English (Princeton) WordNet (version 3.0) translated into Finnish by professional translators.

The most recent version of FinnWordNet is 2.0, released in October 2012. The persistent identifier of this version is urn:nbn:fi:lb-2014052714.

Even though FinnWordNet is not currently being actively developed, you can send feedback on it to fin-clarin (at) helsinki.fi.

Please note that the name of the resource is FinnWordNet (with a double n), not FinWordNet.

Search interfaces and demos

FinnWordNet data can be searched or viewed in a couple of different search interfaces or demos:

  • Dictionaries as HFST transducers: The FinnWordNet content has been encoded in various HFST finite-state transducers working as thesauri and translation dictionaries:

    Please note that the transducers used in these demos are still based on FinnWordNet version 1.1.2, not the most recent 2.0.

  • WordTies browser:
    WordTies is a multilingual wordnet browser or visualization interface developed in the EU project META-NORD, based on the Andre Ord browser for the Danish DanNet. It visualizes concept hierarchies and relations between concepts (synonym sets) (but not lexical relations such as antonymy). WordTies also links 1000 common concepts in FinnWordNet to concepts in the Danish, Estonian and Swedish wordnets.
  • The Open Multilingual Wordnet search interface (choose Finnish as one of the languages)

Download data

FinnWordNet data package

The FinnWordNet data can be downloaded from the download service of the Language Bank of Finland as a ZIP package that contains the data in a couple of different formats:

  • relations in a tab-separated-values (TSV) format: synonym sets, word senses, semantic and lexical relations, and translations;
  • Princeton WordNet database format;
  • Princeton WordNet lexicographer file format (source format for the data files); and
  • various additional lists (synsets, translations, relations) in a tab-separated-values format, complementing the relational data.

For more information, please see the README file.

In addition, the package contains the WordNet 3.0 Grind program modified to support FinnWordNet data. Since the downloadable package contains the compiled database, you probably do not need the modified Grind unless you modify the FinnWordNet data (lexicographer files). Compiling the program requires a Unix, Linux or similar environment and a C compiler; please see the associated README file for more information.

Please also note that searching the FinnWordNet data files with the wn search program requires a version patched by Debian.

HFST thesaurus and translation dictionary transducers based on FinnWordNet

Please note that the transducers are currently not available for download. We apologize for the situation. (2019-09-13)

The FinnWordNet (and Princeton WordNet) data is also used in the HFST finite-state transducers that work as Finnish or English thesauri or Finnish–English or English–Finnish translation dictionaries. The transducers recognize inflected forms of words, and the thesauri have variants generating synonyms in the same inflected form as the input word. More information about the transducers is available in the README file.

  • English thesauri
  • Finnish thesauri
  • Finnish–English and English–Finnish translation dictionaries

To use the transducers, you need either the full HFST library and tools (version 3.2.0 or later), the stand-alone HFST optimized lookup (version 1.3 or later) or the Java implementation of the optimized lookup (2011-05-23 or later).

FinnWordNet in WN-LMF and Lemon

The FinnWordNet data is also downloadable in the WN-LMF (WordNet Lexical Markup Framework) and Lemon (The Lexicon Model for Ontologies) XML formats from the Open Multilingual Wordnet site: download data ZIP package.

Technical corrections to FinnWordNet by Frankie Robertson

Frankie Robertson has made some technical corrections and changes to FinnWordNet data to make it work with the NLTK and extJWNL libraries. The corrected version is available in GitHub. The corrections are yet to be integrated to the official FinnWordNet data.

Publications

General description

Bilinguality and technical aspects

Extending FinnWordNet

Applications

Other research that uses FinnWordNet

  • Krasimir Angelov and Gleb Lobanov. 2016. Predicting Translation Equivalents in Linked WordNets. In Proceedings of the Sixth Workshop on Hybrid Approaches to Translation. 26–32.
  • Jörg Tiedemann, Filip Ginter and Jenna Kanerva. 2015. Morphological Segmentation and OPUS for Finnish–English Machine Translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation. ACL. 177–183.
  • Klaus Förger, Timo Honkela and Tapio Takala. 2013. Impact of Varying Vocabularies on Controlling Motion of a Virtual Actor. In Intelligent Virtual Agents: 13th International Conference, IVA 2013, Edinburgh, UK, August 29-31, 2013. Proceedings. 230–248. doi:10.1007/978-3-642-40415-3_21

Project information

The FinnWordNet development project ran in 2010–2012. The development of FinnWordNet was funded by the FIN-CLARIN and META-NORD projects. The META-NORD project received funding from the European Union’s ICT Policy Support Programme as part of the Competitiveness and Innovation Framework Programme under grant agreement no. 270899.

The following people participated in the FinnWordNet project:

Advisors:
Krister Lindén (project leader) (2010–), Lauri Carlson (2010–2012), Ulla Vanhatalo (2010–2012)
Other members:
Hissu Hyvärinen (2010–2012), Juha Kuokkala (2012), Kristiina Muhonen (2010), Jyrki Niemi (2010–2012), Pinja Pennala (2012), Paula Pääkkö (2010–2011)

News

New locations for the FinnWordNet information page and download (2019-09-19)

The FinnWordNet information page has been moved to the Portal of the Language Bank of Finland, and the download location to the Download service of the Language Bank of Finland. The information page has also been updated. Updating the demos and transducers is still partly in progress.

Version 2.0 of FinnWordNet released (2012-10-05)

Version 2.0 of FinnWordNet data has been released with thousands of new word senses added and hundreds of existing ones corrected. The data is downloadable and in use in the Web search interface. The search interface no longer asks you to rate the synonymy of random words.

As of version 2.0, FinnWordNet has been extended beyond being a translation of Princeton WordNet by adding new synsets as hyponyms of existing synsets (without glosses and English translations). The new synsets correspond to senses of common Finnish compound words.

The primary data format is now a relational format. See the corresponding README file in the downloadable package for more information.

FinnWordNet 2.0 contains 120,449 synsets (2,790 more than version 1.1.2), 208,645 word senses (16,845 more), 140,515 unique words (9,251 more) and 244,742 translation relations (14,695 more). Some of the additions and corrections are based on the suggestions received from users of FinnWordNet. All feedback is welcome: fin-clarin (at) helsinki.fi.

For more information, please see the NEWS file in the downloadable package.

In English

FinnWordNet – Finnish WordNet – suomen wordnet (CC BY 3.0)

HUOMAA: FinnWordNetin tiedot siirtyivät tähän paikkaan 2019-09-19. FinnWordNetin demojen ja ladattavien tiedostojen osoitteet ovat muuttuneet, eivätkä nykyiset osoitteet ole välttämättä lopulliset. Demot ja tiedostojen lataus olivat poissa käytöstä maaliskuusta kesäkuuhun 2018. Edelleenkään kaikki demot eivät toimi, ja palautelomake on poissa käytöstä. Pahoittelemme asiaa. (Päivitetty 2019-09-19.)

Perustietoja

FinnWordNet – Finnish WordNet – suomen wordnet on suomen kielen leksikaalinen tietokanta. Se on osa FIN-CLARIN-infrastruktuurihanketta.

FinnWordNet on lisensoitu Creative Commons Nimeä (CC-BY) 3.0 -lisenssillä. Koska FinnWordNet on Princeton WordNetin johdannainen, sitä koskee myös Princeton WordNetin lisenssi.

FinnWordNetissä sanat (substantiivit, verbit, adjektiivit ja adverbit) on ryhmitelty merkityksen mukaan käsitteitä edustaviksi synonyymijoukoiksi. Nämä synonyymijoukot on linkitetty toisiinsa erilaisilla suhteilla, kuten alakäsite- ja vastakohtasuhteilla, jolloin muodostuu semanttinen verkko.

FinnWordNetiä voi hyödyntää kieliteknologian tutkimuksessa ja sovelluksissa. Sitä voi käyttää myös interaktiivisesti elektronisena tesauruksena tai kaksikielisenä suomi–englanti–suomi-sanakirjana.

FinnWordNetin ensimmäinen versio on luotu käännättämällä ammattikääntäjillä alkuperäisen englannin (Princetonin) WordNetin (version 3.0) sanat suomeksi.

FinnWordNetin tuorein versio on 2.0, joka julkaistiin lokakuussa 2012. Tämän version pysyvä tunniste on urn:nbn:fi:lb-2014052714.

Vaikka FinnWordNetiä ei parhaillaan kehitetäkään aktiivisesti, voit lähettää palautetta siitä osoitteella fin-clarin (ät) helsinki.fi.

Huomaa, että hankkeen ja kielivaran nimi on FinnWordNet (kahdella n:llä), ei FinWordNet.

Hakuliittymiä ja demoja

FinnWordNetin sisältöä voi hakea tai katsella muutaman eri hakuliittymän tai demon kautta. Useimmat hakuliittymät ovat englanninkielisiä.

  • Sanakirjat HFST-transduktoreina: FinnWordNetin sisältöön perustuvat äärellistilaiset HFST-transduktorit, jotka toimivat synonyymi- ja käännössanakirjoina:

    Huomaa, että näiden demojen käyttämät transduktorit perustuvat yhä FinnWordNetin versioon 1.1.2, ei tuoreimpaan versioon 2.0.

  • WordTies-visualisointi:
    WordTies on monikielinen wordnet-visualisointikäyttöliittymä, joka on kehitetty META-NORD-EU-hankkeen yhteydessä tanskan DanNetille kehitetyn Andre Ordin pohjalta. WordTies visualisoi käsitehierarkioita ja käsitteiden (synonyymijoukkojen) välisiä suhteita (mutta ei leksikaalisia suhteita kuten vastakohtia). WordTies myös linkittää 1000 yleistä FinnWordNetin käsitettä tanskan, viron ja ruotsin wordnetien käsitteisiin.
  • Open Multilingual Wordnet -hakuliittymä (valitse suomi toiseksi kieleksi)

Lataa tiedostoja

FinnWordNetin datatiedostot

FinnWordNetin datatiedostot voi ladata Kielipankin latauspalvelusta ZIP-pakettina, joka sisältää datan muutamassa eri muodossa:

  • relaatiot sarkainmerkeillä erotetussa muodossa (TSV): synonyymijoukot, sananmerkitykset, synonyymijoukkojen ja sanojen väliset suhteet sekä käännössuhteet
  • Princeton WordNetin datatiedostomuoto
  • Princeton WordNetin lexicographer-tiedostot (datatiedostomuodon lähtömuoto)
  • relaatiomuotoista dataa täydentäviä muita listoja (synonyyymijoukot, käännökset, relaatiot) sarkainmerkeillä erotetussa muodossa.

Lisätietoja on README-tiedostossa (englanniksi, itse latauspaketin sisällä myös suomeksi).

Lisäksi paketti sisältää Princetonin WordNet 3.0 Grind -ohjelman version, jota on muokattu tukemaan FinnWordNetin dataa. Koska latauspaketti sisältää käännetyt WordNet-datatiedostot, muokattua Grind-ohjelmaa tarvitsee lähinnä vain silloin, jos muokkaa FinnWordNetin sisältöä (lexicographer-tiedostoja). Ohjelman kääntäminen edellyttää Unix-, Linux- tai vastaavaa ympäristöä sekä C-kääntäjää; lisätietoa on Grind-hakemiston sisällä olevassa README-tiedostossa.

Huomaa myös, että FinnWordNet-datatiedostojen käyttäminen wn-hakuohjelmalla edellyttää Debianin korjaamaa ohjelmaversiota.

FinnWordNetiin perustuvat synonyymi- ja käännöstransduktorit

Huomaa, että transduktorit eivät ole tällä hetkellä ladattavissa. Pahoittelemme tilannetta. (2019-09-19)

FinnWordNetin (ja Princeton WordNetin) sisältö on pohjana myös HFST-muotoisissa äärellisissä transduktoreissa, jotka toimivat suomen tai englannin synonyymisanakirjoina tai suomi–englanti- tai englanti–suomi-käännössanakirjoina. Transduktorit tunnistavat sanat myös taivutetuissa muodoissa, ja synonyymisanakirjoista on versiot, jotka tuottavat synonyymit syötesanan taivutusmuodossa. Lisätietoa transduktoreista on README-tiedostossa.

  • Englannin synonyymisanakirjat
  • Suomen synonyymisanakirjat
  • Suomi–englanti- ja englanti–suomi-käännössanakirjat

Transduktorien käyttämiseen tarvitsee joko täyden HFST-kirjaston ja -työkalut (version 3.2.0 tai uudemman), erillisen HFST optimized lookup -ohjelman (version 1.3 tai uudemman) tai optimized lookupin Java-toteutuksen (2011-05-23 tai uudemman).

FinnWordNet WN-LMF- ja Lemon-muodoissa

FinnWordNet-data on ladattavissa myös kahdessa eri XML-muodossa Open Multilingual Wordnet -sivulta: WN-LMF (WordNet Lexical Markup Framework) ja Lemon (The Lexicon Model for Ontologies): lataa ZIP-paketti.

Teknisiä korjauksia FinnWordNet-dataan (Frankie Robertson)

Frankie Robertson on tehnyt FinnWordNet-dataan muutamia teknisiä korjauksia ja muutoksia, jotta se toimisi NLTK– ja extJWNL-kirjastojen kanssa. Korjattu versio on saatavilla GitHubissa. Korjaukset eivät ole vielä osana virallista FinnWordNet-dataa.

Julkaisuja

Yleiskuvaus

FinnWordNetin kaksikielisyys ja teknisiä piirteitä

FinnWordNetin laajentaminen

Sovelluksia

FinnWordNetiä käyttävää muuta tutkimusta

  • Krasimir Angelov and Gleb Lobanov. 2016. Predicting Translation Equivalents in Linked WordNets. In Proceedings of the Sixth Workshop on Hybrid Approaches to Translation. 26–32.
  • Jörg Tiedemann, Filip Ginter and Jenna Kanerva. 2015. Morphological Segmentation and OPUS for Finnish–English Machine Translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation. ACL. 177–183.
  • Klaus Förger, Timo Honkela and Tapio Takala. 2013. Impact of Varying Vocabularies on Controlling Motion of a Virtual Actor. In Intelligent Virtual Agents: 13th International Conference, IVA 2013, Edinburgh, UK, August 29-31, 2013. Proceedings. 230–248. doi:10.1007/978-3-642-40415-3_21

Tietoa hankkeesta

FinnWordNetin kehityshanke oli käynnissä vuosina 2010–2012. FinnWordNetin kehitystä rahoittivat FIN-CLARIN- ja META-NORD-hankkeet. META-NORD-hanke sai rahoitusta Euroopan unionin tieto- ja viestintätekniikkapolitiikan tukiohjelmalta (ICT Policy Support Programme) osana kilpailukyky- ja innovaatiopuiteohjelmaa avustussuopimuksella 270899.

Seuraavat ihmiset osallistuivat FinnWordNet-hankkeeseen:

Neuvonantajat:
Krister Lindén (project leader) (2010–), Lauri Carlson (2010–2012), Ulla Vanhatalo (2010–2012)
Muut jäsenet:
Hissu Hyvärinen (2010–2012), Juha Kuokkala (2012), Kristiina Muhonen (2010), Jyrki Niemi (2010–2012), Pinja Pennala (2012), Paula Pääkkö (2010–2011)

Uutisia

FinnWordNetin kotisivulla ja latauspaikalla uudet sijainnit (2019-09-19)

FinnWordNetin kotisivu on siirretty Kielipankki-portaaliin, ja FinnWordNet-data on ladattavissa Kielipankin latauspalvelusta. Kotisivun tietoja on myös päivitetty. Demojen ja transduktorien osalta päivittäminen on vielä osittain kesken.

FinnWordNetin versio 2.0 julkaistu (2012-10-05)

FinnWordNetin datasta on julkaistu versio 2.0, johon on lisätty tuhansia sananmerkityksiä ja satoja olemassa olleita on korjattu. Uusi versio on ladattavissa ja käytössä WWW-hakuliittymässä. Hakuliittymä ei enää pyydä arvioimaan satunnaisesti valittujen sanojen synonymiaa.

Versiossa 2.0 FinnWordNetiä on laajennettu Princeton WordNetin käännöksestä lisäämällä uusia synonyymijoukkoja olemassa olevien synonyymijoukkojen alakäsitteiksi (ilman selitteitä ja englanninkielisiä käännöksiä). Uudet synonyymijoukot vastaavat yleisten suomenkielisten yhdyssanojen merkityksiä.

Datan ensisijainen muoto on nyt relaatiopohjainen; lisätietoja latauspaketin vastaavasta LUEMINUT-tiedostosta.

FinnWordNet 2.0 sisältää 120 449 synonyymijoukkoa (2 790 enemmän kuin versiossa 1.1.2), 208 645 sananmerkitystä (16 845 enemmän), 140 515 erilaista sanaa (9 251 enemmän) ja 244 742 käännössuhdetta (14 695 enemmän). Jotkin korjaukset ja lisäykset perustuvat FinnWordNetin käyttäjiltä hakuliittymän kautta saatuihin ehdotuksiin. Kaikki palaute on edelleen tervetullutta: fin-clarin (ät) helsinki.fi.

Lisätietoja uudesta versiosta on latauspaketin UUTISET-tiedostossa.

Vanhempia uutisia