In English

FinnWordNet – Finnish WordNet – suomen wordnet (CC BY 3.0)

HUOMAA: FinnWordNetin tiedot siirtyivät tähän paikkaan 2019-09-19. FinnWordNetin demojen ja ladattavien tiedostojen osoitteet ovat muuttuneet, eivätkä nykyiset osoitteet ole välttämättä lopulliset. Demot ja tiedostojen lataus olivat poissa käytöstä maaliskuusta kesäkuuhun 2018. Edelleenkään kaikki demot eivät toimi, ja palautelomake on poissa käytöstä. Pahoittelemme asiaa. (Päivitetty 2019-09-19.)

Perustietoja

FinnWordNet – Finnish WordNet – suomen wordnet on suomen kielen leksikaalinen tietokanta. Se on osa FIN-CLARIN-infrastruktuurihanketta.

FinnWordNet on lisensoitu Creative Commons Nimeä (CC-BY) 3.0 -lisenssillä. Koska FinnWordNet on Princeton WordNetin johdannainen, sitä koskee myös Princeton WordNetin lisenssi.

FinnWordNetissä sanat (substantiivit, verbit, adjektiivit ja adverbit) on ryhmitelty merkityksen mukaan käsitteitä edustaviksi synonyymijoukoiksi. Nämä synonyymijoukot on linkitetty toisiinsa erilaisilla suhteilla, kuten alakäsite- ja vastakohtasuhteilla, jolloin muodostuu semanttinen verkko.

FinnWordNetiä voi hyödyntää kieliteknologian tutkimuksessa ja sovelluksissa. Sitä voi käyttää myös interaktiivisesti elektronisena tesauruksena tai kaksikielisenä suomi–englanti–suomi-sanakirjana.

FinnWordNetin ensimmäinen versio on luotu käännättämällä ammattikääntäjillä alkuperäisen englannin (Princetonin) WordNetin (version 3.0) sanat suomeksi.

FinnWordNetin tuorein versio on 2.0, joka julkaistiin lokakuussa 2012. Tämän version pysyvä tunniste on urn:nbn:fi:lb-2014052714.

Vaikka FinnWordNetiä ei parhaillaan kehitetäkään aktiivisesti, voit lähettää palautetta siitä osoitteella fin-clarin (ät) helsinki.fi.

Huomaa, että hankkeen ja kielivaran nimi on FinnWordNet (kahdella n:llä), ei FinWordNet.

Hakuliittymiä ja demoja

FinnWordNetin sisältöä voi hakea tai katsella muutaman eri hakuliittymän tai demon kautta. Useimmat hakuliittymät ovat englanninkielisiä.

  • Sanakirjat HFST-transduktoreina: FinnWordNetin sisältöön perustuvat äärellistilaiset HFST-transduktorit, jotka toimivat synonyymi- ja käännössanakirjoina:

    Huomaa, että näiden demojen käyttämät transduktorit perustuvat yhä FinnWordNetin versioon 1.1.2, ei tuoreimpaan versioon 2.0.

  • WordTies-visualisointi:
    WordTies on monikielinen wordnet-visualisointikäyttöliittymä, joka on kehitetty META-NORD-EU-hankkeen yhteydessä tanskan DanNetille kehitetyn Andre Ordin pohjalta. WordTies visualisoi käsitehierarkioita ja käsitteiden (synonyymijoukkojen) välisiä suhteita (mutta ei leksikaalisia suhteita kuten vastakohtia). WordTies myös linkittää 1000 yleistä FinnWordNetin käsitettä tanskan, viron ja ruotsin wordnetien käsitteisiin.
  • Open Multilingual Wordnet -hakuliittymä (valitse suomi toiseksi kieleksi)

Lataa tiedostoja

FinnWordNetin datatiedostot

FinnWordNetin datatiedostot voi ladata Kielipankin latauspalvelusta ZIP-pakettina, joka sisältää datan muutamassa eri muodossa:

  • relaatiot sarkainmerkeillä erotetussa muodossa (TSV): synonyymijoukot, sananmerkitykset, synonyymijoukkojen ja sanojen väliset suhteet sekä käännössuhteet
  • Princeton WordNetin datatiedostomuoto
  • Princeton WordNetin lexicographer-tiedostot (datatiedostomuodon lähtömuoto)
  • relaatiomuotoista dataa täydentäviä muita listoja (synonyyymijoukot, käännökset, relaatiot) sarkainmerkeillä erotetussa muodossa.

Lisätietoja on README-tiedostossa (englanniksi, itse latauspaketin sisällä myös suomeksi).

Lisäksi paketti sisältää Princetonin WordNet 3.0 Grind -ohjelman version, jota on muokattu tukemaan FinnWordNetin dataa. Koska latauspaketti sisältää käännetyt WordNet-datatiedostot, muokattua Grind-ohjelmaa tarvitsee lähinnä vain silloin, jos muokkaa FinnWordNetin sisältöä (lexicographer-tiedostoja). Ohjelman kääntäminen edellyttää Unix-, Linux- tai vastaavaa ympäristöä sekä C-kääntäjää; lisätietoa on Grind-hakemiston sisällä olevassa README-tiedostossa.

Huomaa myös, että FinnWordNet-datatiedostojen käyttäminen wn-hakuohjelmalla edellyttää Debianin korjaamaa ohjelmaversiota.

FinnWordNetiin perustuvat synonyymi- ja käännöstransduktorit

Huomaa, että transduktorit eivät ole tällä hetkellä ladattavissa. Pahoittelemme tilannetta. (2019-09-19)

FinnWordNetin (ja Princeton WordNetin) sisältö on pohjana myös HFST-muotoisissa äärellisissä transduktoreissa, jotka toimivat suomen tai englannin synonyymisanakirjoina tai suomi–englanti- tai englanti–suomi-käännössanakirjoina. Transduktorit tunnistavat sanat myös taivutetuissa muodoissa, ja synonyymisanakirjoista on versiot, jotka tuottavat synonyymit syötesanan taivutusmuodossa. Lisätietoa transduktoreista on README-tiedostossa.

  • Englannin synonyymisanakirjat
  • Suomen synonyymisanakirjat
  • Suomi–englanti- ja englanti–suomi-käännössanakirjat

Transduktorien käyttämiseen tarvitsee joko täyden HFST-kirjaston ja -työkalut (version 3.2.0 tai uudemman), erillisen HFST optimized lookup -ohjelman (version 1.3 tai uudemman) tai optimized lookupin Java-toteutuksen (2011-05-23 tai uudemman).

FinnWordNet WN-LMF- ja Lemon-muodoissa

FinnWordNet-data on ladattavissa myös kahdessa eri XML-muodossa Open Multilingual Wordnet -sivulta: WN-LMF (WordNet Lexical Markup Framework) ja Lemon (The Lexicon Model for Ontologies): lataa ZIP-paketti.

Teknisiä korjauksia FinnWordNet-dataan (Frankie Robertson)

Frankie Robertson on tehnyt FinnWordNet-dataan muutamia teknisiä korjauksia ja muutoksia, jotta se toimisi NLTK– ja extJWNL-kirjastojen kanssa. Korjattu versio on saatavilla GitHubissa. Korjaukset eivät ole vielä osana virallista FinnWordNet-dataa.

Julkaisuja

Yleiskuvaus

FinnWordNetin kaksikielisyys ja teknisiä piirteitä

FinnWordNetin laajentaminen

Sovelluksia

FinnWordNetiä käyttävää muuta tutkimusta

  • Krasimir Angelov and Gleb Lobanov. 2016. Predicting Translation Equivalents in Linked WordNets. In Proceedings of the Sixth Workshop on Hybrid Approaches to Translation. 26–32.
  • Jörg Tiedemann, Filip Ginter and Jenna Kanerva. 2015. Morphological Segmentation and OPUS for Finnish–English Machine Translation. In Proceedings of the Tenth Workshop on Statistical Machine Translation. ACL. 177–183.
  • Klaus Förger, Timo Honkela and Tapio Takala. 2013. Impact of Varying Vocabularies on Controlling Motion of a Virtual Actor. In Intelligent Virtual Agents: 13th International Conference, IVA 2013, Edinburgh, UK, August 29-31, 2013. Proceedings. 230–248. doi:10.1007/978-3-642-40415-3_21

Tietoa hankkeesta

FinnWordNetin kehityshanke oli käynnissä vuosina 2010–2012. FinnWordNetin kehitystä rahoittivat FIN-CLARIN- ja META-NORD-hankkeet. META-NORD-hanke sai rahoitusta Euroopan unionin tieto- ja viestintätekniikkapolitiikan tukiohjelmalta (ICT Policy Support Programme) osana kilpailukyky- ja innovaatiopuiteohjelmaa avustussuopimuksella 270899.

Seuraavat ihmiset osallistuivat FinnWordNet-hankkeeseen:

Neuvonantajat:
Krister Lindén (project leader) (2010–), Lauri Carlson (2010–2012), Ulla Vanhatalo (2010–2012)
Muut jäsenet:
Hissu Hyvärinen (2010–2012), Juha Kuokkala (2012), Kristiina Muhonen (2010), Jyrki Niemi (2010–2012), Pinja Pennala (2012), Paula Pääkkö (2010–2011)

Uutisia

FinnWordNetin kotisivulla ja latauspaikalla uudet sijainnit (2019-09-19)

FinnWordNetin kotisivu on siirretty Kielipankki-portaaliin, ja FinnWordNet-data on ladattavissa Kielipankin latauspalvelusta. Kotisivun tietoja on myös päivitetty. Demojen ja transduktorien osalta päivittäminen on vielä osittain kesken.

FinnWordNetin versio 2.0 julkaistu (2012-10-05)

FinnWordNetin datasta on julkaistu versio 2.0, johon on lisätty tuhansia sananmerkityksiä ja satoja olemassa olleita on korjattu. Uusi versio on ladattavissa ja käytössä WWW-hakuliittymässä. Hakuliittymä ei enää pyydä arvioimaan satunnaisesti valittujen sanojen synonymiaa.

Versiossa 2.0 FinnWordNetiä on laajennettu Princeton WordNetin käännöksestä lisäämällä uusia synonyymijoukkoja olemassa olevien synonyymijoukkojen alakäsitteiksi (ilman selitteitä ja englanninkielisiä käännöksiä). Uudet synonyymijoukot vastaavat yleisten suomenkielisten yhdyssanojen merkityksiä.

Datan ensisijainen muoto on nyt relaatiopohjainen; lisätietoja latauspaketin vastaavasta LUEMINUT-tiedostosta.

FinnWordNet 2.0 sisältää 120 449 synonyymijoukkoa (2 790 enemmän kuin versiossa 1.1.2), 208 645 sananmerkitystä (16 845 enemmän), 140 515 erilaista sanaa (9 251 enemmän) ja 244 742 käännössuhdetta (14 695 enemmän). Jotkin korjaukset ja lisäykset perustuvat FinnWordNetin käyttäjiltä hakuliittymän kautta saatuihin ehdotuksiin. Kaikki palaute on edelleen tervetullutta: fin-clarin (ät) helsinki.fi.

Lisätietoja uudesta versiosta on latauspaketin UUTISET-tiedostossa.

Vanhempia uutisia

Hae Kielipankki-portaalista:
Harri Uusitalo
Kuukauden tutkija: Harri Uusitalo

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot