Finnish Wikipedia 2017, source
Suomenkielinen Wikipedia 2017, lähdemateriaali

Short name / Lyhytnimi: wikipedia-fi-2017-src

Persistent identifier / Aineiston pysyväistunniste: http://urn:nbn:fi:lb-2019110803

Access location / Sijainti: http://urn:nbn:fi:lb-2019110804

License / Lisenssi CC BY https://creativecommons.org/licenses/by/4.0/

The corpus contains all the Finnish articles from the online encyclopedia Wikipedia available in 1 January 2018. The text parts of the articles have been extracted from [Wikipedia Dumps](https://dumps.wikimedia.org/) with [WikiExtractor](https://github.com/attardi/wikiextractor).
The corpus has been tokenized and annotated with morpho-syntactic analysis produced with the [Turku Dependency Parser](http://turkunlp.github.io/Finnish-dep-parser/)
 
Size: 83,300,000 tokens 

Aineisto kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta (1.1.2018). Tekstit on eristetty Wikipedian tarjoamista kielikohtaisista kokonaisaineistoista (https://dumps.wikimedia.org/). Aineisto on jaettu arikkeleihin, kappaleisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän kehittämää dependenssijäsennintä (http://turkunlp.github.io/Finnish-dep-parser/).

Koko 83 300 000 sanetta

