13.3.2020

Beta-merkintä poistettu Wanca 2016 Korp-versiolta ja lähdemateriaali sekä VRT versiot julkaistu latauspalvelussa

Wanca 2016 Korp-versio on kokoelma verkkoteksteistä koostettuja virkekorpuksia pienille uralilaisille kielille. Kokoelmassa on 29 virkekorpusta eri kielille. Korpukset on kerätty internetistä käyttäen Suomalais-Ugrilaiset Kielet ja Internet projektissa (SUKI) kehitettyä automaattista järjestelmää.

Korp-versio julkaistiin BETAna syksyllä ja nyt BETA-merkintä on poistettu kun joitakin tokenisaatio-ongelmia oli korjattu Korp-versioon (englanninkielinen versio tästä uutisesta sisältää tarkemman kuvauksen korjauksista). Nämä ongelmat aiheutuivat kun virkekorpuksia muokattiin Korp-palveluun sopivaksi. Olemme nyt julkaisseet myös alkupeäisen lähdemateriaali-version sekä uuden Korpista ajetun VRT-version, jotka ovat saatavissa Kielipankin latauspalvelusta.

Korpuksen luonti on kuvattu artikkelissa: Jauhiainen, Heidi, Tommi Jauhiainen, Krister Lindén
Wanca in Korp: Text corpora for underresourced Uralic languages. Proceedings of the Research data and humanities (RDHUM) 2019 conference : data, methods and tools. Jantunen, J. H., Brunni, S., Kunnas, N., Palviainen, S. & Västi, K. (eds.). Oulu: University of Oulu, p. 21-40 (Studia Humaniora Ouluensia; no. 17). 2019