10.12.2019

Suomenkielinen OpenSubtitles 2017 ja Suomenkielinen Wikipedia 2017 (lähdemateriaalit) latauspalvelussa

Korpukset Suomenkielinen OpenSubtitles 2017, lähdemateriaali  ja Suomenkielinen Wikipedia 2017, lähdemateriaali  ovat saatavilla Kielipankin latauspalvelussa korp.csc.fi/download.

Suomenkielinen OpenSubtitles 2017 kattaa Opensubtitles.org sivuston jakamat elokuvien ja tv-ohjelmien suomenkieliset tekstitykset. Korpuksen kuvailutiedot: http://urn.fi/urn:nbn:fi:lb-2019110801

Suomenkielinen Wikipedia 2017 kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta. Korpuksen kuvailutiedot: http://urn.fi/urn:nbn:fi:lb-2019110803

Molemmat muodostavat osan Tatu Huovilaisen tutkimusaineistosta ja ne on tutkimusta varten vuonna 2018 jäsennetty Turku BioNLP-ryhmän kehittämällä jäsentimellä Turku Dependency Treebank (TDT) ja sen jälkeen tallennettu Kielipankkiin lähdemateriaaleina. Katso Tatu Huovilaisen haastattelu: https://www.kielipankki.fi/uutiset/kuukauden-tutkija-tatu-huovilainen/

Korpukset ovat myös mukana suomenkielen sanafrekvenssiaineistossa Psykolingvistiset tunnusluvut (http://urn.fi/urn:nbn:fi:lb-2018081601).