Katselmointiprosessi

Muokattu viimeksi: 2020-10-01 15.31

Kielipankin vanhan käytännön mukaan Kielipankki voi tehdä myös katselmointia vaativaa hakemusta koskevan päätöksen varsinaisen hyväksyjän puolesta, mikäli tämä ei vastaa kolmen päivän sisällä hyväksymispyynnön vastaanottamisesta. Kyseinen käytäntö ei kuitenkaan päde kaikkiin aineistoihin. Kielipankin on joka tapauksessa aina odotettava esimerkiksi Ylioppilastutkintolautakunnan ratkaisua. (Muidenkin aineistojen osalta periaatteet olisi hyvä päivittää ja tarkentaa seuraavan kerran, kun hakemuksia tulee.)

>> Kielipankin oikeudet

Viestipohjat hakijoille

lyhenneAineiston nimiURNhyväksyjä(t)/
yhteyshenkilö(t)
sähköpostiKielipankki
hyväksyy
+PRIVMuuta
AVOIDMuunnellun puheen korpushttp://urn.fi/urn:nbn:fi:lb-2018060621Tomi Kinnunen,
Rosa Gonzalez-Hautamäki
tkinnu@uef.fi,
rosa.gonzalezhautamaki@uef.fi
eiPRIV
cfinsl-elicitSuomalaisen viittomakielen korpus: kerronta-aineistohttp://urn.fi/urn:nbn:fi:lb-2019012322Juhana Salonen (hyväksyjä),
Tommi Jantunen (omistaja)
juhana.salonen@jyu.fi,
tommi.j.jantunen@jyu.fi
eiPRIVKielipankki hyväksyy yleensä, rajatapauksissa otetaan yhteyttä Juhanaan. LATissa loppupvm pitää merkata AMS:iin. https://rt.csc.fi/rt/Ticket/Display.html?id=361803
COCACorpus of Contemporary American Englishhttp://urn.fi/urn:nbn:fi:lb-2017061921??kyllä
COHACorpus of Historical American Englishhttp://urn.fi/urn:nbn:fi:lb-2017061924??kyllä
dmp-wn
Digitaalisen muoto-opin arkiston sanaliput
http://urn.fi/urn:nbn:fi:lb-2016032101Mari Siiroinenmari.siiroinen@helsinki.fikylläPRIV
ELFAELFA Corpushttp://urn.fi/urn:nbn:fi:lb-201403262Anna Mauranenanna.mauranen@helsinki.fikylläPRIVhttps://rt.csc.fi/rt/Ticket/Display.html?id=304347
english-uhlcsEnglannin korpushttp://urn.fi/urn:nbn:fi:lb-2014032610Kristiina Jokinenkristiina.jokinen@helsinki.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=142317
erzya-moksha-komi-uhlcsErsän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuuttahttp://urn.fi/urn:nbn:fi:lb-2014032612Jack Rueterrueter.jack@gmail.comei
erzya-moksha-uhlcsErsän ja mokšan sanaluettelokorpushttp://urn.fi/urn:nbn:fi:lb-2014032611Dennis Estilldennis.estill@gmail.comkyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=223087
estonian2-uhlcsViron korpus 2http://urn.fi/urn:nbn:fi:lb-2014032629Maria Vilkunamaria.vilkuna@kotus.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=172787
finnish-bibles-uhlcsSuomen korpus (raamatut)http://urn.fi/urn:nbn:fi:lb-2014032623Anssi Yli-Jyräaylijyra@ling.helsinki.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=142317#txn-2458798
finnish-literature-uhlcsSuomen korpus (kirjallisuutta)http://urn.fi/urn:nbn:fi:lb-2014032622Kristiina Jokinenkristiina.jokinen@helsinki.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=142317
FinSveStud 79–80Studentsvenska 79–80http://urn.fi/urn:nbn:fi:lb-20140730119Ylioppilastutkintolautakuntalautakunta@ylioppilastutkinto.fieiPRIV?https://www.ylioppilastutkinto.fi/tietopalvelut/tutkimusluvat
FISC-taitoSuomenruotsin tekstikokoelmahttp://urn.fi/urn:nbn:fi:lb-2014032621Jan K. Lindströmjan.k.lindstrom@helsinki.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=172790
FSTC-taitoSuomenruotsin tekstikokoelmahttp://urn.fi/urn:nbn:fi:lb-2014032621Jan K. Lindströmjan.k.lindstrom@helsinki.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=172790
giellagas-northPohjoissaamen näytekorpushttp://urn.fi/urn:nbn:fi:lb-201407302Marko Joustemarko.jouste@oulu.fieiPRIV
GloWbECorpus of Global Web-Based Englishttp://urn.fi/urn:nbn:fi:lb-2017061927??kyllä
HCS 2.0Helsinki Corpus of Swahili 2.0http://urn.fi/urn:nbn:fi:lb-2014032624Arvi Hurskainenarvi.hurskainen@helsinki.fikylläHCS2 on ACA.
helpuhe1Helsingin puhekielen pitkittäiskorpushttp://urn.fi/urn:nbn:fi:lb-2014073041Hanna Lappalainenhanna.lappalainen@helsinki.fieiPRIV
ICLFIKansainvälinen
oppijansuomen korpus
http://urn.fi/urn:nbn:fi:lb-20140730163Sisko Brunnisisko.brunni@oulu.fikylläPRIVhttps://rt.csc.fi/rt/Ticket/Display.html?id=146508
khanty-uhlcsHantin korpus (pohjoishantin aineistot ja käännökset)http://urn.fi/urn:nbn:fi:lb-2014032613Merja Salomesalo@mappi.helsinki.fiei
komi-uhlcsKomisyrjäänin korpushttp://urn.fi/urn:nbn:fi:lb-2014032615Paula Kokkonenpaula.kokkonen99@gmail.comkyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=223092
kraKeskiranskan korpushttp://urn.fi/urn:nbn:fi:lb-201403264Terho JoutsenTerho.Joutsen@jyu.fikyllä
LAS2Edistyneiden suomenoppijoiden korpushttp://urn.fi/urn:nbn:fi:lb-201407167Nobufumi Inabanobufumi.inaba@utu.fieiPRIV?Kielipankki voi hyväksyä, mutta pdf:ään tulostettu kopio hyväksytystä LBR-hakemuksesta lähetetään oikeudenhaltijoille. https://rt.csc.fi/rt/Ticket/Display.html?id=155903
latin-uhlcsLatinan korpushttp://urn.fi/urn:nbn:fi:lb-2014032616Martti A. Nymanmartti.nyman@utu.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=191395
lude-uhlcsLyydin korpushttp://urn.fi/urn:nbn:fi:lb-2014032617Miikul Pahomovmiikul.pahomov@helsinki.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=174098
north-saami-literature-uhlcsPohjoissaamen korpus
(kirjallisuutta)
http://urn.fi/urn:nbn:fi:lb-2014032620Kerttu Vuolabkerttu.vuolab@pp.sonera.netkyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=146518
north-saami-report-uhlcsPohjoissaame (Sámikultuvradoaibmagotti smiehttamush)http://urn.fi/urn:nbn:fi:lb-2014032619Irja Seurujärvi-Kariirja.seurujarvi-kari@helsinki.fieiEi toimi.
ParFin2016Suomi–venäjä kaunokirjallisten tekstien rinnakkaiskorpushttp://urn.fi/urn:nbn:fi:lb-2014052710Mikhail Mikhailovmikhail.mikhailov@uta.fiei
ParRus2016Venäjä-suomi kaunokirjallisten tekstien rinnakkaiskorpushttp://urn.fi/urn:nbn:fi:lb-2014052710Mikhail Mikhailovmikhail.mikhailov@uta.fiei
seuruuMurteenseuruukorpushttp://urn.fi/urn:nbn:fi:lb-2014073043Anna-Liisa Kristianssonanna-liisa.kristiansson@kotus.fieiPRIV
somali-uhlcsSomali?Silja Huttunensihuttun@cs.helsinki.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=189612
ssdc-2016Koltansaamen dokumentaatiokorpushttp://urn.fi/urn:nbn:fi:lb-2014073037Matti Miestamomatti.miestamo@helsinki.fieiPRIV
stt-fi-1992-2018-srcSTT:n uutisarkisto 1992-2018, lähdemateriaalihttp://urn.fi/urn:nbn:fi:lb-2019041501STTmediapalvelut@stt.fiei
toplingTopling - Toisen kielen oppimisen poluthttp://urn.fi/urn:nbn:fi:lb-20140730168Ari Huhtaari.huhta@jyu.fikyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=218396
uralic-uhlcsUralilaisia, turkkilaisia, indo-iranilaisia ja
mongolikieliä sekä Siperian ja
Kaukasian kieliä
http://urn.fi/urn:nbn:fi:lb-2014032626Pirkko Suihkonensuihkonen.pirkko@gmail.comkyllähttps://rt.csc.fi/rt/Ticket/Display.html?id=142317#txn-2458798
ylioppilasaineet1994, 1999 ja 2004 äidinkielen ylioppilaskokeiden esseitä sisältävä korpushttp://urn.fi/urn:nbn:fi:lb-2017030301Ylioppilastutkintolautakuntalautakunta@ylioppilastutkinto.fieiPRIVhttps://www.ylioppilastutkinto.fi/tietopalvelut/tutkimusluvat


Viestipohjia

Kaikki PRIV-aineistot

Siihen saakka, kun PRIV-aineistojen käsittelyä koskevat ohjeet eivät ole LBR:ssä oletuksena muiden lisenssien ohella, lähetetään hakemuksen hyväksymisen yhteydessä seuraava kommentti:

Huomaa, että tämä aineisto sisältää henkilötietoja, joiden käsittelyssä sinun on noudatettava Kielipankin ohjeita, ks. http://urn.fi/urn:nbn:fi:lb-2020081521.

Please note that this resource contains personal data. You are required to follow the guidelines for processing corpora containing personal data in the Language Bank of Finland, see http://urn.fi/urn:nbn:fi:lb-2020081522.

Opiskelijan lähettämän hakemuksen katselmointi (koskee pelkästään +PRIV-aineistoja, joissa henkilötietoja)

Jos hakija on opiskelija, joka tekee gradua tai sitä edeltävän vaiheen opintosuoritusta, lähetetään hakijalle seuraava viesti:

Kun aineistoa käytetään opiskelutarkoitukseen, tarvitaan hakemuksen tueksi opinnäytetyösi ohjaajan (tai hakemuksessa mainittua kurssisuoritustasi valvovan opettajan) puolto.

Varmista aluksi ohjaajaltasi, että hän hyväksyy esittämäsi suunnitelman. Jos ohjaajasi ei ole aikaisemmin käyttänyt Kielipankin oikeudet -palvelua, pyydä häntä kirjautumaan sinne kertaalleen (https://lbr.csc.fi), jolloin hänen tunnuksensa näkyy järjestelmässä. Täydennä sitten tarvittaessa tutkimussuunnitelmaasi ja ilmoita siinä myös ohjaajasi nimi.

Kielipankki välittää hakemuksen ohjaajasi katselmoitavaksi, minkä jälkeen se voidaan käsitellä loppuun.

Kiitos!

Jos hakijan status ei ole selvä (ts. onko opiskelija vai henkilökuntaa), ja hän hakee PRIV-aineiston käyttöoikeutta, palautetaan hakemus seuraavan tyylisellä saatteella:

Dear applicant,
since this resource contains personal data, we would first need to confirm your academic status, and we were not able to determine whether you are a student or part of the academic faculty at the University of XXX.
If you are a member of staff, please resubmit the application and include, e.g., a link to the university website that can confirm your role.
In case you are a student, we kindly ask you to resubmit the application and include the name of your teacher or supervisor. The supervisor will then be requested by the Language Bank to review your application. In order for the review process to be completed, the supervisor should have logged in to the Language Bank Rights system (https://lbr.csc.fi) at least once.
Some instructions can be found on the Language Bank website, https://www.kielipankki.fi/support/access/.

Thank you!

Katselmointipyyntö opiskelijan ohjaajalle

Hei, tarkistaisitko opiskelijasi N.N.:n hakemuksen, joka koskee Kielipankissa olevan XXX-aineiston opiskelukäyttöä? Kiitos!

Sivun yläreunaan

Administration tasks and responsibilities

Notes on what has been agreed concerning various tasks in the Language Bank.

What? Who? What else?
AAI Martin
Agreements U Hel Hanna
CLARIN reference licenses U Hel
Corpora U Hel Hanna
DevOps Pouta Martin portal-dev, mylly-tools-compilevm
DevOps Rahti Martin metahshare-rahti pilot
Download Martin/Tero
Jira Martin
Korp U Hel Application: Jyrki
LAT Martin together with Mietta
META-SHARE Martin
Nimiarkisto Kotus
PID Tero
Portal Tero
RT Martin Delegates as appropriate.
SAFMORIL U Hel Erik, CLARIN K Centre
Sanat
Signbank U Jyväskylä
Software stack / HPC Martin
Webanno Martin (Sam)

Corpus data publication for download at the Language Bank

Status 27.1.2020: DRAFT

Introduction

This guideline is intended as a short guide to define the minimal steps necessary to prepare a corpus data publication for download at the Language Bank of Finland.

Name, short name and version

The corpus needs

  • a name (e.g. ”The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s) Downloadable Version”),
  • and a version (If applicable: Major.Minor.Patch, e.g. 1.1.2 or YEAR+Part of Year, eg 2017H2 for the second half of 2017).
  • a short name containing version information (e.g. ”helpuhe1-dl”)

If an older version of the same corpus exists, a decision needs to be made whether to update metadata in an existing description or to create new metadata. See our Lifecycle Model for details. The name of the corpus will be visible in the column ”Description” of page korp.csc.fi/download/ and the text should link to the metadata page at metashare.csc.fi. The name is essentially the same as the metadata long name of the corpus, possibly shortened a bit if the long name is too long. It the directory does not have a metadata page, just create a descriptive name for it (e.g. the semfinlex corpus has subcorpora that are grouped under a common directory).

The package

  • The package needs to contain only the relevant data, no .tmp directories, etc.
  • The format is zip.
  • Zip files start with the shortname, omitting the redundant ”-dl”: ”short name-specifier.zip” (e.g. ”helpuhe1-annotations.zip”).
  • Packages need to contain  subdirectories to extract to, usually based on the shortname. There should only be directories in the zip’s root directory, no files.
  • There is a README.txt and optionally LICENSE.txt present in the subdirectory.
  • Upload the package to puhti.csc.fi:/proj/clarin/download/preview/ and inform kielipankki@csc.fi.

The license

The package has to have a license to inform the user what he or she can and cannot do with the software. Less restrictive licenses are preferred, the license should be stated in the README.txt or a LICENSE.txt file.

README.txt

The README.txt should at least contain the Name of the corpus and the META-SHARE decscription and a PID to the META-SHARE article describing this resource. Licence can be given in README.txt or in a separate LICENSE.txt. README.txt should also contain a short description of corpus, including directory and filename scheme if there are several of them.

Descriptive metadata

The descriptive metadata describes a specific instance of the corpus. It is not a manual, but helps a user searching for corpora to determine whether the corpora is worth downloading. The PID pointing to the metadata is the persistent identifier of the corpus version in question. The metadata in turn points to the download location of the corpus and explains where the manual can be found (e.g. inside the package or on a separate web page). Every update gets a new version number. The PID of the metadata needs to be mentioned in the README.txt of the downloadable packages.

Checklist

A quick reminder of the topics above.

  • Name
  • Version
  • License
  • clean package in zip format
    • check with unzip -l after zipping.
  • Descriptive metadata (metashare.csc.fi)
  • PIDs (at least one to metadata)
  • README.txt contains
    • License (alternative: separate LICENSE.txt)
    • PID to metadata
    • Short description of corpus
    • Version number
  • Finalized packages to /proj/clarin/download/preview

Korp version vs. download package

A case example: The semfinlex corpus was first published in korp with beta status and it was advertised in korp. After it had been available for testing for two weeks, the beta status was removed and no backward incompatible changes to the corpus were allowed from that on. The download packages were created at this point. The corpus (including the freshly generated download packages) was then advertised to a wider audience in the portal.

Language

Most of the corpora have the name, README, metadata etc. in English but some are in Finnish.

IDA
TyyppiIDASijainti: URNSijainti: NimiDokumentaatioTekijäAuthorFirst publication dateKielipankki publication dateOther / Links
PERSO
PERSO Databases for Finnish Speech Synthesis
PERSO Databases for Finnish Speech Synthesis
c
c
TXT, WAV
a
ELAN
b
a
Lat
icon-quote-rightPAlmost
a
Lat
helpuhe-v2-lat
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki LAT versio 2
The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s), Helsinki LAT Version 2
c
c
TextGrid
b
ELAN
a
a
Lat
Bicon-question-circleicon-quote-rightTNo
a
Lat
https://www.kielipankki.fi/aineistot/helpuhe/
helpuhe-2010txt
Helsingin puhekielen pitkittäiskorpus (2010-luvun tekstimuotoinen aineisto)
The Longitudinal Corpus of Finnish Spoken in Helsinki (2010 in text form)
c
c
TextGrid
a
VRT
b
a
Korp
icon-question-circleicon-quote-rightTAlmost
a
Korp
https://www.kielipankki.fi/aineistot/helpuhe/Hanna LappalainenHanna Lappalainen
BFT
Tieteen termipankki
The Helsinki Term Bank for the Arts and Sciences
a
Sanat
icon-quote-rightT
a
Sanat
HC
Helsinki Corpus of English Texts (1991)
The Helsinki Corpus of English Texts (1991)
c
c
XML
b
VRT
b
a
Korp
icon-quote-rightTAlmost
a
Korp
CoRD,OTA, muuta
Akkala
Puhutun ja kirjoitetun akkalansaamen korpus
The Corpus of Spoken and Written Akkala Saami
a
a
a
VRT
a
Korp
icon-quote-rightT
a
Korp
aikakauslehtikorpus
Kotuksen aikakauslehtikorpus
The Magazine Corpus of the Institute for the Languages of Finland
c
c
b
VRT
b
a
Korp
icon-quote-rightTAlmost
a
Korp
DIALUKI
DIALUKI - toisen ja vieraan kielen lukemisen ja kirjoittamisen diagnosointi
DIALUKI - Diagnosing reading and writing in a second or foreign language
c
a
TXT
a
VRT
a
Korp
icon-quote-rightT
a
Korp
DSPCON2013-2015-lat
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-, Helsinki LAT -versio
Aalto University DSP Course Conversation Corpus 2013-, Helsinki LAT Version
c
a
TXT, WAV, TextGrid
a
VRT
a
Lat
icon-quote-rightP
a
Lat
ERME
ERME Ersän ja mokšan laajennettu korpus
ERME Erzya and Moksha Extended Corpora
c
b
XML
b
VRT
a
Korp
icon-quote-rightT
a
Korp
muuta
Ersä
Ersän puhekielen korpus
Corpus of Colloquial Erzya
c
c
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
FinIntas
The FinINTAS Corpus of Spontaneous and Read-aloud Finnish Speech
The FinINTAS Corpus of Spontaneous and Read-aloud Finnish Speech
a
c
wav + Praat
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
HS
Helsingin Sanomien arkisto -korpus
The Helsingin Sanomat Archive Corpus
c
a
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Inkerin murteet
Inkerin murteiden korpus
The Corpus of Ingrian Finnish
a
a
WORD-DOC, MP3, WAV
a
VRT, ELAN
a
Lat
icon-quote-rightP
a
Lat
www, muuta
Kiltinänsaame (UHLCS)
Kiltinänsaamen korpus (UHLCS)
Kildin Saami Corpus (UHLCS)
c
c
PDF
b
PDF
a
a
icon-quote-rightTNo
a
Kiltinänsaame
Kirjoitetun kiltinänsaamen korpus
The Corpus of Written Kildin Saami
a
a
a
VRT
b
Korp
icon-quote-rightT
b
Korp
Lönnrot
Elias Lönnrotin kirjeenvaihto
Elias Lönnrot Letters Online
c
a
XML
a
VRT
a
Korp
icon-quote-rightT
a
Korp
www
Nganasan
Nganasanin kielen puhekorpus
Nganasan Speech Corpus
c
a
ELAN
a
VRT, ELAN
a
Lat
icon-quote-rightP
a
Lat
ProoF
ProoF - Maahanmuuttajien suomen kielen ääntäminen
ProoF - Pronunciation of Finnish by Immigrants in Finland
a
a
wav + Praat
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
Prosodiakorpus
Suomen kielen prosodian variaation korpus
Corpus of Prosodic Variation of Finnish
a
a
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
Saamen kielen korpus
Puhutun saamen kielen korpus (Giellagas)
Giellagas Corpus of Spoken Saami Languages
c
c
a
ELAN
b
Lat
icon-quote-rightP
b
Lat
SignWiki
a
a
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
www
Suvi
Suvi-verkkosanakirja
Suvi Finnish Sign Language Online Dictionary
a
a
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
www
TAITO
TAITO-hankkeen kirjalliset ja suulliset aineistot
Written and Oral Data of the TAITO-project
a
a
TXT
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
www
Turjansaame
Puhutun ja kirjoitetun turjansaamen korpus
The Corpus of Spoken and Written Ter Saami
a
a
TXT
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Yle-subtitle
Ylen ruututekstikorpus
The Finnish Broadcasting Company Corpus of Subtitles
a
a
TXT
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Opus ECB
Opus EKP -korpus
Opus ECB Corpus
a
a
c
a
icon-quote-rightTYes
a
Opus EU
Opus EU -korpus
Opus EU Corpus
a
a
c
a
icon-quote-rightTYes
a
Opus Localization
Opus lokalisointi -korpus
Opus Localization Corpus
a
a
c
a
icon-quote-rightTYes
a
Opus Subtitles
Opus tekstitys -korpus
Opus Subtitles Corpus
a
a
c
a
icon-quote-rightTYes
a
nmk-lat
Nimimaiseman muutos -korpuksen Helsinki LAT -versio
Changes in Place Names Corpus, Helsinki LAT Version
c
a
a
ELAN
a
LAT
icon-quote-rightP
a
LAT
nmk-korp
Nimimaiseman muutos -korpuksen Helsinki Korp -versio
Changes in Place Names Corpus, Helsinki Korp Version
c
a
a
VRT
a
Korp
icon-quote-rightT
a
Korp
helpuhe-v2-korp
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki Korp versio 2
The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s), Helsinki Korp Version 2
c
a
a
a
Lat
#REF!icon-quote-rightT
a
Lat
#REF!
sus-fieldwork
Suomalais-Ugrilaisen Seuran kenttätyökorpus
The Finno-Ugrian Society Fieldwork Corpus
c
a
a
VRT
a
Korp
icon-question-circleicon-quote-rightT
a
Korp
https://www.kielipankki.fi/aineistot/helpuhe/
ona
Oulun nauhoitearkisto
The Audio Recordings Archive of Oulu (ONA)
c
b
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
{Oulun yliopisto, suomen kielen oppiaine}{University of Oulu, Department of Finnish Language}
dma-v2
c
VRT
b
a
Korp
icon-quote-rightTAlmost
a
Korp
{Helsingin yliopisto, suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitos}{University of Helsinki, The Department of Finnish, Finno-Ugrian and Scandinavian Studies}2003
acquis-ftb3-dl
JRC-Acquis-monikielisen rinnakkaiskorpuksen suomenkielinen osakorpus, ladattava versio
Finnish Sub-corpus of the JRC-Acquis Multilingual Parallel Corpus, Downloadable Version
VRT
a
a
icon-quote-rightTNo
a
{Euroopan komission yhteinen tutkimuskeskus (JRC)}{European Commission - Joint Research Centre (JRC)}2012
long-second
Long Second -korpus: Suomen kielen kehittyminen alakoulun valmistavalla luokalla
The Long Second Corpus: LONGitudinal Classroom Data about Children’s Development in Finnish as a SECOND Language
b
c
ELAN, MP4
a
VRT, ELAN
a
a
Lat, Korp
icon-quote-rightPNo
a
Lat, Korp
Maria AhlholmMaria Ahlholm
ha-korp
Ha-kieliaineiston Helsinki-Korp-versio
Ha Language Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Lotta AunioLotta Aunio
amph-korp
Ajatella, miettiä, pohtia, harkita -korpuksen Helsinki-Korp-versio
amph-Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Antti ArppeAntti Arppe2008
erzya-moksha-komi-uhlcs-korp
Ersän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuutta (UHLCS), Helsinki-Korp-versio
Corpus of Erzya and Moksha Mordvin Literature and Journals and Komi Zyrian Literature (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Jack RueterJack Rueter2007
english-uhlcs-korp
Englannin korpuksen (UHLCS) Helsinki-Korp-versio
English Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Kristiina JokinenKristiina Jokinen2007
erzya-moksha-uhlcs-korp
Ersän ja mokšan sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
Erzya and Moksha Mordvin Word List Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Dennis EstillDennis Estill2007
estonian1-uhlcs-korp
Viron korpus 1:n (UHLCS) Helsinki-Korp-versio
Estonian Corpus 1 (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Kazuto MatsumuraKazuto Matsumura2007
estonian2-uhlcs-korp
Viron korpus 2:n (UHLCS) Helsinki-Korp-versio
Estonian Corpus 2 (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Maria VilkunaMaria Vilkuna2007
finnish-bibles-uhlcs-korp
Suomen korpus (raamatut) (UHLCS), Helsinki-Korp-versio
Finnish Corpus (Bibles) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Anssi Yli-JyräAnssi Yli-Jyrä2007
finnish-literature-uhlcs-korp
Suomen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
Finnish Corpus (Literature) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Helsingin yliopistoUniversity of Helsinki2007
ingrian-uhlcs-korp
Inkeroisen korpuksen (UHLCS) Helsinki-Korp-versio
Ingrian Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Manja LehtoManja Lehto2007
hanty-uhlcs-korp
Hantin korpus (pohjoishantin aineistot ja käännökset) (UHLCS), Helsinki-Korp-versio
Khanty Corpus (North Khanty, Corpora and Translations) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Merja SaloMerja Salo2007
komi-uhlcs-korp
Komisyrjäänin korpuksen (UHLCS) Helsinki-Korp-versio
Komi Zyrian Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Paula KokkonenPaula Kokkonen2007
latin-uhlcs-korp
Latinan korpuksen (UHLCS) Helsinki-Korp-versio
Latin Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Martti NymanMartti Nyman2007
wordlists-uhlcs-korp
Sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
Lists of Words Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Pirkko SuihkonenPirkko Suihkonen2007
lude-uhlcs-korp
Lyydin korpuksen (UHLCS) Helsinki-Korp-versio
Lude (Ludian) Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Miikul PahomovMiikul Pahomov2007
nenets-uhlcs-korp
Nenetsin korpuksen (UHLCS) Helsinki-Korp-versio
Nenets Corpus (Tundra Nenets) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Tapani SalminenTapani Salminen2007
north-saami-literature-uhlcs-korp
Pohjoissaamen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
North Saami Corpus (Literature) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Kerttu VuolabKerttu Vuolab2007
north-saami-report-uhlcs-korp
Pohjoissaamen korpuksen (Sámikultuvradoaibmagotti smiehttamush) (UHLCS) Helsinki-Korp-versio
North Saami Corpus (Sámikultuvradoaibmagotti smiehttamush) (UHLCS), Helsinki Korp Version Corpus
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Irja Seurujärvi-KariIrja Seurujärvi-Kari2007
ume-saami-uhlcs-korp
Uumajansaamen korpuksen (UHLCS) Helsinki-Korp-versio
Ume Saami Corpus (UHLCS), Helsinki Korp Version Corpus
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Olavi KorhonenOlavi Korhonen2007
uralic-uhlcs-korp
Uralilaisia, turkkilaisia, indo-iranilaisia ja mongolikieliä sekä Siperian ja Kaukasian kieliä (UHLCS), Helsinki-Korp-versio
Uralic, Turkic, Indo-Iranian and Mongol languages; languages of Siberia and Caucasia (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Pirkko SuihkonenPirkko Suihkonen2007
uzbek-uhlcs-korp
Uzbekki-englanti sanakirjan (UHLCS) Helsinki-Korp-versio
Uzbek-English Dictionary (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Daniel KimmageDaniel Kimmage2007
kra-korp
Keskiranskan korpuksen Helsinki-Korp-versio
Jyväskylä Corpus of Middle French, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Jyväskylän yliopisto, kielten laitos}{University of Jyväskylä, Department of Languages}1999
oulu-korp
Oulun korpuksen Helsinki-Korp-versio
Oulu Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Oulun yliopisto, suomen kielen oppiaine}{University of Oulu, Department of Finnish Language}2013
parole-fi-korp
Suomen kielen Parole-korpuksen Helsinki-Korp-versio
The Finnish Parole Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto}{University of Helsinki}1998
sfnet-korp
SFNET-keskusteluryhmäkorpuksen Helsinki-Korp-versio
SFNET Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Tuuli Tuominen; Panu Kalliokoski; Antti Arppe; {CSC - Tieteen tietotekniikan keskus}Tuuli Tuominen; Panu Kalliokoski; Antti Arppe; {CSC - IT Center for Science}2003
DSPCON2013-2015-korp
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-2015, Helsinki-Korp-version
Aalto University DSP Course Conversation Corpus 2013-2015, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos}{Aalto University, Department of Signal Processing and Acoustics}2016
FinnTreeBank1-korp
Suomen kielen puupankki 1:n Helsinki-Korp-versio
Finnish TreeBank 1, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto}{University of Helsinki}2010
quantlang-uhlcs-korp
Kvantifiointi suomessa ja keskisen Volgan ja Kaman alueella puhuttavissa kielissä (UHLCS), Helsinki-Korp-versio
Quantifiers and Quantification in Finnish and Languages Spoken in the Central Volga–Kama Region (UHLCS), Helsinki Korp Version
c
c
PDF
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Pirkko SuihkonenPirkko Suihkonen2016
VVKS
Virtuaalinen vanha kirjasuomi (VVKS) -kokoelman Kielipankin Korp-versio
Virtual Old Literary Finnish (VVKS) - Kielipankki Korp version
c
a
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto, suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitos}{University of Helsinki, The Department of Finnish, Finno-Ugrian and Scandinavian Studies}2016
NorDiga
Nordican digitaalinen arkisto
The Nordica Digital Archive
a
a
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
www
stat-fi-sv
Tilastokeskuksen suomi-ruotsi-käännösmuisti
Statistics Finland's Finnish to Swedish Translation Memory
c
TMX
b
TMX
c
a
Lataus
icon-quote-rightTYes
a
Lataus
{Tilastokeskus}{Statistics Finland}
stat-fi-en
Tilastokeskuksen suomi-englanti-käännösmuisti
Statistics Finland Translation Memory Finnish-English
c
TMX
b
TMX
c
a
Lataus
icon-quote-rightTYes
a
Lataus
{Tilastokeskus}{Statistics Finland}
testipiste
Testipisteaineisto
Testipiste Corpus
c
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Janne LaitinenJanne Laitinen
CCMH
Muinaiskirkkoslaavin korpus
Corpus Cyrillo-Methodianum Helsingiense: Electronic Corpus of Old Church Slavonic Texts
a
Lataus, Korp
icon-quote-rightT
a
Lataus, Korp
Jouko Lindstedt; Jussi Halla-aho; Juhani SarsilaJouko Lindstedt; Jussi Halla-aho; Juhani Sarsila
enets
a
a
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
a
Lataus, LAT, Korp
icon-quote-rightPNo
a
Lataus, LAT, Korp
Olesya KhaninaOlesya Khanina
nzadi
a
a
WAV, PDF, TXT
a
WAV, PDF, TXT
a
a
Lataus, LAT, Korp
icon-quote-rightPNo
a
Lataus, LAT, Korp
Thera Marie Crane; Larry Hyman; Simon TukumuThera Marie Crane; Larry Hyman; Simon Tukumu
komi-dl
a
b
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
a
Lataus, LAT
icon-quote-rightPNo
a
Lataus, LAT
Rogier Blokland; Michael Riessler; Niko PartanenRogier Blokland; Michael Riessler; Niko Partanen
wikipedia-fi-2017-korp
Suomenkielinen Wikipedia 2017, Korp
Finnish Wikipedia 2017, Korp
c
c
VRT
b
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
Tatu HuovilainenTatu Huovilainen2018
opensub-fi-2017-korp
Suomenkielinen OpenSubtitles 2017, Kielipankki Korp-versio
Finnish OpenSubtitles 2017, Kielipankki Korp Version
c
c
VRT
b
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
Tatu HuovilainenTatu Huovilainen2018
nlfcl
Kansalliskirjaston klassikkokirjasto - Kielipankki-versio
Classics Library of the National Library of Finland - Kielipankki version
a
b
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
{Kansalliskirjasto}{Kansalliskirjasto}
fedidi
Murteita käsittelevien fennististen väitöskirjojen lähdetietokanta
Citation Database of Fennistic Dialect Dissertations
a
c
TXT
c
TXT
c
a
Lataus
icon-quote-rightTYes
a
Lataus
Lotta AarikkaLotta Aarikka
FINKA
Raja-Karjalan korpus
The Corpus of Border Karelia
c
a
VRT
a
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
{Kotimaisten kielten keskus}; Marjatta Palander; Vesa Koivisto; Helka Riionheimo{Institute for the Languages of Finland}; Marjatta Palander; Vesa Koivisto; Helka Riionheimo
stt-fi-1992-2018-korp
STT:n uutisarkisto 1992-2018, Kielipankin Korp-versio
Finnish News Agency Archive 1992-2018, Kielipankki Korp Version
c
a
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
{Oy Suomen Tietotoimisto Finska Notisbyrån Ab}{Finnish News Agency STT}2019
eduskunta-v2-dl
a
a
MP4, WAV, TXT
a
WAV, ELAN, VRT
a
a
Lataus
icon-question-circleicon-quote-rightPNo
a
Lataus
https://www.kielipankki.fi/aineistot/eduskunta/{Eduskunta}{The Parliament of Finland}
eduskunta-v2-korp
a
c
TXT
a
WAV, ELAN, VRT
a
a
Korp
icon-question-circleicon-quote-rightTNo
a
Korp
https://www.kielipankki.fi/aineistot/eduskunta/{Eduskunta}{The Parliament of Finland}
ylenews-fi-2011-2018-selko-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, VRT
Yle News Archive Easy-to-read Finnish 2011-2018, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-fi-2011-2018-selko-s-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, sekoitettu, VRT
Yle News Archive Easy-to-read Finnish 2011-2018, scrambled, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-fi-2011-2018-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, VRT
Yle Finnish News Archive 2011-2018, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-fi-2011-2018-s-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, sekoitettu, VRT
Yle Finnish News Archive 2011-2018, scrambled, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-sv-2012-2018-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, VRT
Yle Swedish News Archive 2012-2018, VRT
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-sv-2012-2018-s-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, sekoitettu, VRT
Yle Swedish News Archive 2012-2018, scrambled, VRT
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
pabivus-s-korp
Raamatun jakeita uralilaisille kielille, rinnakkaiskorpus, sekoitettu, Korp
Parallel Bible Verses for Uralic Studies, scrambled, Korp
a
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto, FIN-CLARIN}; Jack Rueter; Erik Axelson{Helsingin yliopisto, FIN-CLARIN}; Jack Rueter; Erik Axelson2020
stt-fi-1992-2018-conllu-src
STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali
Finnish News Agency Archive 1992-2018, CoNLL-U, source
c
c
TXT
c
TXT
c
a
Lataus
icon-quote-rightTYes
a
Lataus
{STT, Helsingin yliopisto}; Khalid Alnajjar{STT, Helsingin yliopisto}; Khalid Alnajjar2020
e-thesis-en-korp-v1-1
Helsingin yliopiston englanninkielinen E-thesis 1999-2016, Korp versio 1.1
The University of Helsinki's English E-thesis 1999-2016, Korp version 1.1
a
c
PDF
a
VRT
a
Korp
icon-quote-rightT
a
Korp
{Helsingin yliopisto}{University of Helsinki}1999
oracc-2019-05-vrt
Open Richly Annotated Cuneiform Corpus, ladattava versio, toukokuu 2019
Open Richly Annotated Cuneiform Corpus, Downloadable Version, May 2019
a
c
VRT
a
VRT
a
Lataus
icon-question-circleicon-quote-rightT
a
Lataus
https://www.kielipankki.fi/corpora/oracc/Heidi Jauhiainen; Aleksi Sahala; Tero AlstolaHeidi Jauhiainen; Aleksi Sahala; Tero Alstola
dma-wn-src
Digitaalisen muoto-opin arkiston sanaliput, lähdemateriaali
The Word Notes of the Digital Morphology Archives, source
c
PDF
a
Lataus
icon-question-circleicon-quote-rightT
a
Lataus
https://www.kielipankki.fi/aineistot/dma/{Helsingin yliopisto, suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitos}{University of Helsinki, The Department of Finnish, Finno-Ugrian and Scandinavian Studies}2003
IDA
TyyppiIDASijainti: URNSijainti: NimiDokumentaatioTekijäAuthorFirst publication dateKielipankki publication dateOther / Links
PERSO
PERSO Databases for Finnish Speech Synthesis
PERSO Databases for Finnish Speech Synthesis
c
c
TXT, WAV
a
ELAN
b
a
Lat
icon-quote-rightPAlmost
a
Lat
helpuhe-v2-lat
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki LAT versio 2
The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s), Helsinki LAT Version 2
c
c
TextGrid
b
ELAN
a
a
Lat
Bicon-question-circleicon-quote-rightTNo
a
Lat
https://www.kielipankki.fi/aineistot/helpuhe/
helpuhe-2010txt
Helsingin puhekielen pitkittäiskorpus (2010-luvun tekstimuotoinen aineisto)
The Longitudinal Corpus of Finnish Spoken in Helsinki (2010 in text form)
c
c
TextGrid
a
VRT
b
a
Korp
icon-question-circleicon-quote-rightTAlmost
a
Korp
https://www.kielipankki.fi/aineistot/helpuhe/Hanna LappalainenHanna Lappalainen
BFT
Tieteen termipankki
The Helsinki Term Bank for the Arts and Sciences
a
Sanat
icon-quote-rightT
a
Sanat
HC
Helsinki Corpus of English Texts (1991)
The Helsinki Corpus of English Texts (1991)
c
c
XML
b
VRT
b
a
Korp
icon-quote-rightTAlmost
a
Korp
CoRD,OTA, muuta
Akkala
Puhutun ja kirjoitetun akkalansaamen korpus
The Corpus of Spoken and Written Akkala Saami
a
a
a
VRT
a
Korp
icon-quote-rightT
a
Korp
aikakauslehtikorpus
Kotuksen aikakauslehtikorpus
The Magazine Corpus of the Institute for the Languages of Finland
c
c
b
VRT
b
a
Korp
icon-quote-rightTAlmost
a
Korp
DIALUKI
DIALUKI - toisen ja vieraan kielen lukemisen ja kirjoittamisen diagnosointi
DIALUKI - Diagnosing reading and writing in a second or foreign language
c
a
TXT
a
VRT
a
Korp
icon-quote-rightT
a
Korp
DSPCON2013-2015-lat
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-, Helsinki LAT -versio
Aalto University DSP Course Conversation Corpus 2013-, Helsinki LAT Version
c
a
TXT, WAV, TextGrid
a
VRT
a
Lat
icon-quote-rightP
a
Lat
ERME
ERME Ersän ja mokšan laajennettu korpus
ERME Erzya and Moksha Extended Corpora
c
b
XML
b
VRT
a
Korp
icon-quote-rightT
a
Korp
muuta
Ersä
Ersän puhekielen korpus
Corpus of Colloquial Erzya
c
c
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
FinIntas
The FinINTAS Corpus of Spontaneous and Read-aloud Finnish Speech
The FinINTAS Corpus of Spontaneous and Read-aloud Finnish Speech
a
c
wav + Praat
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
HS
Helsingin Sanomien arkisto -korpus
The Helsingin Sanomat Archive Corpus
c
a
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Inkerin murteet
Inkerin murteiden korpus
The Corpus of Ingrian Finnish
a
a
WORD-DOC, MP3, WAV
a
VRT, ELAN
a
Lat
icon-quote-rightP
a
Lat
www, muuta
Kiltinänsaame (UHLCS)
Kiltinänsaamen korpus (UHLCS)
Kildin Saami Corpus (UHLCS)
c
c
PDF
b
PDF
a
a
icon-quote-rightTNo
a
Kiltinänsaame
Kirjoitetun kiltinänsaamen korpus
The Corpus of Written Kildin Saami
a
a
a
VRT
b
Korp
icon-quote-rightT
b
Korp
Lönnrot
Elias Lönnrotin kirjeenvaihto
Elias Lönnrot Letters Online
c
a
XML
a
VRT
a
Korp
icon-quote-rightT
a
Korp
www
Nganasan
Nganasanin kielen puhekorpus
Nganasan Speech Corpus
c
a
ELAN
a
VRT, ELAN
a
Lat
icon-quote-rightP
a
Lat
ProoF
ProoF - Maahanmuuttajien suomen kielen ääntäminen
ProoF - Pronunciation of Finnish by Immigrants in Finland
a
a
wav + Praat
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
Prosodiakorpus
Suomen kielen prosodian variaation korpus
Corpus of Prosodic Variation of Finnish
a
a
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
Saamen kielen korpus
Puhutun saamen kielen korpus (Giellagas)
Giellagas Corpus of Spoken Saami Languages
c
c
a
ELAN
b
Lat
icon-quote-rightP
b
Lat
SignWiki
a
a
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
www
Suvi
Suvi-verkkosanakirja
Suvi Finnish Sign Language Online Dictionary
a
a
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
www
TAITO
TAITO-hankkeen kirjalliset ja suulliset aineistot
Written and Oral Data of the TAITO-project
a
a
TXT
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
www
Turjansaame
Puhutun ja kirjoitetun turjansaamen korpus
The Corpus of Spoken and Written Ter Saami
a
a
TXT
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Yle-subtitle
Ylen ruututekstikorpus
The Finnish Broadcasting Company Corpus of Subtitles
a
a
TXT
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Opus ECB
Opus EKP -korpus
Opus ECB Corpus
a
a
c
a
icon-quote-rightTYes
a
Opus EU
Opus EU -korpus
Opus EU Corpus
a
a
c
a
icon-quote-rightTYes
a
Opus Localization
Opus lokalisointi -korpus
Opus Localization Corpus
a
a
c
a
icon-quote-rightTYes
a
Opus Subtitles
Opus tekstitys -korpus
Opus Subtitles Corpus
a
a
c
a
icon-quote-rightTYes
a
nmk-lat
Nimimaiseman muutos -korpuksen Helsinki LAT -versio
Changes in Place Names Corpus, Helsinki LAT Version
c
a
a
ELAN
a
LAT
icon-quote-rightP
a
LAT
nmk-korp
Nimimaiseman muutos -korpuksen Helsinki Korp -versio
Changes in Place Names Corpus, Helsinki Korp Version
c
a
a
VRT
a
Korp
icon-quote-rightT
a
Korp
helpuhe-v2-korp
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki Korp versio 2
The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s), Helsinki Korp Version 2
c
a
a
a
Lat
icon-question-circleicon-quote-rightT
a
Lat
#REF!
sus-fieldwork
Suomalais-Ugrilaisen Seuran kenttätyökorpus
The Finno-Ugrian Society Fieldwork Corpus
c
a
a
VRT
a
Korp
icon-quote-rightT
a
Korp
https://www.kielipankki.fi/aineistot/helpuhe/
ona
Oulun nauhoitearkisto
The Audio Recordings Archive of Oulu (ONA)
c
b
a
ELAN
a
Lat
icon-quote-rightP
a
Lat
{Oulun yliopisto, suomen kielen oppiaine}{University of Oulu, Department of Finnish Language}
dma-v2
c
VRT
b
a
Korp
icon-quote-rightTAlmost
a
Korp
{Helsingin yliopisto, suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitos}{University of Helsinki, The Department of Finnish, Finno-Ugrian and Scandinavian Studies}2003
acquis-ftb3-dl
JRC-Acquis-monikielisen rinnakkaiskorpuksen suomenkielinen osakorpus, ladattava versio
Finnish Sub-corpus of the JRC-Acquis Multilingual Parallel Corpus, Downloadable Version
VRT
a
a
icon-quote-rightTNo
a
{Euroopan komission yhteinen tutkimuskeskus (JRC)}{European Commission - Joint Research Centre (JRC)}2012
long-second
Long Second -korpus: Suomen kielen kehittyminen alakoulun valmistavalla luokalla
The Long Second Corpus: LONGitudinal Classroom Data about Children’s Development in Finnish as a SECOND Language
b
c
ELAN, MP4
a
VRT, ELAN
a
a
Lat, Korp
icon-quote-rightPNo
a
Lat, Korp
Maria AhlholmMaria Ahlholm
ha-korp
Ha-kieliaineiston Helsinki-Korp-versio
Ha Language Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Lotta AunioLotta Aunio
amph-korp
Ajatella, miettiä, pohtia, harkita -korpuksen Helsinki-Korp-versio
amph-Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Antti ArppeAntti Arppe2008
erzya-moksha-komi-uhlcs-korp
Ersän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuutta (UHLCS), Helsinki-Korp-versio
Corpus of Erzya and Moksha Mordvin Literature and Journals and Komi Zyrian Literature (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Jack RueterJack Rueter2007
english-uhlcs-korp
Englannin korpuksen (UHLCS) Helsinki-Korp-versio
English Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Kristiina JokinenKristiina Jokinen2007
erzya-moksha-uhlcs-korp
Ersän ja mokšan sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
Erzya and Moksha Mordvin Word List Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Dennis EstillDennis Estill2007
estonian1-uhlcs-korp
Viron korpus 1:n (UHLCS) Helsinki-Korp-versio
Estonian Corpus 1 (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Kazuto MatsumuraKazuto Matsumura2007
estonian2-uhlcs-korp
Viron korpus 2:n (UHLCS) Helsinki-Korp-versio
Estonian Corpus 2 (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Maria VilkunaMaria Vilkuna2007
finnish-bibles-uhlcs-korp
Suomen korpus (raamatut) (UHLCS), Helsinki-Korp-versio
Finnish Corpus (Bibles) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Anssi Yli-JyräAnssi Yli-Jyrä2007
finnish-literature-uhlcs-korp
Suomen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
Finnish Corpus (Literature) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Helsingin yliopistoUniversity of Helsinki2007
ingrian-uhlcs-korp
Inkeroisen korpuksen (UHLCS) Helsinki-Korp-versio
Ingrian Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Manja LehtoManja Lehto2007
hanty-uhlcs-korp
Hantin korpus (pohjoishantin aineistot ja käännökset) (UHLCS), Helsinki-Korp-versio
Khanty Corpus (North Khanty, Corpora and Translations) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Merja SaloMerja Salo2007
komi-uhlcs-korp
Komisyrjäänin korpuksen (UHLCS) Helsinki-Korp-versio
Komi Zyrian Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Paula KokkonenPaula Kokkonen2007
latin-uhlcs-korp
Latinan korpuksen (UHLCS) Helsinki-Korp-versio
Latin Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Martti NymanMartti Nyman2007
wordlists-uhlcs-korp
Sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
Lists of Words Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Pirkko SuihkonenPirkko Suihkonen2007
lude-uhlcs-korp
Lyydin korpuksen (UHLCS) Helsinki-Korp-versio
Lude (Ludian) Corpus (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Miikul PahomovMiikul Pahomov2007
nenets-uhlcs-korp
Nenetsin korpuksen (UHLCS) Helsinki-Korp-versio
Nenets Corpus (Tundra Nenets) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Tapani SalminenTapani Salminen2007
north-saami-literature-uhlcs-korp
Pohjoissaamen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
North Saami Corpus (Literature) (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Kerttu VuolabKerttu Vuolab2007
north-saami-report-uhlcs-korp
Pohjoissaamen korpuksen (Sámikultuvradoaibmagotti smiehttamush) (UHLCS) Helsinki-Korp-versio
North Saami Corpus (Sámikultuvradoaibmagotti smiehttamush) (UHLCS), Helsinki Korp Version Corpus
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Irja Seurujärvi-KariIrja Seurujärvi-Kari2007
ume-saami-uhlcs-korp
Uumajansaamen korpuksen (UHLCS) Helsinki-Korp-versio
Ume Saami Corpus (UHLCS), Helsinki Korp Version Corpus
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Olavi KorhonenOlavi Korhonen2007
uralic-uhlcs-korp
Uralilaisia, turkkilaisia, indo-iranilaisia ja mongolikieliä sekä Siperian ja Kaukasian kieliä (UHLCS), Helsinki-Korp-versio
Uralic, Turkic, Indo-Iranian and Mongol languages; languages of Siberia and Caucasia (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Pirkko SuihkonenPirkko Suihkonen2007
uzbek-uhlcs-korp
Uzbekki-englanti sanakirjan (UHLCS) Helsinki-Korp-versio
Uzbek-English Dictionary (UHLCS), Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Daniel KimmageDaniel Kimmage2007
kra-korp
Keskiranskan korpuksen Helsinki-Korp-versio
Jyväskylä Corpus of Middle French, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Jyväskylän yliopisto, kielten laitos}{University of Jyväskylä, Department of Languages}1999
oulu-korp
Oulun korpuksen Helsinki-Korp-versio
Oulu Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Oulun yliopisto, suomen kielen oppiaine}{University of Oulu, Department of Finnish Language}2013
parole-fi-korp
Suomen kielen Parole-korpuksen Helsinki-Korp-versio
The Finnish Parole Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto}{University of Helsinki}1998
sfnet-korp
SFNET-keskusteluryhmäkorpuksen Helsinki-Korp-versio
SFNET Corpus, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Tuuli Tuominen; Panu Kalliokoski; Antti Arppe; {CSC - Tieteen tietotekniikan keskus}Tuuli Tuominen; Panu Kalliokoski; Antti Arppe; {CSC - IT Center for Science}2003
DSPCON2013-2015-korp
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-2015, Helsinki-Korp-version
Aalto University DSP Course Conversation Corpus 2013-2015, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos}{Aalto University, Department of Signal Processing and Acoustics}2016
FinnTreeBank1-korp
Suomen kielen puupankki 1:n Helsinki-Korp-versio
Finnish TreeBank 1, Helsinki Korp Version
c
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto}{University of Helsinki}2010
quantlang-uhlcs-korp
Kvantifiointi suomessa ja keskisen Volgan ja Kaman alueella puhuttavissa kielissä (UHLCS), Helsinki-Korp-versio
Quantifiers and Quantification in Finnish and Languages Spoken in the Central Volga–Kama Region (UHLCS), Helsinki Korp Version
c
c
PDF
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
Pirkko SuihkonenPirkko Suihkonen2016
VVKS
Virtuaalinen vanha kirjasuomi (VVKS) -kokoelman Kielipankin Korp-versio
Virtual Old Literary Finnish (VVKS) - Kielipankki Korp version
c
a
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto, suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitos}{University of Helsinki, The Department of Finnish, Finno-Ugrian and Scandinavian Studies}2016
NorDiga
Nordican digitaalinen arkisto
The Nordica Digital Archive
a
a
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
www
stat-fi-sv
Tilastokeskuksen suomi-ruotsi-käännösmuisti
Statistics Finland's Finnish to Swedish Translation Memory
c
TMX
b
TMX
c
a
Lataus
icon-quote-rightTYes
a
Lataus
{Tilastokeskus}{Statistics Finland}
stat-fi-en
Tilastokeskuksen suomi-englanti-käännösmuisti
Statistics Finland Translation Memory Finnish-English
c
TMX
b
TMX
c
a
Lataus
icon-quote-rightTYes
a
Lataus
{Tilastokeskus}{Statistics Finland}
testipiste
Testipisteaineisto
Testipiste Corpus
c
a
VRT
a
Korp
icon-quote-rightT
a
Korp
Janne LaitinenJanne Laitinen
CCMH
Muinaiskirkkoslaavin korpus
Corpus Cyrillo-Methodianum Helsingiense: Electronic Corpus of Old Church Slavonic Texts
a
Lataus, Korp
icon-quote-rightT
a
Lataus, Korp
Jouko Lindstedt; Jussi Halla-aho; Juhani SarsilaJouko Lindstedt; Jussi Halla-aho; Juhani Sarsila
enets
a
a
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
a
Lataus, LAT, Korp
icon-quote-rightPNo
a
Lataus, LAT, Korp
Olesya KhaninaOlesya Khanina
nzadi
a
a
WAV, PDF, TXT
a
WAV, PDF, TXT
a
a
Lataus, LAT, Korp
icon-quote-rightPNo
a
Lataus, LAT, Korp
Thera Marie Crane; Larry Hyman; Simon TukumuThera Marie Crane; Larry Hyman; Simon Tukumu
komi-dl
a
b
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
a
Lataus, LAT
icon-quote-rightPNo
a
Lataus, LAT
Rogier Blokland; Michael Riessler; Niko PartanenRogier Blokland; Michael Riessler; Niko Partanen
wikipedia-fi-2017-korp
Suomenkielinen Wikipedia 2017, Korp
Finnish Wikipedia 2017, Korp
c
c
VRT
b
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
Tatu HuovilainenTatu Huovilainen2018
opensub-fi-2017-korp
Suomenkielinen OpenSubtitles 2017, Kielipankki Korp-versio
Finnish OpenSubtitles 2017, Kielipankki Korp Version
c
c
VRT
b
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
Tatu HuovilainenTatu Huovilainen2018
nlfcl
Kansalliskirjaston klassikkokirjasto - Kielipankki-versio
Classics Library of the National Library of Finland - Kielipankki version
a
b
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
{Kansalliskirjasto}{Kansalliskirjasto}
fedidi
Murteita käsittelevien fennististen väitöskirjojen lähdetietokanta
Citation Database of Fennistic Dialect Dissertations
a
c
TXT
c
TXT
c
a
Lataus
icon-quote-rightTYes
a
Lataus
Lotta AarikkaLotta Aarikka
FINKA
Raja-Karjalan korpus
The Corpus of Border Karelia
c
a
VRT
a
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
{Kotimaisten kielten keskus}; Marjatta Palander; Vesa Koivisto; Helka Riionheimo{Institute for the Languages of Finland}; Marjatta Palander; Vesa Koivisto; Helka Riionheimo
stt-fi-1992-2018-korp
STT:n uutisarkisto 1992-2018, Kielipankin Korp-versio
Finnish News Agency Archive 1992-2018, Kielipankki Korp Version
c
a
VRT
c
a
Korp
icon-quote-rightTYes
a
Korp
{Oy Suomen Tietotoimisto Finska Notisbyrån Ab}{Finnish News Agency STT}2019
eduskunta-v2-dl
a
a
MP4, WAV, TXT
a
WAV, ELAN, VRT
a
a
Lataus
icon-question-circleicon-quote-rightPNo
a
Lataus
https://www.kielipankki.fi/aineistot/eduskunta/{Eduskunta}{The Parliament of Finland}
eduskunta-v2-korp
a
c
TXT
a
WAV, ELAN, VRT
a
a
Korp
icon-question-circleicon-quote-rightTNo
a
Korp
https://www.kielipankki.fi/aineistot/eduskunta/{Eduskunta}{The Parliament of Finland}
ylenews-fi-2011-2018-selko-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, VRT
Yle News Archive Easy-to-read Finnish 2011-2018, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-fi-2011-2018-selko-s-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, sekoitettu, VRT
Yle News Archive Easy-to-read Finnish 2011-2018, scrambled, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-fi-2011-2018-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, VRT
Yle Finnish News Archive 2011-2018, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-fi-2011-2018-s-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, sekoitettu, VRT
Yle Finnish News Archive 2011-2018, scrambled, VRT
c
c
TXT
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-sv-2012-2018-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, VRT
Yle Swedish News Archive 2012-2018, VRT
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
ylenews-sv-2012-2018-s-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, sekoitettu, VRT
Yle Swedish News Archive 2012-2018, scrambled, VRT
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightT
a
Lataus
{Yleisradio}{Yleisradio}
pabivus-s-korp
Raamatun jakeita uralilaisille kielille, rinnakkaiskorpus, sekoitettu, Korp
Parallel Bible Verses for Uralic Studies, scrambled, Korp
a
c
TXT
a
VRT
a
a
Korp
icon-quote-rightTNo
a
Korp
{Helsingin yliopisto, FIN-CLARIN}; Jack Rueter; Erik Axelson{Helsingin yliopisto, FIN-CLARIN}; Jack Rueter; Erik Axelson2020
stt-fi-1992-2018-conllu-src
STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali
Finnish News Agency Archive 1992-2018, CoNLL-U, source
c
c
TXT
c
TXT
c
a
Lataus
icon-quote-rightTYes
a
Lataus
{STT, Helsingin yliopisto}; Khalid Alnajjar{STT, Helsingin yliopisto}; Khalid Alnajjar2020
e-thesis-en-korp-v1-1
Helsingin yliopiston englanninkielinen E-thesis 1999-2016, Korp versio 1.1
The University of Helsinki's English E-thesis 1999-2016, Korp version 1.1
a
c
PDF
a
VRT
a
Korp
icon-quote-rightT
a
Korp
{Helsingin yliopisto}{University of Helsinki}1999
oracc-2019-05-vrt
Open Richly Annotated Cuneiform Corpus, ladattava versio, toukokuu 2019
Open Richly Annotated Cuneiform Corpus, Downloadable Version, May 2019
a
c
VRT
a
VRT
a
Lataus
icon-question-circleicon-quote-rightT
a
Lataus
https://www.kielipankki.fi/corpora/oracc/Heidi Jauhiainen; Aleksi Sahala; Tero AlstolaHeidi Jauhiainen; Aleksi Sahala; Tero Alstola
dma-wn-src
Digitaalisen muoto-opin arkiston sanaliput, lähdemateriaali
The Word Notes of the Digital Morphology Archives, source
c
PDF
a
Lataus
icon-question-circleicon-quote-rightT
a
Lataus
https://www.kielipankki.fi/aineistot/dma/{Helsingin yliopisto, suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitos}{University of Helsinki, The Department of Finnish, Finno-Ugrian and Scandinavian Studies}2003

Status 12.11.2018: DRAFT

Introduction

Publishing software is different from getting it to work on the programmer’s machine or on the machines of a small research group. This guideline is intended as a short guide to define the minimal steps necessary to prepare a software publication at the Language Bank of Finland.

Name, short name and version

The software needs

  • a name (e.g. ”Helsinki Finite State Technology”),
  • a short name (e.g. ”hfst”)
  • and a version (Major.Minor.Patch, e.g. 3.15.0).

If an older version of the same software exists, a decision needs to be made whether to update metadata in an existing description or to create new metadata. An update is recommended if the new version fixes bugs (a ”patch”), a separate metadata page is recommended if the new version offers new or concurrent functionality, i.e. if there is reason to keep the old version online.

The package

  • The package needs to contain only the relevant data, no .tmp directories, etc.
  • If it contains source code the code should cleanly compile with either no or as few warnings as possible.
  • The code also needs to be tested, the idea is not to publish a package only to immediately publish a patch.
  • The format is zip.
  • The zip name is usually ”short name-version.zip” (e.g. ”hfst-3.15.0.zip”).
  • The package must extract into a  subdirectory named identical to the package name, without .zip (e.g. ”hfst-3.15.0/”).
  • Upload the ready package to puhti.csc.fi:/proj/clarin/download/preview/ and inform kielipankki@csc.fi.

The license

The package has to have a license to inform the user what he or she can and cannot do with the software. Less restrictive licenses are preferred, the license should be stated in the README.txt or a LICENSE.txt file.

Manual

Software without a manual and a description cannot be published. Both can be short, but they have to be present. The manual describes how to install and use the software. The manual can be a set of files in the package, like README.txt, INSTALL.txt, MANUAL.txt depending on the complexity of the software.

It should contain:

  • The intended audience
    • The operating systems the software runs on.
    • The level of expertise needed to run the software (e.g. compile from source in Linux vs. install in Mac/Windows from a package).
  • Installation instructions
    • Dependencies, if needed (e.g. compiler, other tools)
    • An installation and de-installation script.
  • Instructions how to run the software
    • All tools (if bundled)
    • All options of the tools (for example a man page or equivalent)
    • Examples of all tools
  • A reference to a tier 1 technical support address in case of problems.
  • A reference to the descriptive metadata in the form of a PID (URN and/or Handle).

Descriptive metadata

The descriptive metadata describes a specific instance of the software. It is not a manual, but helps a user searching for software to determine whether the software is worth downloading. The PID pointing to the metadata is the persistent identifiert of the software version in question. The metadata in turn points to the download location of the software and explains where the manual can be found (e.g. inside the package or on a separate web page). Every update gets a new version number. We follow ”Sematic Versioning”: Major.Minor.Patch. New patches can be updated without changing the PID of the metadata, Major and Minor update usually require a new metashare page and the retirement of the now obsolete version. The metadata should also contain the license information. The PID of the metadata needs to be mentioned in the README.txt of the downloadable file.

Significant updates

To update the major or minor version a new metashare page needs to be created describing the new version and a change log relative to the present version. 2 new PIDs need to be created, one pointing to the metadata and one to the new download location. The related versions need to be linked using Metashare’s relations feature, see the Language Bank’s Language Resource Life Cycle Model An example from our corpora: http://urn.fi/urn:nbn:fi:lb-2016050401. The older version should be kept for at 5 years, either online for download or offline in IDA. Software older than 10 years can be deleted, unless it has historical value.

Bug fixes

If the new version has no new functionality and is only a patch (eg. 1.1.1), no PIDs need to be updated, the publication of the new version needs to be marked in the Change Log of the metadata. The non-patched version should be kept in IDA for 5 years just in case.

Example

Consider finnish-tagtools version 1.1: http://urn.fi/urn:nbn:fi:lb-2018062101. The metadata describes the software, the license and where more information about using the software and technical support can be found. A rough update shedule is also given. The update to Version 1.2 should happen as described in ”Significant updates” above: A new metashare page needs to be written, with a Change Log section in the description descibing the main new features/bug fixes. If the old version should not be kept online, the access location PID needs to be changed to a tombstone page describing that the software can be obtained from IDA.

Checklist

A quick reminder of the topics above.

  • Name
  • Version
  • License
  • Intended audience
  • Manual
  • Installation instructions
  • clean package in zip format
  • Descriptive metadata (metashare.csc.fi)
  • PIDs (at least one to metadata)
  • README/LICENSE/INSTALL.txt, (can be only README.txt), contains
    • License
    • PID to metadata
    • Manual or link to manual
    • Installation instructions
  • Change Log
  • Ready packages to /proj/clarin/download/preview

 

 

 

Portaalin hakutoiminnon hallinnointiohjeet

Portaalin sisäistä sisältöhakua hoitaa lisäosa nimeltä Relevanssi, joka korvaa WordPressin oletushakutyökalun.

Miten haku käytännössä toimii?

Haku on oletusarvoisesti JA-tyyppinen, ts. se etsii kaikkien annettujen hakusanojen yhteisesiintymiä. Olen kuitenkin määritellyt lisäosan asetuksissa, että mikäli kaikkia hakusanoja ei löydy samasta dokumentista, seuraavaksi kokeillaan TAI-hakua. Lisäksi olen kytkenyt päälle asetuksen, jonka avulla haku osaa etsiä myös osittaisia sanoja silloin kun kokonaiset eivät tuota osumia.

Hakujen tilastointi

Relevanssi kertoo tallentavansa käyttäjien haut tietokantaan ja että niitä voisi tarkastella ylläpitoalueen Ohjausnäkymätse, mutta itse niitä en ole sieltä löytänyt. Voidaan harkita, onko hakujen tallentaminen ylipäänsä tarkoituksenmukaista.

Sivujen piilottaminen hakutuloksista

Vaikka yleisesti ottaen pyrimmekin dokumentaatiomme suurimpaan mahdolliseen (järkevään) avoimuuteen, osa Portaalin sisällöstä on loppukäyttäjille hyödytöntä ja mahdollisesti hämmentävää (esimerkiksi tämä ohje itse). Relevanssi tarjoaa mahdollisuuden sulkea kokonaisia kategorioita haun ulkopuolelle. Koska WordPressin kategoriat eivät oletusarvoisesti koske sivuja (vaan ainoastaan artikkeleita), olen asentanut myös lisäosan nimeltä Post Tags and Categories for Pages, joka lisää toivotun ominaisuuden. Olen säätänyt haun jättämään järjestelmällisesti huomiotta sivut, jotka ovat luokassa Sisäinen, eli valitsemalla sivulle tämän kategorian voi varmistua, ettei edes sen otsikko näy haussa.

Corpus pipeline description (content for the site Corpus Production Process)

luonnos 28.7.2018 (sivun https://www.kielipankki.fi/intra/corpus-production-process/ linkit osoittavat tähän tiedostoon)

Phase 0: Finding resources

[Project leader, Planning officer]

  • Are there ongoing projects collecting or creating resources
  • Incoming inquiries about IPR, GDPR, data archiving
  • Incoming questions about Korp, Mylly and other tools
  • Conferences, seminars, roadshows, other collaborative events
  • Open Data, or other similar projects
  • Updates, new versions of existing resources

Phase 1: Identifying corpora

[Project leader, Planning officer]

  1. Contact the researcher or the IPR holder of the corpora. KP-1172 01.
  2. Provide information about licensing and agreements.
  3. Discuss the roles in the deposition process: IPR holder, Licensor, Distribution rights holder and restrictions Availability, Referencing etc. to determine the agreement and the license.
  4. Collect the minimum set of data about the resource (name in English & Finnish, short description, info about languages, text/speech)
  5. Help with IPR and GDPR issues if required.

Phase 2: Metadata

[Planning officer, CSC]

  1. Create an initial META-SHARE file, KP-1171 02. See the Metadata checklist for some pointers.
  2. Register an URN that points to the metadata of the corpus. KP-1246 02b; instructions: see the README.md of https://github.com/CSCfi/Kielipankki/tree/master/FIN-CLARIN-Administration NB: the URN will start working only the next day after you generate it. Note: final slash: for Korp no, for download yes.
  3. Publish the metadata file in META-SHARE.
  4. Add the metadata of the forthcoming resource to the FIN-CLARIN-Administration/KP_Aineistot.xlsx spreadsheet’s src_new worksheet (in Github: sync it in Github Desktop, commit your modification, sync it again)
  5. Copy the content of the obj_new worksheet of the FIN-CLARIN-Administration/KP_Aineistot.xlsx to the Kielipankki portal. Instructions are in the defs (variables, quick help) worksheet of the same spreadsheet.
  6. Consider the need for a roof page in META-SHARE or information page in the portal for the resource in case there are several versions available. The roof page is sufficient when the resources it points to share the same licenses whereas the information pages are better in describing different resources with There are several different kinds of info pages in the portal, depending on when the page has been created. The current info page format is in use for the resource Plenary Sessions of the Parliament of Finland  https://www.kielipankki.fi/aineistot/eduskunta/
  7. If you need to make changes in the metadata, document it by creating an unstructured document with the content CHANGE LOG + date + short description of the change. Previously the changes were documented in the metadata version descriptions or in the resource descriptions.
  8. For numbers (size) do not include punctuation.
  9. If the META-SHARE article is out of date, the links no longer point anywhere and if the contact persons either can no more be contacted or reply that the resource no longer exists, create a tombstone page in the portal under kielipankki.fi/corpora/archive or tools/archive as appropriate. Take a screenshot of the META-SHARE article and add it on the tombstone page. See the burial of WWW-Lemmie http://urn.fi/urn:nbn:fi:lb-20140730123  where the resource URN now points to the tombstone (the old META-SHARE article address http://metashare.csc.fi/repository/browse/www-lemmie/aff491b8fccc11e18b49005056be118e2f69c385f23b4ad0a8042a073d009f4d/  ) as an example.

Phase 3: Agreements

[Project leader, Planning officer]

3a. Define the license conditions

  • Are there personal data included? If yes and the material cannot be completely anonymized, ask/help the Data Controller prepare the required documentation, and be ready to take this into account in further processing of received data.
  • Check copyright restrictions. Remember the agreement with Kopiosto.
  • If the material cannot be publicly available, is it possible to publish several versions of the material with different licenses? (e.g., restricted context vs. full text; scrambled sentences or paragraphs; anonymized transcriptions vs. original audio with annotations)

3b. Prepare the deposition agreement

  1. Get to an agreement with the IPR holder about the license of the resource. Also make sure that, in case there are third parties involved, the IPR holder has their agreements, which then should be attached to the deposition agreement. KP-1247 05a.
  2. Edit and send a tentative deposition agreement to the IPR holder. KP-1248 05b.
  3. Once the IPR holder has accepted the deposition agreement, ask him/her to print it in 2 copies, sign them & then send them to you by mail. KP-1249 05c.
  4. Get the signature of the head of the Department of Digital Humanities (1.1.2018 onwards) to the deposition agreement. KP-1306 / KP-1304 05d.
  5. Scan the deposition agreement & place it into IDA (FIN-CLARIN Administration/agreements).
  6. Archive the deposition agreement paper version (the binder FIN-CLARIN Tallennussopimukset).
  7. Send the other copy of the signed deposition agreement to the IPR holder by mail

Phase 4: Retrieving corpus data

[Planning officer]

  1. Ask the IPR holder to send you the data. This may involve receiving the data as an email attachment or via Funet FileSender.
  2. Upload the data to IDA (corpora). General guidelines (for browser): https://openscience.fi/ida-browser. The data should be packaged appropriately.
  3. Define where the corpus will be available (Download/Korp/LAT/Taito).
  4. Define the priority of the corpus. KP-1302 04a.
  5. Define the preliminary workload on each step required for the publication of the corpus. KP-1239.
  6. Define the initial publication schedule based on the priority and the workload. KP-1303 04b.
  7. Inform the FIN-CLARIN team for speech / text corpora to start the conversion for Download/Korp/LAT/Taito.

Phase 5-1: Resource conversion for Download

KP-1307, [FIN-CLARIN speech/text corpora teams]

Martin’s instructions: https://www.kielipankki.fi/development/corpus-data-publication-for-download-at-the-language-bank/

  1. Check the license. (Is download allowed, if so, PUB,ACA or RES?)
  2. Define the format of the data to be published in Download. Typical options:
    1. WAV,EAF (from LAT)
    2. VRT (from Korp)
    3. TXT,PDF (raw formats)
  3. Define shortname, see naming conventions
  4. Create the metadata in META-SHARE
  5. Create README.txt (refer to license and include URN to META-SHARE)
  6. Create zip file. Use shortname (without ”-dl”) as name and internal top-level directory. Structure:
    1. short-name.zip:
      1. short-name/README.txt
      2. short-name/data… (including possible sub directories)
  7. Prepare upload
    1. mkdir /proj/clarin/download/preview/<short-name>
    2. prepare directory as it should look in Download:
      1. zip file as created above
      2. README/license.txt as contained in zip file.
  8. Upload the data.
    1. This requires root rights on korp.csc.fi, a detailed technical description is so far only available in CSC’s intranet (”Download” service).
  9. Check uploaded data
    1. https://korp.csc.fi/download/
      1. ”name” is ”short-name” (or as agreed)
      2. Description has the correct name (possibly slightly shortened) and links via URN to META-SHARE.
      3. ”name” links to subdirectory:
        1. subdirectory contains zip files as agreed (for ACA often license acceptance pages that need to be approved before download)
        2. subdirectory has uncompressed README.txt and (sometimes) separate license.txt information from within zip file.

Phase 5-2: Resource conversion for Korp

KP-1309 12. [FIN-CLARIN text corpora team]

  1. Decide if the corpus should be split into subcorpora.
  2. Decide the identifier of the corpus and its possible subcorpora. See naming conventions.
  3. Preprocess the data before converting to VRT. This may involve OCR’ing PDF files to text, converting the character encoding or fixing apparent errors.
  4. Convert the data to the VRT format used as Korp corpus input format. If a script exists for the same or a similar format in the conversion script repository, preferably use it as such or modified, but writing custom scripts for the input format may also be required.
  5. Validate the VRT data and otherwise verify its correctness with the tokenizer and the validator created by Jussi Piitulainen.
  6. Pass the generated VRT to Jussi Piitulainen for parsing, which also adds morphosyntactic, part-of-speech and named entity annotations. This currently only applies to corpora in (standard) Finnish. Parse the VRT and recognize named entities. Run parser and named-entity recognizer on the VRT data (if the tools exist for language of the corpus).
  7. Run korp-make on the (parsed and NER-tagged) VRT data to make a corpus package. For parallel corpora, run korp-make for each aligned language but do not package them; add alignment information; and package all the languages to a single package (korp-make-package.sh)
  8. Encode VRT data into the CWB database format and create a Korp package for the corpus. This can often be done with a single command, which also generates certain data required for the Korp database.
  9. Add corpus configuration to the Korp frontend. This consists of making changes to the Korp configuration and translation files on your own branch of the Korp frontend repository and committing the changes: Add corpus configuration to Korp’s configuration file (config.js, modes/modename_mode.js); Add translations of corpus attribute names and values to translation files (translations/corpora-{fi,en,sv}.js); Commit the changes to the configuration to the korp-frontend repository in GutHub
  10. Install the corpus package and configuration. At this stage, the corpus configuration should be installed on a separate test instance of the Korp frontend. If you do not have access to the Korp server, you need to request someone having the rights to do that.
  11. Test the corpus in Korp. Check that the corpus shows up and works as expected in the Korp test instance.
  12. Inform others of the corpus and request feedback. You should inform at least fin-clarin (at) helsinki.fi and the original corpus owner or compiler if applicable. If you get feedback, you may need to redo some of the previous steps.
  13. Install the corpus configuration to the production Korp, once the corpus works in Korp as desired. Install the corpus package (korp-install-corpora.sh). Install the changes to the Korp configuration from the GitHub repository (korp-install.sh). Again, you may need the help of someone with the appropriate rights.
  14. Upload the corpus package to the IDA storage service.
  15. Add a piece of news on the corpus to Korp’s newsdesk.
  16. Organize a test group among the Language Bank project and have them test the data and the information about it in Korp. Include the data depositor in the test group.
  17. A Beta-phase is recommended for all corpora, but especially for those where the data depositor is interested in testing the data. Typical beta period lasts for two weeks but the depositor can ask for a different length. During the beta period the access location is not available in META-SHARE and it is not published in the portal.

Ute’s description of preprosessing: https://www.kielipankki.fi/howto_pipeline_textcorpora/

Phase 5-3: Resource conversion for LAT

KP-1308, [FIN-CLARIN speech corpora team]

  1. Receive and backup corpus files (original media!)
  2. Check consistency of file names (media + annotations); for LAT, remove åäö
  3. Check the audio/video files and convert to a more compatible, non-lossy format, if required
  4. Remove unnecessary personal data and/or silent portions from beginning/end of files (update annotation files accordingly and make notes of the changes)
  5. In the case of material containing video only, separate the audio tracks into WAV (for analysis purposes + to enable waveform view in Annex)
  6. Create Lamus/Annex compatible versions of the audio/video files (M4A/MP4 streaming)
  7. Check the annotation files (TextGrid -> UTF-8!) and make sure that the tier names are consistent (speakers referred to by codes)
  8. Make sure there are no unnecessary personal details in the transcription files
  9. From EAF, create TextGrid versions, if required
  10. From TextGrid, create EAF versions, if required
  11. Create IMDI metadata (make sure not to publish unnecessary personal details; use speaker codes, age spans etc.) and a README.txt for LAT+download
  12. Create download packages (exclude the compressed Annex-compatible media files)
  13. Create a node for the corpus in LAT, upload and link files to corpus tree
  14. Update META-SHARE (add the location PID pointing to LAT, calculate and add the exact corpus size, e.g. hours)
  15. For Korp, export the text in the annotation files into VRT format (including time information, overlap information, pause information and links to LAT/Annex; possibly also a ”normalized” version of the text for automatic parsing, if available)

Phase 5-4: Resource conversion for Taito

[FIN-CLARIN speech/text corpora teams]

Phase 5-5: Resource conversion for Sanat

[FIN-CLARIN speech/text corpora teams]

Phase 6: URN for Publication and internal records

[CSC, Planning officer]

  1. Generate an URN for the location of the resource (same as in phase 2 step 2).
  2. Add the URN to the Url field of the META-SHARE metadata file of the resource.
  3. Update the resource’s META-SHARE metadata file accordingly. Make sure that also the link to the attribution details of the resource is added to the metadata file. IMPORTANT: if the resource has an ACA or a RES license, you have to
    a) create license pages for it in the Kielipankki portal both in Finnish & in English & add the links to these pages in the Documentation section of the META-SHARE metadata file KP-1316 08.;
    b) let Martin know about this, so that he can add the resource to LBR KP-1317 09.;
    c) move on to the next step after the resource has been added to LBR.
  4. Update the KP_Aineistot.xlsx accordingly (cut info from the src_new worksheet & paste it to src_prod, then update the relevant info). Make sure to delete the row of the resource from the obj_new worksheet. KP-1174 04c.
  5. Copy the content of the obj_prod worksheet to to the Kielipankki portal. Select Tuo/Import: Syötä käsin/Import manually, CSV, Korvaa/Replace. Instructions are in the defs (variables, quick help) worksheet of the same spreadsheet. Sort the table in alphabetical order based on the ID of the corpus. (Preview does not give the right result, so for testing the best method is to re-create the Test table and publish it) KP-1174 04c.****
  6. Consider a resources info page /tietosivu/ resource family page in the portal + link to metashare and KP_Aineistot.

Phase 7: Information dissemination on publication and use

[Planning officer, FIN- CLARIN speech/text corpora teams]

  1. Publish the news in Kielipankki’s portal both in Finnish and in English.
  2. Inform the IPR holder that the resource has been published.
  3. Publish the news in the next Kielipankki newsletter.
  4. Publish user profiles in the series Researcher of the Month.
  5. User statistics for IPR holder.

Phase 8: Updating resources

[Planning officer, FIN-CLARIN speech/text corpora teams, CSC]

  1. Record the feedback from the users and identify needs for updating.
  2. Comply with the version management guidelines
  3. Create plans for  updating resources: which resources will be updated in regular intervals?
Kielipankin Korp-palvelu Korp on selainpohjainen konkordanssityökalu, jolla voi tehdä hakuja tekstiaineistoista morfosyntaktisen jäsennyksen perusteella.
Kielipankin LAT-palvelu LAT (Language Archive Tools) on annotoitujen ääni- ja videoaineistojen selailun, hakujen ja jakamisen työkalupakki.
Mylly Mylly – aineistojen käsittelyalusta
icon-download Latauspalvelusta voit ladata aineistoja omalle koneellesi.
WebAnno WebAnno-annotaatiotyökalu
Signbank Signbank – suomalaisen viittomakielen leksikkotietokanta
OPUS OPUS, avoin rinnakkaisaineisto
Tieteen termipankki Tieteen kansallinen termipankki (TTP) rakentaa kaikkien Suomessa harjoitettavien tieteenalojen yhteisen, avoimen ja jatkuvasti päivitettävän termitietokannan tiedeyhteisön ja kansalaisten käyttöön.
Lääketutka Lääketutka
PIE Lexicon Proto-Indo-European Lexicon
TDT Turku Dependency Treebank
FiNER Demo FiNER Demo (beta)
Aalto-ASR Aalto University Automatic Speech Recognition System (lataus, taito-shell)
Hae keskitetysti kaikkien CLARIN-keskusten aineistoista CLARIN Federated Content Searchin avulla.
finnish-parse Yleiskäyttöinen suomen kielen jäsennin (taito-shell)
saxon Saxon-XSLT-prosessori (taito-shell)
HFST Helsinki Finite-State Transducer Technology (lataus, taito-shell)

Aineistokäyttöliittymät

Kielipankin Korp-palvelu Korp on selainpohjainen konkordanssityökalu, jolla voi tehdä hakuja tekstiaineistoista morfosyntaktisen jäsennyksen perusteella.
Kielipankin LAT-palvelu LAT (Language Archive Tools) on annotoitujen ääni- ja videoaineistojen selailun, hakujen ja jakamisen työkalupakki.
Mylly Mylly – aineistojen käsittelyalusta
icon-download Latauspalvelusta voit ladata aineistoja omalle koneellesi.
Signbank Signbank – suomalaisen viittomakielen leksikkotietokanta
OPUS OPUS, avoin rinnakkaisaineisto
Tieteen termipankki Tieteen kansallinen termipankki (TTP) rakentaa kaikkien Suomessa harjoitettavien tieteenalojen yhteisen, avoimen ja jatkuvasti päivitettävän termitietokannan tiedeyhteisön ja kansalaisten käyttöön.
Lääketutka Lääketutka
PIE Lexicon Proto-Indo-European Lexicon
TDT Turku Dependency Treebank
Hae keskitetysti kaikkien CLARIN-keskusten aineistoista CLARIN Federated Content Searchin avulla.
 

Aineistojen käsittely

WebAnno WebAnno-annotaatiotyökalu
FiNER Demo FiNER Demo (beta)
Aalto-ASR Aalto University Automatic Speech Recognition System (lataus, taito-shell)
finnish-parse Yleiskäyttöinen suomen kielen jäsennin (taito-shell)
saxon Saxon-XSLT-prosessori (taito-shell)
HFST Helsinki Finite-State Transducer Technology (lataus, taito-shell)

Development

This page contains internal documentation that might be useful for collaborators and can be public.

Data management

Task management

Information on how we use tools to keep track of tasks and workflows.

  • Jira (issue tracker, Kanban board)

Cooperation

Technical Documentation

Miscellaneous

A guide for writing tickets in JIRA

Jira can help you keep track of all your work in one place. With organized boards, lists and other views, it is easier to decide what you should be working on next. Jira is also helpful when you need to collaborate and share your workload efficiently.

As a rule of thumb, whenever you run into a task that you are not able to complete right away, you should probably create a Jira issue of it. This can prevent you from forgetting things, even though it may sometimes feel a bit silly.

You can create a new JIRA ticket or issue by clicking on the Create button on top of the window after logging in. (You may also create an issue from this link: https://jira.csc.fi/secure/CreateIssue!default.jspa, but this is generally not recommended).

Parts of a Jira issue

There are more fields than the ones shown below, but these are the ones that are recommended for our purposes. In case you don’t see all of the fields, you may select them by clicking on Configure Fields in the top right corner of the dialog box.

Project: Kielipankki (KP) is one of the ”Projects” in Jira (although, unlike normal projects, it does not have an end date).

Issue Type: In our Jira setup (our ”Kanban implementation”), several ticket types are included. The purpose of the types is to give an idea of the nature of the issue, e.g., whether it is

  • a Bug that needs fixing,
  • an Epic, a large chunk of work that will probably take months or even longer to complete and will contain a number of various kinds of tasks,
  • a Story that will probably take several days of work and may potentially include subtasks, or
  • a short and simple Task.
    (See JIRA Practices for details.)

Summary: A concise gist of the work to be completed. The purpose of the summary is to make it possible for the reader to quickly see what the goal of the issue is, i.e., ”who needs what and why”.

  • If there are several stages in the work, you should create subtasks.
  • In case there are several goals that are related to one another, create several issues and add links between them (select More:Link in the Issue view).
  • In some Board views, only the initial portion of the Summary (or the Epic Name) will be displayed, which you should consider if you end up writing a lengthy Summary line. A further specification of the goal should be provided in the Description, see below.
  • Note that the summary is not ”a title of the subject area”. In case the goal is unclear, the issue may never get done, since you cannot easily tell whether it has been completed. (If you were assigned an unclear issue, you should assign it back to the Reporter and ask for a clear specification.)

Priority should be set if known. See JIRA Practices for details.

Reporter: usually you.

Labels are tags or keywords that you may use in order to be able to efficiently search and filter your issues. You might include the work package a task or story belongs to, e.g., ”UPGRADE-WP1”, the type of work, e.g., ”documentation”, or the type of corpus, e.g., ”text” or ”speech”. Please invent labels that you are likely to use again in other issues.

Assignee is the person responsible for completing the work. Can be assigned if known, otherwise the  default person of the component will be assigned. In case different people will be completing parts of the work, you should additionally create subtasks or linked tasks for them, so as to keep the present issue visible to the current Assignee.

Attachments are files attached to the issue. Please note that depending on the security settings of the issue, the attachments may be publicly visible.

Security Level: Access permissions to see the issue and its content. None or All allows general access for logged in users, Administrators only to admins (CSC, National Co-ordinator). Devel allows access to the members of the Kielipankki project team (at University of Helsinki / CSC), and Suppl (Suppliers) gives additional access to affiliated developers, like the ones for Signbank or Sanat. The default is ”Devel”. Comments are only visible according to the Security Level of the issue, they can be further restricted.

Components: The main parts or sections of the project, i.e., in our case, Kielipankki. Components have owners, e.g., Krister owns Dissemination and Coordination, Tero owns Portal, Mietta owns Teaching. Ideally, you should have an idea about the category. But if you don’t, you can leave it blank. You may also include several Components when you see fit. Note that typically, the owner of the Component will get automatic emails about all or most changes in the issues within that Component.

Description: The free text field specifying the goals or requirements of the issue in more detail. The Description should be concise enough so as to know when the Assignee (or a person reviewing the issue) may consider the issue as Done. When writing the Description, you should consider situations where the original Reporter and/or Assignee are no longer available and someone else needs to take up the issue. Can the reader understand what needs to be done or where the necessary information is? Respect user’s privacy, do not unnecessarily disclose personal information in issues and never disclose it in issues open to all Jira users (Security Level: All or None).

Due date: You should set a due date whenever possible, since it helps the Assignee to keep track of issues. Combined with the Priority setting, the due date will make it easier for you and the rest of the team to determine what should be done next. In search filters, on Kanban boards and elsewhere in Jira, issues can be selected or sorted according to their due dates.

Tip: You can make JIRA send you reminders of issues, for instance of those with due dates that are closing up. First, select or find the desired search filter (Issues > Filters) or create and save your own filter (select Issues: Search…) and then subscribe to it (select Issues > Filters > more…). Further instructions on this:

Epic Link: In case you are creating a Task or a Story that is part of an Epic, for instance if the new issue is included in the publication process of a specific corpus, you can add a link to that Epic here. Just begin typing the name of the Epic and you will see a list of the existing options. An issue can have only one Epic Link at a time. (If the corresponding Epic does not yet exist, you may edit the issue and add the link later.)

(table id=22)

acquis-ftb3
JRC-Acquis-monikielisen rinnakkaiskorpuksen suomenkielinen osakorpus
PUB
P
KorpBicon-quote-right
Agricola
Mikael Agricolan teosten morfosyntaktinen tietokanta
PUB
P
KorpBicon-quote-right
ai2d-rst
AI2D-RST: multimodaalinen korpus peruskoulutason luonnontieteiden oppimateriaaleissa esiintyvistä diagrammeista
PUB
P
Bicon-quote-right
aku-egg
Puheen ja EGG:n samanaikaiset tallenteet
ACA
A
LATBicon-quote-right
amph
Ajatella, miettiä, pohtia, harkita -korpus
ACA
A
Bicon-quote-right
ArkiSyn-korp
Suomenkielisten arkikeskustelujen morfosyntaktinen tietokanta, Helsinki-Korp-versio
PUB
P
KorpBicon-quote-right
AVOID
Muunnellun puheen korpus
RES
R
Bicon-quote-right
BeserCorp
Udmurtin besermanin murteen korpus
PUB
P
KorpBicon-quote-right
ceal-dl
Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita suomeksi, ladattava versio
RES
R
Aicon-quote-right
ceal-o
Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita suomeksi, alkuperäisessä järjestyksessä olevat virkkeet ja kappaleet
RES
R
KorpAicon-quote-right
ceal-par-s-korp
Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita Kersti Juvan suomentamina, englanti-suomi rinnakkaiskorpus, sekoitettu, Korp
ACA
A
KorpAicon-quote-right
ceal-s
Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita suomeksi, sekoitetut kappaleet
ACA
A
KorpAicon-quote-right
cfinsl-conv
Suomalaisen viittomakielen korpus: keskusteluaineisto
RES
R
LATBicon-quote-right
cfinsl-conv-dl
Suomalaisen viittomakielen korpus: keskusteluaineisto, ladattava versio
RES
R
Bicon-quote-right
cfinsl-elicit
Suomalaisen viittomakielen korpus: kerronta-aineisto
PUB
P
LATBicon-quote-right
cfinsl-elicit-dl
Suomalaisen viittomakielen korpus: kerronta-aineisto, ladattava versio
PUB
P
Bicon-quote-right
chuvash-uhlcs
Tšuvassin korpus (UHLCS)
RES
R
CSCCicon-quote-right
coca-dl-2017H1
Corpus of Contemporary American English - Kielipankin ladattava versio (2017H1)
RES
R
Bicon-question-circleicon-quote-right
coca-korp-2017H1
Corpus of Contemporary American English - Kielipankin Korp-versio 2017H1
ACA
A
KorpBicon-question-circleicon-quote-right
coha-dl-2017H1
Corpus of Historical American English - Kielipankin ladattava versio (2017H1)
RES
R
Bicon-question-circleicon-quote-right
coha-korp-2017H1
Corpus of Historical American English -Kielipankin Korp-versio 2017H1
ACA
A
KorpBicon-question-circleicon-quote-right
concetti-amorosi
Concetti amorosi, cioè lettere giovenili, et amorose
PUB
P
Bicon-quote-right
Digilib-1920-dl
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman OCR-korpus (1875-1920)
ACA
A
Aicon-quote-right
Digilib-Pub-1874-dl
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman OCR-korpus (1771-1874)
PUB
P
Aicon-quote-right
dma
Digitaalinen muoto-opin arkisto
PUB
P
KorpBicon-question-circleicon-quote-right
dma-wn
Digitaalisen muoto-opin arkiston sanaliput
RES
R
KorpBicon-question-circleicon-quote-right
DSPCON2013-2015-dl
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-, ladattava versio
ACA
A
Cicon-quote-right
DSPCON2013-2016-dl
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-2016, ladattava versio
ACA
A
Cicon-quote-right
eduskunta-v1.5-dl
Eduskunnan täysistunnot, ladattava versio 1.5
PUB
P
Aicon-question-circleicon-quote-right
eduskunta-v1.5-korp
Eduskunnan täysistunnot, Kielipankin Korp-versio 1.5
PUB
P
KorpAicon-question-circleicon-quote-right
eduskunta-v1-lat
Eduskunnan täysistunnot, Kielipankin LAT-versio 1
PUB
P
LATAicon-question-circleicon-quote-right
ELFA-audio-dl
ELFA-korpuksen äänitiedostojen ladattava versio
RES
R
Bicon-quote-right
ELFA-korp
ELFA-korpuksen Helsinki-Korp-versio
PUB
P
KorpBicon-quote-right
ELFA-lat
ELFA-korpuksen Helsinki-LAT-versio
RES
R
LATBicon-quote-right
ELFA-txt&xml-dl
ELFA-korpuksen litteraattien ladattava versio
PUB
P
LATBicon-quote-right
english-uhlcs
Englannin korpus (UHLCS)
RES
R
CSCCicon-quote-right
erzya-moksha-komi-uhlcs
Ersän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuutta (UHLCS)
RES
R
CSCCicon-quote-right
erzya-moksha-uhlcs
Ersän ja mokšan sanaluettelokorpus (UHLCS)
RES
R
CSCCicon-quote-right
estonian1-uhlcs
Viron korpus 1 (UHLCS)
RES
R
CSCCicon-quote-right
estonian2-uhlcs
Viron korpus 2 (UHLCS)
RES
R
CSCCicon-quote-right
e-thesis-de
Helsingin yliopiston saksankielisen E-thesiksen Korp-versio
PUB
P
KorpAicon-quote-right
e-thesis-en
Helsingin yliopiston englanninkielisen E-thesiksen Korp-versio
PUB
P
KorpAicon-quote-right
e-thesis-es
Helsingin yliopiston espanjankielisen E-thesiksen Korp-versio
PUB
P
KorpAicon-quote-right
e-thesis-fi
Helsingin yliopiston suomenkielisen E-thesiksen Korp-versio
PUB
P
KorpAicon-quote-right
e-thesis-fr
Helsingin yliopiston ranskankielisen E-thesiksen Korp-versio
PUB
P
KorpAicon-quote-right
e-thesis-ru
Helsingin yliopiston venäjänkielisen E-thesiksen Korp-versio
PUB
P
KorpAicon-quote-right
e-thesis-sv
Helsingin yliopiston ruotsinkielisen E-thesiksen Korp-versio
PUB
P
KorpAicon-quote-right
fbc-dl
Suomalaisen radio- ja tv-korpuksen ladattava versio
RES
R
Bicon-quote-right
fbc-lat
Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio
RES
R
LATBicon-quote-right
Fenno-ugrica
Fenno-ugrica, Kielipankki-versio
PUB
P
KorpBicon-quote-right
finka-dl
Raja-Karjalan korpuksen ladattava versio
PUB
P
Bicon-question-circleicon-quote-right
finka-lat
Raja-Karjalan korpus, Kielipankin LAT-versio
PUB
P
LATBicon-question-circleicon-quote-right
FinnFrameNet-s
Suomalaisen FrameNetin Sanat-versio
PUB
P
SanatBicon-quote-right
finnish-bibles-uhlcs
Suomen korpus (raamatut) (UHLCS)
ACA
A
CSCCicon-quote-right
finnish-literature-uhlcs
Suomen korpus (kirjallisuutta) (UHLCS)
RES
R
CSCCicon-quote-right
FinnTransFrameNet-s
Suomalaisen TransFrameNetin Sanat-versio
PUB
P
SanatBicon-quote-right
FinnTreeBank1
Suomen kielen puupankki 1
PUB
P
Bicon-quote-right
FinnTreeBank2-dl
Suomen puupankki FinnTreeBank 2:n ladattava versio
PUB
P
Bicon-quote-right
FinnTreeBank2-korp
Suomen puupankki FinnTreeBank 2:n Helsinki-Korp-versio
PUB
P
KorpBicon-quote-right
FinnTreeBank3-dl
Suomen puupankki FinnTreeBank 3:n ladattava versio
PUB
P
Bicon-quote-right
FinnTreeBank3-korp
Suomen puupankki FinnTreeBank 3:n Helsinki-Korp-versio
PUB
P
KorpBicon-quote-right
FinnWordNet-dl
Suomalaisen WordNetin ladattava versio
PUB
P
Bicon-quote-right
FinnWordNet-s
Suomalaisen WordNetin Sanat-versio
PUB
P
SanatBicon-quote-right
FinStud86
FinStud86-korpus
RES
R
KorpCicon-quote-right
FinSveStud 79-80
Studentsvenska 79-80 -korpus
RES
R
KorpCicon-quote-right
FiRuLex-fi
FiRuLex, venäjä-suomi lakitekstien vertailevan tekstikorpuksen suomenkielinen osakorpus
PUB
P
KorpBicon-quote-right
FiRuLex-ru
FiRuLex, venäjä-suomi lakitekstien vertailevan tekstikorpuksen venäjänkielinen osakorpus
PUB
P
KorpBicon-quote-right
FNC1
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkieliset n-grammit 1820-2000
PUB
P
Aicon-quote-right
fstc-korp
Suomenruotsin tekstikokoelman (UHLCS) Helsinki-Korp-versio
RES
R
KorpCicon-quote-right
fstc-taito
Suomenruotsin tekstikokoelman (UHLCS) Taito-versio
RES
R
CSCCicon-quote-right
ftc-dl
Suomen kielen tekstikokoelman ladattava versio
RES
R
Bicon-question-circleicon-quote-right
ftc-korp
Suomen kielen tekstikokoelman Helsinki-Korp-versio
RES
R
KorpBicon-question-circleicon-quote-right
fvcc_v1
Suomen kielen verbaalisia koloratiivikonstruktioita
PUB
P
Bicon-quote-right
GeM-HTB
Multimodaalinen korpus Helsingin kaupungin matkailuesitteistä vuosilta 1967-2008
PUB
P
Bicon-quote-right
giellagas-north
Pohjoissaamen näytekorpus
RES
R
LATBicon-quote-right
glowbe-dl-2017H1
Corpus of Global Web-Based English - Kielipankin ladattava versio (2017H1)
RES
R
Bicon-question-circleicon-quote-right
glowbe-korp-2017H1
Corpus of Global Web-Based English - Kielipankin Korp-versio 2017H1
ACA
A
KorpBicon-question-circleicon-quote-right
Gutenberg
Suomenkielinen Gutenberg-korpus
PUB
P
KorpBicon-quote-right
hallituskausi-2007–2011
Hallituskausi 2007–2011 -käännösmuisti
PUB
P
Cicon-quote-right
hallituskausi-2011–2015
Hallituskausi 2011–2015 -käännösmuisti
PUB
P
Cicon-quote-right
hcs-a-v2
Helsinki Swahili -korpus 2.0, annotoitu versio
ACA
A
KorpBicon-quote-right
hcs-na-v2
Helsinki Swahili -korpus 2.0, ei annotoitu versio
PUB
P
Bicon-quote-right
HC-TEI-XML
Helsinki Corpus TEI-XML edition (2011)
ACA
A
KorpBicon-quote-right
HeKo-Europarl
Helsinki Korp Europarl aineistokokoelma
PUB
P
KorpBicon-quote-right
HeKo-JRC-Acquis
Helsinki Korp JRC-Acquis aineistokokoelma
PUB
P
KorpBicon-quote-right
helpuhe1
Helsingin puhekielen pitkittäiskorpus (1970, 1990, 2010)
RES
R
LATBicon-question-circleicon-quote-right
helpuhe1-dl
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) ladattava versio
RES
R
Bicon-question-circleicon-quote-right
HS.fi
HS.fi-uutiskommenttiaineisto
ACA
A
KorpBicon-quote-right
ICLFI
Kansainvälinen oppijansuomen korpus
RES
R
KorpBicon-quote-right
iijoki-korp
Iijoki, Oulun yliopiston Päätalo-kokoelma, Kielipankki Korp -versio
ACA
A
KorpBicon-question-circleicon-quote-right
ingrian-uhlcs
Inkeroisen korpus (UHLCS)
RES
R
CSCCicon-quote-right
Karjalansuomi
Karjalan suomen sanomalehtikorpus
ACA
A
KorpBicon-quote-right
kfspc-korp
Kotuksen suomi-ruotsi rinnakkaiskorpuksen Helsinki-Korp-versio
PUB
P
KorpBicon-quote-right
kfspc-korp-fi
Kotuksen suomi-ruotsi rinnakkaiskorpuksen Helsinki-Korp-version suomenkielinen osakorpus
PUB
P
KorpBicon-quote-right
kfspc-korp-sv
Kotuksen suomi-ruotsi rinnakkaiskorpuksen Helsinki-Korp-version ruotsinkielinen osakorpus
PUB
P
KorpBicon-quote-right
khanty-uhlcs
Hantin korpus (pohjoishantin aineistot ja käännökset) (UHLCS)
RES
R
CSCCicon-quote-right
Kipo
Suomen viittomakielten kielipoliittinen ohjelma 2010 -korpus, annotoitu versio
PUB
P
LATBicon-quote-right
Kivi
Aleksis Kivi -korpus (SKS)
PUB
P
KorpBicon-quote-right
kks
Karjalan kielen sanakirja
PUB
P
Bicon-quote-right
KLK-fi
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio
PUB
P
KorpAicon-quote-right
KLK-sv
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman ruotsinkielinen osakorpus, Kielipankki-versio
PUB
P
KorpAicon-quote-right
komi-uhlcs
Komisyrjäänin korpus (UHLCS)
RES
R
CSCCicon-quote-right
kra
Keskiranskan korpus
RES
R
CSCicon-question-circleicon-quote-right
Lakeja&direktiiveja
Lakeja ja direktiivejä, Kielipankki-versio
PUB
P
Korpicon-quote-right
LA-murre-korp
Lauseopin arkiston murrekorpuksen Helsinki-Korp-versio
PUB
P
Korpicon-question-circleicon-quote-right
LA-murre-lat
Lauseopin arkiston murrekorpuksen Helsinki-LAT-versio
PUB
P
LATicon-question-circleicon-quote-right
LA-murre-vrt
Lauseopin arkiston murrekorpuksen Helsinki ladattava versio
PUB
P
icon-question-circleicon-quote-right
LAS2
Edistyneiden suomenoppijoiden korpus
RES
R
Korpicon-quote-right
LAS2-dl
Edistyneiden suomenoppijoiden korpuksen ladattava versio
RES
R
icon-quote-right
latin-uhlcs
Latinan korpus (UHLCS)
ACA
A
CSCicon-quote-right
lehdet90ff
1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 1
PUB
P
Korpicon-quote-right
lehdet90ff-dl
1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpuksen ladattava versio
ACA
A
icon-quote-right
lehdet90ff-dl-v2
1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpuksen ladattava versio 2
ACA
A
icon-quote-right
lehdet90ff-v2
1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2
PUB
P
Korpicon-quote-right
lehdet90ff-vrt-v2
1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus (VRT), versio 2
ACA
A
icon-quote-right
lettere-amorose
Lettere amorose
PUB
P
icon-quote-right
lettere-varie
Lettere varie di complimenti amorose, e giocose
PUB
P
icon-quote-right
lude-uhlcs
Lyydin korpus (UHLCS)
RES
R
CSCicon-quote-right
MULCOLD
MULCOLD, monikielinen lakitekstien rinnakkaiskorpus
PUB
P
Korpicon-quote-right
MULCOLD-de
MULCOLD, monikielisen lakitekstien rinnakkaiskorpuksen saksankielinen osakorpus
PUB
P
Korpicon-quote-right
MULCOLD-en
MULCOLD, monikielisen lakitekstien rinnakkaiskorpuksen englanninkielinen osakorpus
PUB
P
Korpicon-quote-right
MULCOLD-ru
MULCOLD, monikielisen lakitekstien rinnakkaiskorpuksen venäjänkielinen osakorpus
PUB
P
Korpicon-quote-right
nenets-uhlcs
Nenetsin korpus (UHLCS)
RES
R
CSCicon-quote-right
north-saami-literature-uhlcs
Pohjoissaamen korpus (kirjallisuutta) (UHLCS)
RES
R
CSCicon-quote-right
north-saami-report-uhlcs
Pohjoissaamen korpus (Sámikultuvradoaibmagotti smiehttamush) (UHLCS)
RES
R
CSCicon-quote-right
opensub-fi-2017-src
Suomenkielinen OpenSubtitles 2017, lähdemateriaali
PUB
P
icon-quote-right
Opus-Korp
Opus, Helsinki-Korp-versio
PUB
P
Korpicon-quote-right
opusparcus-v1
Opusparcus: Open Subtitles Paraphrase Corpus for Six Languages (version 1.0)
PUB
P
icon-quote-right
oracc-2017-09-vrt
Open Richly Annotated Cuneiform Corpus, ladattava versio, syyskuu 2017
PUB
P
icon-question-circleicon-quote-right
oracc-korp-2017-09
Open Richly Annotated Cuneiform Corpus, Korp-versio, syyskuu 2017
PUB
P
Korpicon-question-circleicon-quote-right
oracc-korp-2019-05
Open Richly Annotated Cuneiform Corpus, Korp-versio, toukokuu 2019
PUB
P
Korpicon-question-circleicon-quote-right
ota
Kokoelma Oxford Text Archiven julkistekstejä
PUB
P
CSCicon-quote-right
oulu
Oulun korpus
RES
R
CSCicon-quote-right
ParFin2016
ParFin 2016 - suomi-venäjä kaunokirjallisten tekstien rinnakkaiskorpus
RES
R
Korpicon-quote-right
parole-fi
Suomen kielen Parole-korpus
RES
R
CSCicon-quote-right
parole-sv
Ruotsin kielen Parole-korpuksen Helsinki-Korp-versio
RES
R
Korpicon-quote-right
parole-sv
Ruotsin kielen Parole-korpuksen Helsinki-Korp-versio
RES
R
Korpicon-quote-right
ParRus2016
ParRus 2016, venäjä-suomi kaunokirjallisten tekstien rinnakkaiskorpus
RES
R
Korpicon-quote-right
psychlingdesc
Psykolingvistiset tunnusluvut
PUB
P
icon-quote-right
quantlang-uhlcs
Kvantifiointi suomessa ja keskisen Volgan ja Kaman alueella puhuttavissa kielissä (UHLCS)
RES
R
CSCicon-quote-right
Reittidemo-korp
Reitti A-siipeen -korpuksen Helsinki-Korp-versio
PUB
P
Korpicon-quote-right
Reittidemo-lat
Reitti A-siipeen -korpuksen Helsinki-LAT-versio
PUB
P
LATicon-quote-right
rel-freq-fi-lit
Relative frequencies of part-of-speech n-grams in native and translated Finnish literary prose
PUB
P
icon-quote-right
Sananparsikokoelma
Sananparsikokoelma, Kielipankki-versio
PUB
P
Korpicon-quote-right
ScotsCorr
Helsinki Corpus of Scottish Correspondence (1540-1750)
ACA
A
Korpicon-quote-right
semfinlex-asd-2018-vrt
Eduskunnan alkuperäissäädöksiä vuosilta 1734-2018, latausversio
PUB
P
icon-question-circleicon-quote-right
semfinlex-asd-fi-2018-korp
Eduskunnan alkuperäissäädöksiä suomeksi vuosilta 1734-2018, korp-versio
PUB
P
Korpicon-question-circleicon-quote-right
semfinlex-asd-sv-2018-korp
Eduskunnan alkuperäissäädöksiä ruotsiksi vuosilta 1920-2018, korp-versio; Ursprungliga författningar av Riksdagen på svenska från 1920-2018, korp-versionen
PUB
P
Korpicon-question-circleicon-quote-right
semfinlex-kko-kho-2018-vrt
Korkeimman oikeuden ja Korkeimman hallinto-oikeuden päätöksiä vuosilta 1980-2018, latausversio
PUB
P
icon-question-circleicon-quote-right
semfinlex-kko-kho-fi-2018-korp
Korkeimman oikeuden ja Korkeimman hallinto-oikeuden päätöksiä suomeksi vuosilta 1980-2018, korp-versio
PUB
P
Korpicon-question-circleicon-quote-right
semfinlex-kko-kho-sv-2018-korp
Korkeimman oikeuden ja Korkeimman hallinto-oikeuden päätöksiä ruotsiksi vuosilta 1980-2018, korp-versio; Avgöranden av Högsta domstolen och Högsta förvaltningsdomstolen på svenska 1980-2018, korp-versionen
PUB
P
Korpicon-question-circleicon-quote-right
semfinlex-kko-kho-sv-2018-vrt
Korkeimman oikeuden ja Korkeimman hallinto-oikeuden päätöksiä vuosilta 1980-2018 ruotsiksi, latausversio
PUB
P
icon-quote-right
semfinlex-par-2018-korp
Eduskunnan alkuperäissäädöksiä vuosilta 1920-2018, korp-versio (rinnakkaiskorpus)
PUB
P
Korpicon-question-circleicon-quote-right
seuruu
Murteenseuruukorpus
RES
R
LATicon-quote-right
sfnet
SFNET-keskusteluryhmäkorpus
ACA
A
icon-quote-right
sinebrychoff-fi
Paul Sinebrychoffin kirjekorpuksen Kielipankki-version suomenkielinen osakorpus
PUB
P
Korpicon-quote-right
sinebrychoff-sv
Paul Sinebrychoffin kirjekorpuksen Kielipankki-version ruotsinkielinen osakorpus
PUB
P
Korpicon-quote-right
SKK
Suomalaisen kirjallisuuden klassikoita, Kielipankki-versio
PUB
P
Korpicon-quote-right
SKN-korp
Suomen kielen näytteitä -korpuksen Helsinki-Korp-versio
PUB
P
Korpicon-question-circleicon-quote-right
SKN-lat
Suomen kielen näytteitä -korpuksen Helsinki-LAT-versio
PUB
P
LATicon-question-circleicon-quote-right
SKVR
Suomen kansan vanhat runot
PUB
P
Korpicon-quote-right
SNC1
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman ruotsinkieliset n-grammit 1770-1940
PUB
P
icon-quote-right
snowfrog
ProGram-aineisto. Lumiukko- ja sammakkotarinat
PUB
P
LATicon-quote-right
SSDC-2016
Koltansaamen dokumentaatiokorpus (2016)
RES
R
LATicon-quote-right
stt-fi-1992-2018-src
STT:n uutisarkisto 1992-2018, lähdemateriaali
RES
R
icon-quote-right
Suomi24-2001-2014-dl
Suomi 24 2001-2014 (näyte) -korpuksen ladattava versio
ACA
A
icon-question-circleicon-quote-right
Suomi24-2001-2014-korp
Suomi 24 2001-2014 (näyte) -korpuksen Helsinki-Korp-versio
PUB
P
Korpicon-question-circleicon-quote-right
Suomi24-2001-2015
Suomi 24 2001-2015 (näyte) -korpus
ACA
A
icon-question-circleicon-quote-right
suomi24-2001-2017-korp-v1-1
Suomi24 virkkeet -korpus 2001-2017, Korp-versio 1.1
PUB
P
Korpicon-question-circleicon-quote-right
suomi24-2001-2017-vrt-v1-1
Suomi24 -korpus 2001-2017, VRT-versio 1.1
ACA
A
icon-quote-right
Suomi24-2015H1
Suomi 24 -korpus (2015H1)
ACA
A
icon-question-circleicon-quote-right
Suomi24-2016H2
Suomi 24 -korpus (2016H2)
ACA
A
icon-question-circleicon-quote-right
Suomi24-korp-2016H2
Suomi 24 virkkeet -korpus (2016H2)
PUB
P
Korpicon-question-circleicon-quote-right
Suomi24-virkkeet-2015H2
Suomi 24 virkkeet -korpus (2015H2)
ACA
A
Korpicon-question-circleicon-quote-right
susanne-uhlcs
Englannin kielen SUSANNE-korpus (UHLCS)
RES
R
CSCicon-quote-right
taaf
Triangle of Aspects Analysis of Frozen
ACA
A
icon-quote-right
taajuussanasto9996
Suomen sanomalehtikielen taajuussanasto
PUB
P
icon-quote-right
topling-en
TOPLING - toisen kielen oppimisen polut, englanninkielinen osakorpus
RES
R
Korpicon-quote-right
topling-fi
TOPLING - toisen kielen oppimisen polut, suomenkielinen osakorpus
RES
R
Korpicon-quote-right
topling-sv
TOPLING - toisen kielen oppimisen polut, ruotsinkielinen osakorpus
RES
R
Korpicon-quote-right
TSK-35
Työsuojelusanasto (TSK 35)
PUB
P
icon-quote-right
TSK-49
Kelan terminologinen sanasto - Etuuksiin liittyvät käsitteet, 4. laitos (TSK 49)
PUB
P
icon-quote-right
ume-saami-uhlcs
Uumajansaamen korpus (UHLCS)
RES
R
CSCicon-quote-right
uralic-uhlcs
Uralilaisia, turkkilaisia, indo-iranilaisia ja mongolikieliä sekä Siperian ja Kaukasian kieliä (UHLCS)
RES
R
CSCicon-quote-right
Uudenvuodenpuheet
Tasavallan presidenttien uudenvuodenpuheet
PUB
P
Korpicon-quote-right
uzbek-uhlcs
Uzbekki-englanti sanakirja (UHLCS)
RES
R
CSCicon-quote-right
wanca2016-korp
Wanca 2016, Korp-versio
PUB
P
Korpicon-quote-right
wanca2016-src
Wanca 2016, lähdemateriaali
PUB
P
icon-quote-right
wanca2016-vrt
Wanca 2016, VRT
PUB
P
icon-quote-right
wikipedia-fi-2017-src
Suomenkielinen Wikipedia 2017, lähdemateriaali
PUB
P
icon-quote-right
VKS
Vanhan kirjasuomen korpus
PUB
P
Korpicon-quote-right
VNSK
Varhaisnykysuomen korpus, Kielipankki-versio
PUB
P
Korpicon-quote-right
wordlists-uhlcs
Sanaluettelokorpus (UHLCS)
RES
R
CSCicon-quote-right
wordnet
WordNet, englannin kielen sanastotietokanta, Kielipankki-versio
PUB
P
CSCicon-quote-right
ylenews-fi-2011-2018-korp
Ylen suomenkielinen uutisarkisto 2011-2018, Korp
ACA
A
Korpicon-question-circleicon-quote-right
ylenews-fi-2011-2018-selko-korp
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, Korp
ACA
A
Korpicon-question-circleicon-quote-right
ylenews-fi-2011-2018-selko-s-korp
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, sekoitettu, Korp
PUB
P
Korpicon-question-circleicon-quote-right
ylenews-fi-2011-2018-selko-src
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, lähdemateriaali
ACA
A
icon-question-circleicon-quote-right
ylenews-fi-2011-2018-s-korp
Ylen suomenkielinen uutisarkisto 2011-2018, sekoitettu, Korp
PUB
P
Korpicon-question-circleicon-quote-right
ylenews-fi-2011-2018-src
Ylen suomenkielinen uutisarkisto 2011-2018, lähdeaineisto
ACA
A
icon-question-circleicon-quote-right
ylenews-sv-2012-2018-korp
Ylen ruotsinkielinen uutisarkisto 2012-2018, Korp
ACA
A
Korpicon-question-circleicon-quote-right
ylenews-sv-2012-2018-s-korp
Ylen ruotsinkielinen uutisarkisto 2012-2018, sekoitettu, Korp
PUB
P
Korpicon-question-circleicon-quote-right
ylenews-sv-2012-2018-src
Yle svenska webbartiklar 2012-2018, källmaterial
ACA
A
icon-question-circleicon-quote-right
Ylilauta
Ylilauta-korpus
PUB
P
Korpicon-quote-right
Ylilauta-dl
Ylilauta-korpuksen ladattava versio
PUB
P
icon-quote-right
ylioppilasaineet
1994, 1999 ja 2004 äidinkielen ylioppilaskokeiden esseitä sisältävä korpus
RES
R
Korpicon-quote-right

(table id=23)

PERSO
PERSO Databases for Finnish Speech Synthesis
c
c
TXT, WAV
a
ELAN
a
Lat
icon-quote-rightMartti Vainio, Heini Kallio
helpuhe-v2-lat
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki LAT versio 2
RES
R
c
c
TextGrid
b
ELAN
a
Lat
Bicon-question-circleicon-quote-rightHanna Lappalainen
helpuhe-2010txt
Helsingin puhekielen pitkittäiskorpus (2010-luvun tekstimuotoinen aineisto)
c
c
TextGrid
a
VRT
a
Korp
icon-question-circleicon-quote-rightHanna Lappalainen
BFT
Tieteen termipankki
PUB
P
a
Sanat
icon-quote-rightTiina Onikki-Rantajääskö
HC
Helsinki Corpus of English Texts (1991)
c
c
XML
b
VRT
a
Korp
icon-quote-rightTerttu Nevalainen, Jukka TyrkköCoRD,OTA, muuta
Akkala
Puhutun ja kirjoitetun akkalansaamen korpus
a
a
a
VRT
a
Korp
icon-quote-rightMichael Riessler
aikakauslehtikorpus
Kotuksen aikakauslehtikorpus
c
c
b
VRT
a
Korp
icon-quote-rightElisa Stenvall
DIALUKI
DIALUKI - toisen ja vieraan kielen lukemisen ja kirjoittamisen diagnosointi
RES
R
c
a
TXT
a
VRT
a
Korp
icon-quote-rightAri Huhta
DSPCON2013-2015-lat
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-, Helsinki LAT -versio
c
a
TXT, WAV, TextGrid
a
VRT
a
Lat
icon-quote-rightMikko Kurimo,
Seppo Enarvi
ERME
ERME Ersän ja mokšan laajennettu korpus
c
b
XML
b
VRT
a
Korp
icon-quote-rightJack Ruetermuuta
Ersä
Ersän puhekielen korpus
c
c
a
ELAN
a
Lat
icon-quote-rightRiho Grünthal
FinIntas
The FinINTAS Corpus of Spontaneous and Read-aloud Finnish Speech
a
c
wav + Praat
a
ELAN
a
Lat
icon-quote-rightMietta Lennes
HS
Helsingin Sanomien arkisto -korpus
c
a
a
VRT
a
Korp
icon-quote-rightJarkko Rahkonen
Inkerin murteet
Inkerin murteiden korpus
a
a
WORD-DOC, MP3, WAV
a
VRT, ELAN
a
Lat
icon-quote-rightMarjatta Palanderwww, muuta
Kiltinänsaame (UHLCS)
Kiltinänsaamen korpus (UHLCS)
c
c
PDF
b
PDF
a
icon-quote-rightPirkko Suihkonen
Kiltinänsaame
Kirjoitetun kiltinänsaamen korpus
PUB
P
a
a
a
VRT
b
Korp
icon-quote-rightMikael Riessler
Lönnrot
Elias Lönnrotin kirjeenvaihto
PUB
P
c
a
XML
a
VRT
a
Korp
icon-quote-rightKirsi Keravuoriwww
Nganasan
Nganasanin kielen puhekorpus
c
a
ELAN
a
VRT, ELAN
a
Lat
icon-quote-rightLarisa Leisiö
ProoF
ProoF - Maahanmuuttajien suomen kielen ääntäminen
a
a
wav + Praat
a
ELAN
a
Lat
icon-quote-rightMietta Lennes
Prosodiakorpus
Suomen kielen prosodian variaation korpus
a
a
a
ELAN
a
Lat
icon-quote-rightTommi Kurki, Tommi Nieminen
Saamen kielen korpus
Puhutun saamen kielen korpus (Giellagas)
c
c
a
ELAN
b
Lat
icon-quote-rightMarko Jouste
SignWiki
a
a
a
ELAN
a
Lat
icon-quote-rightLeena Savolainenwww
Suvi
Suvi-verkkosanakirja
a
a
a
ELAN
a
Lat
icon-quote-rightLeena Savolainenwww
TAITO
TAITO-hankkeen kirjalliset ja suulliset aineistot
a
a
TXT
a
ELAN
a
Lat
icon-quote-rightMarjo Vesalainenwww
Turjansaame
Puhutun ja kirjoitetun turjansaamen korpus
PUB
P
a
a
TXT
a
VRT
a
Korp
icon-quote-rightMichael Riessler
Yle-subtitle
Ylen ruututekstikorpus
a
a
TXT
a
VRT
a
Korp
icon-quote-rightJukka Mäkisalo
Opus ECB
Opus EKP -korpus
PUB
P
a
a
a
icon-quote-rightJörg Tiedemann
Opus EU
Opus EU -korpus
PUB
P
a
a
a
icon-quote-rightJörg Tiedemann
Opus Localization
Opus lokalisointi -korpus
a
a
a
icon-quote-rightJörg Tiedemann
Opus Subtitles
Opus tekstitys -korpus
PUB
P
a
a
a
icon-quote-rightJörg Tiedemann
nmk-lat
Nimimaiseman muutos -korpuksen Helsinki LAT -versio
ACA
A
c
a
a
ELAN
a
LAT
icon-quote-rightElisa Stenvall
nmk-korp
Nimimaiseman muutos -korpuksen Helsinki Korp -versio
ACA
A
c
a
a
VRT
a
Korp
icon-quote-rightElisa Stenvall
helpuhe-v2-korp
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki Korp versio 2
RES
R
c
a
a
a
Lat
#REF!icon-quote-rightHanna Lappalainen
sus-fieldwork
Suomalais-Ugrilaisen Seuran kenttätyökorpus
PUB
P
c
a
a
VRT
a
Korp
icon-question-circleicon-quote-rightJack Rueter
ona
Oulun nauhoitearkisto
RES
R
c
b
a
ELAN
a
Lat
icon-quote-rightNiina Kunnas
dma-v2PUB
P
c
VRT
a
Korp
icon-quote-right
acquis-ftb3-dl
JRC-Acquis-monikielisen rinnakkaiskorpuksen suomenkielinen osakorpus, ladattava versio
PUB
P
VRT
a
icon-quote-right
long-second
Long Second -korpus: Suomen kielen kehittyminen alakoulun valmistavalla luokalla
b
c
ELAN, MP4
a
VRT, ELAN
a
Lat, Korp
icon-quote-rightMaria Ahlholm
ha-korp
Ha-kieliaineiston Helsinki-Korp-versio
PUB
P
c
c
TXT
a
VRT
a
Korp
icon-quote-rightLotta Aunio
amph-korp
Ajatella, miettiä, pohtia, harkita -korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-rightAntti Arppe
erzya-moksha-komi-uhlcs-korp
Ersän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuutta (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
english-uhlcs-korp
Englannin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
erzya-moksha-uhlcs-korp
Ersän ja mokšan sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
estonian1-uhlcs-korp
Viron korpus 1:n (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
estonian2-uhlcs-korp
Viron korpus 2:n (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
finnish-bibles-uhlcs-korp
Suomen korpus (raamatut) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
finnish-literature-uhlcs-korp
Suomen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
ingrian-uhlcs-korp
Inkeroisen korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
hanty-uhlcs-korp
Hantin korpus (pohjoishantin aineistot ja käännökset) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
komi-uhlcs-korp
Komisyrjäänin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
latin-uhlcs-korp
Latinan korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
wordlists-uhlcs-korp
Sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
lude-uhlcs-korp
Lyydin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
nenets-uhlcs-korp
Nenetsin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
north-saami-literature-uhlcs-korp
Pohjoissaamen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
north-saami-report-uhlcs-korp
Pohjoissaamen korpuksen (Sámikultuvradoaibmagotti smiehttamush) (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
ume-saami-uhlcs-korp
Uumajansaamen korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
uralic-uhlcs-korp
Uralilaisia, turkkilaisia, indo-iranilaisia ja mongolikieliä sekä Siperian ja Kaukasian kieliä (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
uzbek-uhlcs-korp
Uzbekki-englanti sanakirjan (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
kra-korp
Keskiranskan korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
oulu-korp
Oulun korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
parole-fi-korp
Suomen kielen Parole-korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
sfnet-korp
SFNET-keskusteluryhmäkorpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
DSPCON2013-2015-korp
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-2015, Helsinki-Korp-version
c
c
TXT
a
VRT
a
Korp
icon-quote-rightMikko Kurimo,
Seppo Enarvi
FinnTreeBank1-korp
Suomen kielen puupankki 1:n Helsinki-Korp-versio
PUB
P
c
c
TXT
a
VRT
a
Korp
icon-quote-right
quantlang-uhlcs-korp
Kvantifiointi suomessa ja keskisen Volgan ja Kaman alueella puhuttavissa kielissä (UHLCS), Helsinki-Korp-versio
c
c
PDF
a
VRT
a
Korp
icon-quote-right
VVKS
Virtuaalinen vanha kirjasuomi (VVKS) -kokoelman Kielipankin Korp-versio
PUB
P
c
a
a
VRT
a
Korp
icon-quote-rightMari Siiroinen
NorDiga
Nordican digitaalinen arkisto
a
a
a
VRT
a
Korp
icon-quote-rightJan Lindströmwww
stat-fi-sv
Tilastokeskuksen suomi-ruotsi-käännösmuisti
c
TMX
b
TMX
a
Lataus
icon-quote-right
stat-fi-en
Tilastokeskuksen suomi-englanti-käännösmuisti
c
TMX
b
TMX
a
Lataus
icon-quote-right
testipiste
Testipisteaineisto
c
a
VRT
a
Korp
icon-quote-rightJanne Laitinen
CCMH
Muinaiskirkkoslaavin korpus
a
Lataus, Korp
icon-quote-rightJouko Lindstedt
enets
a
a
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
Lataus, LAT, Korp
icon-quote-rightOlesya Khanina
nzadi
a
a
WAV, PDF, TXT
a
WAV, PDF, TXT
a
Lataus, LAT, Korp
icon-quote-rightThera Marie Crane
komi-dl
a
b
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
Lataus, LAT
icon-quote-rightNiko Partanen
wikipedia-fi-2017-korp
Suomenkielinen Wikipedia 2017, Korp
PUB
P
c
c
VRT
b
VRT
a
Korp
icon-quote-rightTatu Huovilainen
opensub-fi-2017-korp
Suomenkielinen OpenSubtitles 2017, Kielipankki Korp-versio
PUB
P
c
c
VRT
b
VRT
a
Korp
icon-quote-rightTatu Huovilainen
nlfcl
Kansalliskirjaston klassikkokirjasto - Kielipankki-versio
a
b
VRT
a
Korp
icon-quote-right
fedidi
Murteita käsittelevien fennististen väitöskirjojen lähdetietokanta
a
c
TXT
c
TXT
a
Lataus
icon-quote-right
FINKA
Raja-Karjalan korpus
PUB
P
c
a
VRT
a
VRT
a
Korp
icon-quote-rightMarjatta Palander
stt-fi-1992-2018-korp
STT:n uutisarkisto 1992-2018, Kielipankin Korp-versio
PUB
P
c
a
VRT
a
Korp
icon-quote-rightOlli Viitala
eduskunta-v2-dl
a
a
MP4, WAV, TXT
a
WAV, ELAN, VRT
a
Lataus
icon-question-circleicon-quote-right
eduskunta-v2-korp
a
c
TXT
a
WAV, ELAN, VRT
a
Korp
icon-question-circleicon-quote-right
ylenews-fi-2011-2018-selko-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, VRT
ACA
A
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-fi-2011-2018-selko-s-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, sekoitettu, VRT
PUB
P
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-fi-2011-2018-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, VRT
ACA
A
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-fi-2011-2018-s-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, sekoitettu, VRT
PUB
P
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-sv-2012-2018-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, VRT
ACA
A
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightMikael Hindsberg
ylenews-sv-2012-2018-s-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, sekoitettu, VRT
PUB
P
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightMikael Hindsberg
pabivus-s-korp
Raamatun jakeita uralilaisille kielille, rinnakkaiskorpus, sekoitettu, Korp
PUB
P
a
c
TXT
a
VRT
a
Korp
icon-quote-rightJack Rueter
stt-fi-1992-2018-conllu-src
STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali
RES
R
c
c
TXT
c
TXT
a
Lataus
icon-quote-rightKhalid Alnajjar
e-thesis-en-korp-v1-1
Helsingin yliopiston englanninkielinen E-thesis 1999-2016, Korp versio 1.1
PUB
P
a
c
PDF
a
VRT
a
Korp
icon-quote-right
oracc-2019-05-vrt
Open Richly Annotated Cuneiform Corpus, ladattava versio, toukokuu 2019
PUB
P
a
c
VRT
a
VRT
a
Lataus
icon-question-circleicon-quote-rightHeidi Jauhiainen
dma-wn-src
Digitaalisen muoto-opin arkiston sanaliput, lähdemateriaali
RES
R
c
PDF
a
Lataus
icon-question-circleicon-quote-right
PERSO
PERSO Databases for Finnish Speech Synthesis
c
c
TXT, WAV
a
ELAN
a
Lat
icon-quote-rightMartti Vainio, Heini Kallio
helpuhe-v2-lat
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki LAT versio 2
RES
R
c
c
TextGrid
b
ELAN
a
Lat
Bicon-question-circleicon-quote-rightHanna Lappalainen
helpuhe-2010txt
Helsingin puhekielen pitkittäiskorpus (2010-luvun tekstimuotoinen aineisto)
c
c
TextGrid
a
VRT
a
Korp
icon-question-circleicon-quote-rightHanna Lappalainen
BFT
Tieteen termipankki
PUB
P
a
Sanat
icon-quote-rightTiina Onikki-Rantajääskö
HC
Helsinki Corpus of English Texts (1991)
c
c
XML
b
VRT
a
Korp
icon-quote-rightTerttu Nevalainen, Jukka TyrkköCoRD,OTA, muuta
Akkala
Puhutun ja kirjoitetun akkalansaamen korpus
a
a
a
VRT
a
Korp
icon-quote-rightMichael Riessler
aikakauslehtikorpus
Kotuksen aikakauslehtikorpus
c
c
b
VRT
a
Korp
icon-quote-rightElisa Stenvall
DIALUKI
DIALUKI - toisen ja vieraan kielen lukemisen ja kirjoittamisen diagnosointi
RES
R
c
a
TXT
a
VRT
a
Korp
icon-quote-rightAri Huhta
DSPCON2013-2015-lat
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-, Helsinki LAT -versio
c
a
TXT, WAV, TextGrid
a
VRT
a
Lat
icon-quote-rightMikko Kurimo,
Seppo Enarvi
ERME
ERME Ersän ja mokšan laajennettu korpus
c
b
XML
b
VRT
a
Korp
icon-quote-rightJack Ruetermuuta
Ersä
Ersän puhekielen korpus
c
c
a
ELAN
a
Lat
icon-quote-rightRiho Grünthal
FinIntas
The FinINTAS Corpus of Spontaneous and Read-aloud Finnish Speech
a
c
wav + Praat
a
ELAN
a
Lat
icon-quote-rightMietta Lennes
HS
Helsingin Sanomien arkisto -korpus
c
a
a
VRT
a
Korp
icon-quote-rightJarkko Rahkonen
Inkerin murteet
Inkerin murteiden korpus
a
a
WORD-DOC, MP3, WAV
a
VRT, ELAN
a
Lat
icon-quote-rightMarjatta Palanderwww, muuta
Kiltinänsaame (UHLCS)
Kiltinänsaamen korpus (UHLCS)
c
c
PDF
b
PDF
a
icon-quote-rightPirkko Suihkonen
Kiltinänsaame
Kirjoitetun kiltinänsaamen korpus
PUB
P
a
a
a
VRT
b
Korp
icon-quote-rightMikael Riessler
Lönnrot
Elias Lönnrotin kirjeenvaihto
PUB
P
c
a
XML
a
VRT
a
Korp
icon-quote-rightKirsi Keravuoriwww
Nganasan
Nganasanin kielen puhekorpus
c
a
ELAN
a
VRT, ELAN
a
Lat
icon-quote-rightLarisa Leisiö
ProoF
ProoF - Maahanmuuttajien suomen kielen ääntäminen
a
a
wav + Praat
a
ELAN
a
Lat
icon-quote-rightMietta Lennes
Prosodiakorpus
Suomen kielen prosodian variaation korpus
a
a
a
ELAN
a
Lat
icon-quote-rightTommi Kurki, Tommi Nieminen
Saamen kielen korpus
Puhutun saamen kielen korpus (Giellagas)
c
c
a
ELAN
b
Lat
icon-quote-rightMarko Jouste
SignWiki
a
a
a
ELAN
a
Lat
icon-quote-rightLeena Savolainenwww
Suvi
Suvi-verkkosanakirja
a
a
a
ELAN
a
Lat
icon-quote-rightLeena Savolainenwww
TAITO
TAITO-hankkeen kirjalliset ja suulliset aineistot
a
a
TXT
a
ELAN
a
Lat
icon-quote-rightMarjo Vesalainenwww
Turjansaame
Puhutun ja kirjoitetun turjansaamen korpus
PUB
P
a
a
TXT
a
VRT
a
Korp
icon-quote-rightMichael Riessler
Yle-subtitle
Ylen ruututekstikorpus
a
a
TXT
a
VRT
a
Korp
icon-quote-rightJukka Mäkisalo
Opus ECB
Opus EKP -korpus
PUB
P
a
a
a
icon-quote-rightJörg Tiedemann
Opus EU
Opus EU -korpus
PUB
P
a
a
a
icon-quote-rightJörg Tiedemann
Opus Localization
Opus lokalisointi -korpus
a
a
a
icon-quote-rightJörg Tiedemann
Opus Subtitles
Opus tekstitys -korpus
PUB
P
a
a
a
icon-quote-rightJörg Tiedemann
nmk-lat
Nimimaiseman muutos -korpuksen Helsinki LAT -versio
ACA
A
c
a
a
ELAN
a
LAT
icon-quote-rightElisa Stenvall
nmk-korp
Nimimaiseman muutos -korpuksen Helsinki Korp -versio
ACA
A
c
a
a
VRT
a
Korp
icon-quote-rightElisa Stenvall
helpuhe-v2-korp
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki Korp versio 2
RES
R
c
a
a
a
Lat
icon-question-circleicon-quote-rightHanna Lappalainen
sus-fieldwork
Suomalais-Ugrilaisen Seuran kenttätyökorpus
PUB
P
c
a
a
VRT
a
Korp
icon-quote-rightJack Rueter
ona
Oulun nauhoitearkisto
RES
R
c
b
a
ELAN
a
Lat
icon-quote-rightNiina Kunnas
dma-v2PUB
P
c
VRT
a
Korp
icon-quote-right
acquis-ftb3-dl
JRC-Acquis-monikielisen rinnakkaiskorpuksen suomenkielinen osakorpus, ladattava versio
PUB
P
VRT
a
icon-quote-right
long-second
Long Second -korpus: Suomen kielen kehittyminen alakoulun valmistavalla luokalla
b
c
ELAN, MP4
a
VRT, ELAN
a
Lat, Korp
icon-quote-rightMaria Ahlholm
ha-korp
Ha-kieliaineiston Helsinki-Korp-versio
PUB
P
c
c
TXT
a
VRT
a
Korp
icon-quote-rightLotta Aunio
amph-korp
Ajatella, miettiä, pohtia, harkita -korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-rightAntti Arppe
erzya-moksha-komi-uhlcs-korp
Ersän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuutta (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
english-uhlcs-korp
Englannin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
erzya-moksha-uhlcs-korp
Ersän ja mokšan sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
estonian1-uhlcs-korp
Viron korpus 1:n (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
estonian2-uhlcs-korp
Viron korpus 2:n (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
finnish-bibles-uhlcs-korp
Suomen korpus (raamatut) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
finnish-literature-uhlcs-korp
Suomen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
ingrian-uhlcs-korp
Inkeroisen korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
hanty-uhlcs-korp
Hantin korpus (pohjoishantin aineistot ja käännökset) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
komi-uhlcs-korp
Komisyrjäänin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
latin-uhlcs-korp
Latinan korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
wordlists-uhlcs-korp
Sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
lude-uhlcs-korp
Lyydin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
nenets-uhlcs-korp
Nenetsin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
north-saami-literature-uhlcs-korp
Pohjoissaamen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
north-saami-report-uhlcs-korp
Pohjoissaamen korpuksen (Sámikultuvradoaibmagotti smiehttamush) (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
ume-saami-uhlcs-korp
Uumajansaamen korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
uralic-uhlcs-korp
Uralilaisia, turkkilaisia, indo-iranilaisia ja mongolikieliä sekä Siperian ja Kaukasian kieliä (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
uzbek-uhlcs-korp
Uzbekki-englanti sanakirjan (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
kra-korp
Keskiranskan korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
oulu-korp
Oulun korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
parole-fi-korp
Suomen kielen Parole-korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
sfnet-korp
SFNET-keskusteluryhmäkorpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
icon-quote-right
DSPCON2013-2015-korp
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-2015, Helsinki-Korp-version
c
c
TXT
a
VRT
a
Korp
icon-quote-rightMikko Kurimo,
Seppo Enarvi
FinnTreeBank1-korp
Suomen kielen puupankki 1:n Helsinki-Korp-versio
PUB
P
c
c
TXT
a
VRT
a
Korp
icon-quote-right
quantlang-uhlcs-korp
Kvantifiointi suomessa ja keskisen Volgan ja Kaman alueella puhuttavissa kielissä (UHLCS), Helsinki-Korp-versio
c
c
PDF
a
VRT
a
Korp
icon-quote-right
VVKS
Virtuaalinen vanha kirjasuomi (VVKS) -kokoelman Kielipankin Korp-versio
PUB
P
c
a
a
VRT
a
Korp
icon-quote-rightMari Siiroinen
NorDiga
Nordican digitaalinen arkisto
a
a
a
VRT
a
Korp
icon-quote-rightJan Lindströmwww
stat-fi-sv
Tilastokeskuksen suomi-ruotsi-käännösmuisti
c
TMX
b
TMX
a
Lataus
icon-quote-right
stat-fi-en
Tilastokeskuksen suomi-englanti-käännösmuisti
c
TMX
b
TMX
a
Lataus
icon-quote-right
testipiste
Testipisteaineisto
c
a
VRT
a
Korp
icon-quote-rightJanne Laitinen
CCMH
Muinaiskirkkoslaavin korpus
a
Lataus, Korp
icon-quote-rightJouko Lindstedt
enets
a
a
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
Lataus, LAT, Korp
icon-quote-rightOlesya Khanina
nzadi
a
a
WAV, PDF, TXT
a
WAV, PDF, TXT
a
Lataus, LAT, Korp
icon-quote-rightThera Marie Crane
komi-dl
a
b
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
Lataus, LAT
icon-quote-rightNiko Partanen
wikipedia-fi-2017-korp
Suomenkielinen Wikipedia 2017, Korp
PUB
P
c
c
VRT
b
VRT
a
Korp
icon-quote-rightTatu Huovilainen
opensub-fi-2017-korp
Suomenkielinen OpenSubtitles 2017, Kielipankki Korp-versio
PUB
P
c
c
VRT
b
VRT
a
Korp
icon-quote-rightTatu Huovilainen
nlfcl
Kansalliskirjaston klassikkokirjasto - Kielipankki-versio
a
b
VRT
a
Korp
icon-quote-right
fedidi
Murteita käsittelevien fennististen väitöskirjojen lähdetietokanta
a
c
TXT
c
TXT
a
Lataus
icon-quote-right
FINKA
Raja-Karjalan korpus
PUB
P
c
a
VRT
a
VRT
a
Korp
icon-quote-rightMarjatta Palander
stt-fi-1992-2018-korp
STT:n uutisarkisto 1992-2018, Kielipankin Korp-versio
PUB
P
c
a
VRT
a
Korp
icon-quote-rightOlli Viitala
eduskunta-v2-dl
a
a
MP4, WAV, TXT
a
WAV, ELAN, VRT
a
Lataus
icon-question-circleicon-quote-right
eduskunta-v2-korp
a
c
TXT
a
WAV, ELAN, VRT
a
Korp
icon-question-circleicon-quote-right
ylenews-fi-2011-2018-selko-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, VRT
ACA
A
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-fi-2011-2018-selko-s-vrt
Ylen suomenkielisen uutisarkiston selkouutiset 2011-2018, sekoitettu, VRT
PUB
P
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-fi-2011-2018-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, VRT
ACA
A
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-fi-2011-2018-s-vrt
Ylen suomenkielinen uutisarkisto 2011-2018, sekoitettu, VRT
PUB
P
c
c
TXT
a
VRT
a
Lataus
icon-quote-right
ylenews-sv-2012-2018-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, VRT
ACA
A
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightMikael Hindsberg
ylenews-sv-2012-2018-s-vrt
Ylen ruotsinkielinen uutisarkisto 2012-2018, sekoitettu, VRT
PUB
P
c
c
JSON
a
VRT
a
Lataus
icon-quote-rightMikael Hindsberg
pabivus-s-korp
Raamatun jakeita uralilaisille kielille, rinnakkaiskorpus, sekoitettu, Korp
PUB
P
a
c
TXT
a
VRT
a
Korp
icon-quote-rightJack Rueter
stt-fi-1992-2018-conllu-src
STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali
RES
R
c
c
TXT
c
TXT
a
Lataus
icon-quote-rightKhalid Alnajjar
e-thesis-en-korp-v1-1
Helsingin yliopiston englanninkielinen E-thesis 1999-2016, Korp versio 1.1
PUB
P
a
c
PDF
a
VRT
a
Korp
icon-quote-right
oracc-2019-05-vrt
Open Richly Annotated Cuneiform Corpus, ladattava versio, toukokuu 2019
PUB
P
a
c
VRT
a
VRT
a
Lataus
icon-question-circleicon-quote-rightHeidi Jauhiainen
dma-wn-src
Digitaalisen muoto-opin arkiston sanaliput, lähdemateriaali
RES
R
c
PDF
a
Lataus
icon-question-circleicon-quote-right

CSC:n Tutkijan käyttöliittymä

Tutkijan käyttöliittymä eli SUI (Scientist’s User Interface) on poistettu käytöstä.

Korvaavat palvelut:

x

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317